文章の中のひらがな

 おたきさんに言われて、効率よく字を学ぶために、実際にひらがなの使用頻度を調べてみることにした。ぐぐって調べた結果は以下のようなものがあった。

 「あいうえおかきくけこ……」一番使われているひらがなはどれ?

 自分のBlogにおける「ひらがなの出現頻度」を、パソコンを使って調べてみよう!(kanji2na+morogram編、244万文字頻度付き)

 上記のサイトをまず見たのだけれど、サンプル数がちょっと少ないので、下記のサイトも参考にした。
 上位文字は「い」「う」「ん」「か」「し」「と」「て」「の」「な」「た」となっていて2サイトとも似た結果になっている。

 上記の2サイトは、漢字をひらがなに逆変換してから計算している。しかし、わたしはあくまで純粋に書き取りが目的なので、このデータでは多少不備があるようにおもった。そこで珍しく自サイトの変換しないひらがな統計を取ってみることにした。下図がその結果。


 多少集計方法は違うが、ほぼ似たような結果となっているが、決定的に違うのが「ん」の出現率である。今回の集計は私のblogの約57万文字を対象に検索したので、多分「ん」は単語のなかで使われることが多いのであろう。音として使うことと実際にひらがなで使用されることは別だということがここから分かる。

 系統的に接続に使われる「てにをはのかへ」あたりが多いのは予想できたが、「へ」というのは以外に使わないらしい。「う」に関しても単語の中に多い文字らしくランク的にはかなり落ちている。ちなみに私は純粋に書く回数が多い物をしりたかったので、半濁音、濁音については合計して順位を出している。

 割合的なものも、上位5文字で全体の約27%、上位10文字で約57%をしめることをみると頻度が高い文字から書き取りをすることがえらく効率的な事が分かる。

 ちなみに調べ方は技術者とは思えないベタさで恥ずかしいが、単純に秀丸で「あ」を「あ」に全置換してその数を記録していった。「っゃゅょ」などの小文字はすべて無視している。無視しているといえば格好は良いが単に忘れていた。まぁ57万文字の中からの検索なのである程度の傾向は掴めるのではないだろうか。私の文章の癖は大いにあるだろうけれど。

 まぁある意味今回の調査は自分の書き取りのためなので、自分の書く文章で統計を取ったのが一番確実名のだろうけれど。ちなみにどうでも良い話だが、「ぴ」とかの出現率は、ぴょんちゃんという固有名詞でえらく増えているだろうからあまり参考にならない気がする。