センター試験をやったことがない俺が、解答の傾向を統計的に分析してみた

2ch まとめサイトである暇人速報を見ていたら、センター試験の解答を統計的に予測してみようという大胆なスレッド[1]がありました。そのスレッドでは、id:zFTNNFUn0さんがすごくがんばって分析していました。ですが、その分析が若干荒いように感じたので、僕も分析してみました。

余談

僕は編入試験で高専から大学に入ったので、センター試験をやったことがありません。なので、あまりセンター試験に関しての知識はありません。

まず、センター試験の解答を集めました。解答は大学入試センターのサイトに無料で公開されています[2]。ここでは、手入力を簡単にするため、問題を簡単にするため、センター試験の中でも、国語の試験最新２年分（平成２５年度、平成２４年度）を手入力して引用しました。

（一応、研究目的で貼ってます。）

このデータの各列の意味は以下のとおりになります。

国語の問題の中で選択肢が５つある問題を対象とします。

対象となった問題群の解答は５つの選択肢の中ですべて等しい確率で正解番号が選ばれているのでしょうか？

これを検証するため、以下のプログラムをRで実行しました。

Rとは統計処理によくつかわれるプログラミング言語です。

プログラムの実行結果を以下に示します。

選択肢が選ばれる頻度を見てみると2と4が少ないように感じます。しかし、統計的に調べてみると、「それぞれの出現確率が等しい」と考えた時にこのような回答の傾向が起きる確率は95%なので、おそらく「それぞれの出現確率が等しい」といえるのではないのでしょうか？

ここ２年の国語のセンター試験の解答は統計的にどの選択肢番号も等しく出てくるようになっており、統計的に予測はできません。

ですので、個人的なアドバイスとしては、センター試験も近いので、集中力を高めるためにも、よく寝ることをおすすめします。

昔からネット（主に某掲示板）を見守っている偉い人も昔からこのようにいっています。

f:id:alfredplpl:20140115022520j:plain

（これが言いたかっただけだった）

ちなみに、平成２３年度のデータを見たところ、統計的には偏りがあるとは言えませんが、選択肢に若干偏りが見られるため、もしかしたら、この年度以前はコンピュータでバラバラにしていなかった可能性があります。

データを分析するとおもしろいことがわかりますね。

なにメモ