なにメモ

コンピュータビジョンや機械学習関係の話題を書き綴ると思うブログです。

センター試験をやったことがない俺が、解答の傾向を統計的に分析してみた

はじめに

2chまとめサイトである暇人速報を見ていたら、センター試験の解答を統計的に予測してみようという大胆なスレッド[1]がありました。そのスレッドでは、id:zFTNNFUn0さんがすごくがんばって分析していました。ですが、その分析が若干荒いように感じたので、僕も分析してみました。

 

 

 

結論までとばす(高校生用)

 

余談

僕は編入試験で高専から大学に入ったので、センター試験をやったことがありません。なので、あまりセンター試験に関しての知識はありません。

 

実験準備

まず、センター試験の解答を集めました。解答は大学入試センターのサイトに無料で公開されています[2]。ここでは、手入力を簡単にするため、問題を簡単にするため、センター試験の中でも、国語の試験最新2年分(平成25年度、平成24年度)を手入力して引用しました。

gist8421752

gist8421938

(一応、研究目的で貼ってます。)

 このデータの各列の意味は以下のとおりになります。

  1. No・・・設問
  2. Part・・・解答番号
  3. Correct・・・正解番号
  4. Choices・・・選択肢の数

 

実験

国語の問題の中で選択肢が5つある問題を対象とします。

対象となった問題群の解答は5つの選択肢の中ですべて等しい確率で正解番号が選ばれているのでしょうか?

これを検証するため、以下のプログラムをRで実行しました。

Rとは統計処理によくつかわれるプログラミング言語です。 

gist8421257

 

実験結果

プログラムの実行結果を以下に示します。

gist8421613

 

選択肢が選ばれる頻度を見てみると2と4が少ないように感じます。しかし、統計的に調べてみると、「それぞれの出現確率が等しい」と考えた時にこのような回答の傾向が起きる確率は95%なので、おそらく「それぞれの出現確率が等しい」といえるのではないのでしょうか?

 

結論

ここ2年の国語のセンター試験の解答は統計的にどの選択肢番号も等しく出てくるようになっており、統計的に予測はできません

ですので、個人的なアドバイスとしては、センター試験も近いので、集中力を高めるためにも、よく寝ることをおすすめします。

昔からネット(主に某掲示板)を見守っている偉い人も昔からこのようにいっています。

 

f:id:alfredplpl:20140115022520j:plain

 (これが言いたかっただけだった)

 

ちなみに、平成23年度のデータを見たところ、統計的には偏りがあるとは言えませんが、選択肢に若干偏りが見られるため、もしかしたら、この年度以前はコンピュータでバラバラにしていなかった可能性があります。

 

データを分析するとおもしろいことがわかりますね。

 

 

[1] http://himasoku.com/archives/51826053.html?1389713145

[2] http://www.dnc.ac.jp/modules/center_exam/content0278.html