第3章(2次元データ)
3.1
データが多く、面倒くさいのでやりません。散布図を求め、相関係数を求める問題は多くあるのでそちらをやりましょう。
3.2
タバコと肺がんの関係は統計的にあることが証明されているが、自分が喫煙者としてどう正当化すべきか、との問題でしたが思い浮かばないので省略します。
3.3
4グループ*30位の順位づけデータがあり、それぞれ好きな組み合わせでスピアマン、ケンドールの順位相関係数を求めよ。
スピアマンの順位相関係数
6が出てくることに違和感がありますが、これは順位(1,2,...n)の2乗の和、つまりΣn^2の1/6からきています。詳しい導出方法は別途ご覧ください。
ケンドールの順位相関係数
i,j(1,2,...n)があり、の上下関係が同じである場合には+1,異なる場合には-1とします。それらをすべての組み合わせパターン全て行い、加算したものをGとすると
分母はn個から2個選ぶnC2からきています。
これらの相関係数からわかる通り、30順位をやるのは骨が折れるので5まで圧縮します。以下のデータの数値は危ないと思う技術や行動の順位です。
カラム={原子力,自動車,銃,喫煙,バイク}
A={1,2,3,4,5}
B={1,4,2,3,5}
これのA,Bの順位相関係数を求めます。
次はケンドールの順位相関係数を求めます。
(1,1)と(2,4)は+1
(1,1)と(3,2)は+1
(1,1)と(4,3)は+1
(1,1)と(5,5)は+1
(2,4)と(3,2)は-1
(2,4)と(4,3)は-1
(2,4)と(5,5)は+1
(3,2)と(4,3)は+1
(3,2)と(5,5)は+1
(4,3)と(5,5)は+1
全て足すと8-2=6です。
3.4<ブートストラップ>
まず、乱数を生成しサンプリングをし、さらにサンプル内の相関係数を求めるプログラムを書きます。
そして次にこれを200回繰り返し、相関係数のヒストグラムを作ります。
このように、母集団から標本を繰り返し抽出し、母集団の性質を推定する方法をブートストラップ法といいます。本データではサンプリングして相関係数を求めた結果、大体0.5ぐらいであることがわかります。
今回のコードもgithubへあげています。