情報学部大学生のダラダラ日記

β日記

機械学習や日記っぽいものを書きます

統計学入門(基礎統計学Ⅰ)第3章演習問題(ブートストラップ法など)

スポンサーリンク

第3章(2次元データ)

3.1

データが多く、面倒くさいのでやりません。散布図を求め、相関係数を求める問題は多くあるのでそちらをやりましょう。

3.2

タバコと肺がんの関係は統計的にあることが証明されているが、自分が喫煙者としてどう正当化すべきか、との問題でしたが思い浮かばないので省略します。

3.3

4グループ*30位の順位づけデータがあり、それぞれ好きな組み合わせでスピアマン、ケンドールの順位相関係数を求めよ。

スピアマンの順位相関係数

{\displaystyle r_s=1-\frac{6}{n^3-n}\sum_i(R_i-R_i')^2}

6が出てくることに違和感がありますが、これは順位(1,2,...n)の2乗の和、つまりΣn^2の1/6からきています。詳しい導出方法は別途ご覧ください。

スピアマンの順位相関係数 統計学入門

ケンドールの順位相関係数

i,j(1,2,...n)があり、{\displaystyle R_iとR_j}の上下関係が同じである場合には+1,異なる場合には-1とします。それらをすべての組み合わせ{\displaystyle nC_2}パターン全て行い、加算したものをGとすると

{\displaystyle r_k=\frac{G}{n(n-1)/2}}

分母はn個から2個選ぶnC2からきています。

 

これらの相関係数からわかる通り、30順位をやるのは骨が折れるので5まで圧縮します。以下のデータの数値は危ないと思う技術や行動の順位です。

カラム={原子力,自動車,銃,喫煙,バイク}

A={1,2,3,4,5}

B={1,4,2,3,5}

これのA,Bの順位相関係数を求めます。

{\displaystyle r_s=1-\frac{6}{5^3-5}((1-1)^2+(2-4)^2\\+(3-2)^2+(4-3)^2+(5-5)^2)=0.7}

次はケンドールの順位相関係数を求めます。

(1,1)と(2,4)は+1

(1,1)と(3,2)は+1

(1,1)と(4,3)は+1

(1,1)と(5,5)は+1

(2,4)と(3,2)は-1

(2,4)と(4,3)は-1

(2,4)と(5,5)は+1

(3,2)と(4,3)は+1

(3,2)と(5,5)は+1

(4,3)と(5,5)は+1

全て足すと8-2=6です。

{\displaystyle r_k=\frac{6}{5(5-1)/2}=0.6}

3.4<ブートストラップ>

まず、乱数を生成しサンプリングをし、さらにサンプル内の相関係数を求めるプログラムを書きます。

f:id:Parco1021:20200409174009p:plain

そして次にこれを200回繰り返し、相関係数ヒストグラムを作ります。

f:id:Parco1021:20200409174215p:plain

f:id:Parco1021:20200409174239p:plain

このように、母集団から標本を繰り返し抽出し、母集団の性質を推定する方法をブートストラップ法といいます。本データではサンプリングして相関係数を求めた結果、大体0.5ぐらいであることがわかります。

 

今回のコードもgithubへあげています。

github.com

 

 

 

 

 

スポンサーリンク