※当サイトはアフィリエイト広告を利用しています

データサイエンス

検出力も考えてる?サンプルサイズの決め方

くるみる

くるみる

ベンチャーにてweb制作から機械学習まで幅広い分野を担当、その後、都内IT大企業にてデータサイエンティストとして現在勤務中。 エンジニアリングの知識を持ったビジネスマンになりたく、企画も奮闘中。 TOEIC885点。統計学。機械学習。

検定を行うにあたって、サンプルサイズを考えるということはとても重要です。

サンプルサイズは大きければ大きいほどいいんでしょ?と考えている人がいますが、それは間違いです。

多くの人は有意水準にだけ目を向けて検定を行いますがそれだけでは完全な検定はできません。

検定を行うにあたっては、検出力も考慮に入れないといけません。

本記事では、検出力って何?そもそも有意水準も考え方が怪しい。と言った人のために、これらの語句の説明と、サンプルサイズ設計をどのようにやっていくのかということを解説していこうと思います。

サンプルサイズ設計が大事な理由

タブレットがぶら下がっている

サンプルサイズが大きすぎても小さすぎてもダメな理由とは何なのでしょう?

それは、サンプルサイズが大きいと第一種の過誤が、サンプルサイズが小さいと第二種の過誤が起きるからです。

ん?過誤?と思った人も安心してください。

あとで具体例を使ってわかりやすく説明します。

ここでは一旦、第一種の過誤は帰無仮説が成り立っているのに、対立仮説が正しいとしてしまうこと。

第二種の過誤は、対立仮説が成り立っているのに、帰無仮説が正しいとしてしまうこと。

と認識してください。

いかにまとめた表を載せます。

実際に帰無仮説が成り立っている実際に対立仮説が成り立っている
検定で帰無仮説が正しいとする正しい第二種の過誤(β)
検定で対立仮説が正しいとする第一種の過誤(α)正しい

慣習的に、ある検定が行われたときに、第一種の過誤が起きる確率をα、第二種の過誤が起きる確率をβとすることが多いです。

αは有意水準における判断に使います。

βは1-βの値を検出力として使います。

第一種の過誤

第一種の過誤とは、帰無仮説が成り立っているのに、対立仮説が正しいとしてしまうこと、という定義でした。

これはサンプルサイズが大きいときに起こりやすくなります。

ここでは、より想像しやすくするために具体例で説明していこうと思います。

今回は、英語のテストの点数を上げるには何をやればいいのかというお題で考えていきましょう。

そこで、片目を閉じながらテストを受けると英語のテストの点数が上がるという仮説を立てたとしましょう。

明らかに成り立たない仮説ですね。

この時の、帰無仮説と対立仮説は以下のようになります。

帰無仮説片目を閉じながらテストを受けても英語のテストの点数は上がらない。
対立仮説片目を閉じながらテストを受けると英語のテストの点数が上がる。

この検証を行うために、テスト直前に洋画を見てないグループとテスト直前に洋画を見たグループにそれぞれ1万人ずつ分けて実験しました。

すると、両目でテストを受けたグループは平均点が60.5点、片目を閉じながらテストを受けたグループは平均点が60.6点という結果が出ました。

p値も0.04であり、有意水準を0.05と置くと有意な差であると言えます。

明らかにおかしい仮説なのになぜこのような結果になったのでしょうか?

もちろん仮説が正しかったという場合も考えられますが、今回は仮説が正しくないとして説明していきます。

一番考えられる理由としては、両目でテストを受けたグループと片目を閉じながらテストを受けたグループの間にそもそもの学力の差があったということが考えられます。

テストを受ける前にどれだけ、平均点が同じになるようにグループを分けていたとしても、0.1点ぐらいであれば誤差で平均点の差が生まれてしまうということはあり得ます。

このように検証の環境をどれだけ整えても、見えないバイアスが少しでも乗ってしまうと、結果に差が生じてしまいます。

そしてこのような場合にサンプルサイズが大きければ大きいほど、p値が低くなってしまうので、結果的に有意差があるという結論になってしまうのです。

こう言った、小さなバイアスがp値に影響しないようにするために、サンプルサイズは大きくしすぎてはいけないのです。

第二種の過誤

第二種の過誤とは、対立仮説が成り立っているのに、帰無仮説が正しいとしてしまうこと、という定義でした。

これはサンプルサイズが小さいときに起こりやすくなります。

より具体的に説明していきたいと思います。

こちらは先ほどの第一種の過誤よりも想像しやすいかと思います。

今回も、英語のテストの点数を上げるには何をやればいいのかというお題で考えていきましょう。

そこで毎日、英文の音読をすれば英語のテストの点数が上がるという仮説を立てたとします。

仮説をまとめると以下のようになります。

帰無仮説毎日英文の音読をしても英語のテストの点数は上がらない。
対立仮説毎日英文の音読をすると英語のテストの点数が上がる。

今回は5人ずつのグループに分けて検証しました。

その結果以下のような結果でした。

毎日英文の音読をした毎日英文の音読をしなかった
80点70点
85点74点
78点72点
77点64点
30点70点
平均点 70点平均点 70点

まず、検定の結果だけで見ると平均点が変わらないため、今回は帰無仮説が棄却できず、有意差はなかったという結論になります。

しかし、結果を見てあなたはどう思うでしょう?おそらく毎日英文の音読をしたグループの方が点数が上がるのではないかという結論を持つのではないでしょうか?

なぜなら、毎日英文の音読をしたグループの30点を取った人がいなければ、こちらのグループの平均は80点になるからです。

検定の後詳しく聞いてみると、どうやらこの30点をとった人は、前日発売されたゲームを徹夜でやっていて、テスト中頭が回ってなかったみたいです。

こう言った明らかに傾向が違う値を外れ値と言います。

サンプルサイズが小さいとこの外れ値の影響が強くなって、有意差がある事象に対して、有意差がないと結論づけてしまうことが起こりやすくなります。

つまり、第二種の過誤が起こってしまうのです。

サンプルサイズが大きくなるほどこの外れ値の影響は少なくなるため、ある程度サンプルサイズを大きくすることは大事になります。

サンプルサイズの決め方

建設的な議論をする男女

サンプルサイズは大きすぎても小さすぎてもダメ。

では、適切なサンプルサイズとはどのように設計していけば良いのでしょう?

結論から申し上げると、サンプルサイズ$n$は以下の式で表すことができます。

$$ n = 2(\frac{z(\alpha / 2) - z(1-\beta)}{\Delta})^2 + \frac{z^2(\alpha/2)}{4}$$

このとき、$\alpha$は有意水準、1-$\beta$は検出力、$\Delta$は効果量、z(x)はそれ以上の値の累積和が全体のx%となるz値です。

有意水準、検出力、効果量って何?という方もいるかと思うので下で詳しく説明していこうと思います。

有意水準

有意水準とは、第一種の過誤が起きる確率をこの値以下にするという閾値です。

一般的には、母集団を正規分布と仮定して、ある事象が起きる確率をp値で表すことが多いため、このp値が有意水準を下回ったときに、対立仮説が正しいとする、というように使われます。

一般的にαで表され、値としては5%や1%が使われることが多いです。

絶対に正しい結果が欲しいというときは、1%やそれより値を用いるなど、その結果に求められる自信度によって有意水準を決めるのが良いでしょう。

検出力

検出力とは、第二種の過誤が起きない確率をこの値以上にするという閾値です。

有意水準と違って、過誤がおきない確率を表していることに注意してください。

この検出力は、第二種の過誤が起きる確率をβとして、1-βと表されることが多いです。

検出力は大体80%を使うのが一般的です。

有意水準に比べて検出力の値が緩いのは、間違って対立仮説を正しいとしてしまうことの方が、間違って帰無仮説が間違っているとは言い切れないとしてしまうことよりも、大変だからです。

間違って対立仮説が正しいとしてしまうことは、対立仮説が正しいという結論になります。

しかし、帰無仮説が間違っているとは言い切れないという結論は、必ずしも帰無仮説が正しいということを示しません。

つまり、言い切れるとする結論の方が低い確率でしか成り立たないものにした方がいいので、一般的に有意水準より検出力の方が閾値が緩いです。

効果量

効果量$\Delta$とは、対立仮説が成り立っているときに比較される母集団と比較する母集団どれだけ差が離れているかというものを表した値です。

ん?どういうこと?って人も多いかと思いますが、式を見れば納得できるはずです。

$$ \Delta = \frac{\mu_1 - \mu_0}{\sigma} $$

$\mu_1$は比較する母集団の平均値、$\mu_0$は比較される母集団の平均値、$\sigma$は標準偏差です。

今回は、二つの母集団の標準偏差は同じものとしています。

つまり二つの母集団の差を標準偏差で割ったものになります。

この効果量を見立てるには、〜%改善したら良いと言ったような目標値を使うことが多いです。

もちろんこの目標値に根拠は必要となりますが、最終的には感覚という部分が大きいでしょう。

まとめ

今回は、サンプルサイズ設計の必要性とそれを行うにあたって必要な指標の解説を行いました。

最近では、ソフトを使えばサンプルサイズ設計が簡単にできるようになりましたが、その原理は知っておいて損はないと思います。

特に特殊な検定においては、サンプルサイズ設計がややこしいこともあります。

もっと詳しく知りたい方は、以下の本を参考にすると良いと思います。

私もこの本を見て勉強しました。

ぜひサンプルサイズ設計をマスターした、データ人材を目指してください。

  • この記事を書いた人
くるみる

くるみる

ベンチャーにてweb制作から機械学習まで幅広い分野を担当、その後、都内IT大企業にてデータサイエンティストとして現在勤務中。 エンジニアリングの知識を持ったビジネスマンになりたく、企画も奮闘中。 TOEIC885点。統計学。機械学習。

-データサイエンス
-,

© 2024 はやぶさエンジニア Powered by AFFINGER5