相関係数
相関係数(そうかんけいすう、英: correlation coefficient)とは、2つ以上のデータまたは確率変数の間にある関係の強弱を測る指標である[1][2]。
普通、単に相関係数といえばピアソンの積率相関係数を指す[3]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する(パラメトリック)方法である[4]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる[5][6]。
日本産業規格では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している[7]。
相関係数の一覧
編集相関係数には以下のものなどがある。
- ピアソンの積率相関係数
- 偏相関係数
- 級内相関係数
- 順位相関係数
- 分割表の連関係数
誤解や誤用
編集相関と因果の混同
編集ピアソンの積率相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない[1][2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。
- AがBを発生させる
- BがAを発生させる
- 第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。ジューディア・パール[8]やドナルド・ルービン[9]などによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。
相関係数と回帰係数の混同
編集相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。 初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。 また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。
HARKing
編集また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、HARKingと呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、第一種や第二種の過誤をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。
脚注
編集- ^ a b 栗林 2011, p. 18.
- ^ a b Drouet Mari & Kotz 2001, 2.2.1. Linear relationship.
- ^ 中西他 2004.
- ^ 和田恒之. “統計学セミナー 第5回資料 相関 (Correlation)” (PDF). 北海道対がん協会. 2016年5月31日閲覧。
- ^ Debasis Bhattacharya (Ph. D.); Soma Roychowdhury (2012). Statistics in Social Science and Agricultural Research. Concept Publishing Company. p. 74. ISBN 978-81-8069-822-4
- ^ Chris Spatz (2007-05-16). Basic Statistics: Tales of Distributions. Cengage Learning. pp. 319-320. ISBN 0-495-38393-7
- ^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.9 相関, 日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html
- ^ Judea Pearl. 2000. Causality: Models, Reasoning, and Inference, Cambridge University Press.
- ^ Rubin, Donald (1974). “Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies”. J. Educ. Psychol. 66 (5): 688-701 [p. 689]. doi:10.1037/h0037350.
参考文献
編集- 稲垣宣生『数理統計学』裳華房、1990年。ISBN 4-7853-1406-0。
- 中西寛子、岩崎学、時岡規夫『実用統計用語事典』オーム社、2004年。ISBN 4-274-06554-5 。
- 栗原伸一『入門統計学―検定から多変量解析・実験計画法まで』オーム社、2011年。ISBN 978-4-274-06855-3 。
- Drouet Mari, Dominique; Kotz, Samuel (2001). Correlation and Dependence. Imperial College Press. ISBN 1-86094-264-4. MR1835042
- Hedges, Larry V.; Olkin, Ingram (1985). Statistical Methods for Meta-Analysis. Academic Press. ISBN 0-12-336380-2. MR0798597
- 伏見康治『確率論及統計論』河出書房、1942年。ISBN 9784874720127 。
- 日本数学会『数学辞典』岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語、日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html