がるの健忘録

エンジニアでゲーマーで講師で占い師なおいちゃんのブログです。

相関関係と因果関係の違い

わかっちゃえば後はなんてことない話ではあるのですが。
ここが分からない、或いは「分かっていて欺そうとしているクラスタ」あたりが、比較的あちこち…具体的には、マーケティング(分析)とかコンサルティングとかビッグデータとかグロースハックとかその他諸々…で見受けられるので。
ちょうど面白い記事も見つけたことだしってんで、ちょいと言及してみようか、と。


相関関係も因果関係も、基本的には2つ(以上)の変数が関わり合います。
例えば…
・夏場における「外気温」と「アイスコーヒーの売れ行き」
・お正月における「来客数」と「お年玉総取得合計金額」
・ゲームサイトにおける「会員登録数」と「売り上げ」
・登録フォームにおける「入力項目数」と「drop率(或いは登録率)」
・解約ページにおける「解約のしにくさ」と「解約率(から予想される売り上げ)」
など。
これらは、多くの場合に、計測すると「一方が増加すると、他方が増加または減少する、二つの変数の増減の具合が、とても似通っている、つまり"相"互に"関"係している、つまり相関している」かもしれないっていうかそんな気がする直感的に。なんかそんな感じ。


夏場は、クソ熱ければ、そうでもない時よりも、アイスコーヒーはたくさん売れるかもしれません(ここでアイスティーとかアイスとかシャーベットとかジェラートとか連想しちゃいけません。ここには、冷たい飲食物はアイスコーヒーしかないんです!)。
お正月。大体「一人頭くれる金額」が似たようなものだとすると、「何人のお客様がいらっしゃいやがるか」は、get出来るお年玉金額にきっと多大なる影響を及ぼすでしょう。
ゲームサイトで、ユーザ登録数が増えればユーザが増えるので、きっと「サイトの売り上げ」だって上がるに違いありません。


なんとなく「それっぽい」感じで例をいくつか挙げてみました。
上述いずれも「相関関係がある」、正確には「相関関係があるっぽい」もの、になります。
「っぽい」ってのは簡単で。実測しているわけではないので、断定は出来ないわけです。あくまでも「っぽい」ってだけ。


さて…「証明されている、相関関係のある」変数に、以下のような物、があるそうです。
1999年〜2009年までの…
・「アメリカの科学・宇宙・テクノロジーに関する支出」と「首つり自殺数」の上昇傾向
・「水泳プールでの溺死数」と「ニコラス・ケイジの映画出演数」
・「アメリカ人1人あたりのチーズ消費量」と「ベッドシーツに絡まって死亡する数」
・「アメリカ・メイン州の離婚率」と「アメリカ人1人あたりのマーガリン消費量」
・「ミス・アメリカの年齢」と「蒸気・熱蒸気・その他熱いものによる殺人数」
・「ノルウェーからアメリカへの原油輸入量」と相関する「列車衝突による自動車運転手の死亡数」
・「アメリカ人1人あたりのモッツァレラチーズ消費量」と「米国の土木工学博士号授与数」
・「アメリカ人1人あたりのチキン消費量」と相関する「米国の原油輸入総量」
・「蜂の巣から生産されるハチミツの量」と「バーモント州における婚姻率」
・「政治活動委員会(PAC)の合計数」と「車椅子からの落下による死亡者数」


ネタ元はこちら。
http://gigazine.net/news/20140512-spurious-correlations/
厳密には、こちらは「相関関係があるっぽい」ではなくて「相関関係がある」、です。
実測値からちゃんと計算しているので、「っぽい」という曖昧なものが入らない分、より確実に「相関関係にある2つの変数」です。


さて。
では、この相関関係から、色々と状況分析と状況改善を図っていきます…ってあたりは、マーケティングとかPDCAとかグロースハックとか、その辺の文脈でおなじみの流れに乗っけていきましょう。
イメージしやすくてぶっちゃけると「欺しやすい」ところで話を進めていきます*1


・お正月における「来客数」と「お年玉総取得合計金額」
・ゲームサイトにおける「会員登録数」と「売り上げ」


お正月の来客数が増えるとお年玉が増えます。これはもぉ、両親やらなにやらにお願いして、部下同僚上司から近い親戚遠い親戚まで総動員して「来て頂くように」お願いをすれば、きっと正月の臨時収入は、うはうはです! 懇願から泣き落とし、場合によっては「軽い脅迫」まで含めて、なんとしてでも来客数が増えるように手段を尽くしてみましょう!
ゲームサイトで「売り上げを上げたい」なら、広告などをうって「会員登録数」を増やす事が有効です! 友達紹介から登録無料特典などなど、とにかく「会員登録数を増やす」為に、万策を試してみましょう!


さて。
同じ論調で、以下のことが言えます。


ニコラスケイジが映画にたくさん出演すると、水泳プールでの溺死数が増えます。溺死数を減らすために、ニコラスケイジの映画出演を食い止める必要があるでしょう。
アメリカ人1人あたりのチーズ消費量が増えると、ベッドシーツに絡まって死亡する数が増えるようです。チーズの流通を制限して、「ベッドシーツに絡まって死亡する数」が減るようにしましょう。
蜂の巣から生産されるハチミツの量が増えると、バーモント州における婚姻率が上がるようです。ミツバチを過労死寸前まで働かせることで、バーモント州における婚姻率を高めることもできますし、ミツバチを全滅させれば「リア充滅べ!」ってのが出来るわけです。
アメリカ人1人あたりのモッツァレラチーズ消費量を増やすと、米国の土木工学博士号授与数が増えます。博士をふやしたければ、モッツァレラチーズをもっと食べましょう!


…馬鹿じゃないかと正直思うわけなんですが。
「ゲームサイトで「売り上げを上げたい」なら、広告などをうって「会員登録数」を増やす事が有効です」ってのは、せいぜい「同じ程度のレイヤーの会話」でしか無いわけですね。
少なくともここの時点までは。
先に答えを書いてしまうと「2つの変数は、現時点においては少なくとも"相関関係である"ってだけでしかない」ので。「相関関係がある」程度で「改善策」にまで話を進めてしまうと、話が歪んでしまうんですね。


以下、少し詳細に。


似非マケ屋とか(似非なのかホンモンなのか知らないけど)グロースハック屋さんとかは「相関関係にあるから、片方を動かせばもう片方も動くんだ!」とかってのを割と平然とぬかしやがってますが、聞くたびに、むしろ困ります。
………突っ込み待ちなのかしらん? とかね。
当人たち、割と至って「まじめに」話をしているだけに、なおのこと困る。


ここで出てくるのが「因果関係」です。
端的には「原"因"と結"果"の関係」です。
相関関係は、前述した通り「"相"互に"関"係する関係」です。ここで「偶然」とか「無関係」ってのも「関係性の1つ」ってあたりが、色々とポイント。


・お正月における「来客数」と「お年玉総取得合計金額」
なんてのは恐らく因果関係がある可能性が高くて。なんでかっていうと「来客者が大体全員お年玉をくれると仮定すると、来客数が増えるってことはお年玉袋の数が増える事に直結。お年玉袋が内包する日本銀行券の額が大体一緒だと仮定すると、お年玉袋が増えるってことは得られる合計金額が増えることに直結する」ので、多分、因果関係があります。あくまでも多分。


一方で
・「蜂の巣から生産されるハチミツの量」と「バーモント州における婚姻率」
なんてのは九分九厘「偶然だよねぇ」で片付くわけです。
いやもちろんバタフライ効果なんてのもありますし、ちゃんと研究をして追いかけるともしかしたら「大風で土埃が立つことで目を患う人が増えて盲目になる人が増えて彼ら三味線を買うからそのためにネコがたくさん狩られるから鼠が増えてその増えた鼠が桶を囓り出すから桶を新調する必要があるから桶屋が儲かる」なんていうような感じの因果関係が見つかるかもしれませんが(これが本当に因果関係かどうかはあえて突っ込まないよ。この辺は、厳密には「前後関係の誤謬」なので。"Aが起きたからBが起きる"の因果関係で嘘付いてるから)。
ん………物凄く頑張ると「蜂蜜の生産量が増えると蜂蜜の流通量が増えると蜂蜜酒の生産量が増えると蜂蜜酒を売るためのCMとして"ハネムーン"が増えるとそのCMに引っかかる連中が洗脳されて婚姻率が増える」とか。…これも大概、前後関係の誤謬が山盛りではありますが、まぁそんな感じ的な。


で…ここから本丸に突っ込んでみる。
「ゲームサイトで「売り上げを上げたい」なら、広告などをうって「会員登録数」を増やす事が有効です」は端的に突っ込みやすいんだけど。これって必ずしも因果関係にはならないんだよね。
もちろん「一定の割合の人数が課金する」っていうのが確定な事象なら、trueなんだろうけどさ。
「広告つかってかき集めたユーザ」って、課金率が極端に低かったり、もうちょっというと「登録はしたけど翌日にはdropしてたり」する事も、通常のルートよりは多い事がおおいので。例えば「友人に"友達紹介の特典が欲しいから登録だけしてよ"」って頼まれたユーザが移行ヤリ込んでくれるとか、どれくらいの確率なんだろう? とかね。
そうすると、彼らが「課金をする」事は、あんまり期待できない。
なのに「むやみやたらに、会員数を増やすことだけに血道を上げる」と、割と燦々たる状況が待ち受ける…ってのは、経験者もそれなりにいるんじゃないかなぁ? っと。


「登録フォームにおける「入力項目数」と「drop率(或いは登録率)」」ってのも大分と頭の悪い発想で。
「じゃぁ入力項目0にすりゃいいじゃん」って極論が出てくる。勿論「煩雑なのがまずい」ってのはあるんだけど、それを単純に「入力項目数」ってところに落とし込むと、色々と間違える。


「解約ページにおける「解約のしにくさ」と「解約率(から予想される売り上げ)」」辺りになると「歴史に学ぼうよ」とか思う*2
まず「解約しにくい」と、ここで計測している以外の変数、具体的には「そのサービスの風評」とそこから予測される「入会数の鈍化」に繋がる可能性があって、そっちのほうがよっぽど怖い。
その上で「解約したいけど解約が煩雑で解約できなかった」の場合。それが「個別課金」なら以降そのユーザが何か課金行為をするかって考えるととても怪しいし。一方で「月額課金」のものであれば「唯々諾々と料金を支払うのか」というと、どちらかといえば「窓口に問い合わせてクレームぶちこんででも解約」って方向になる可能性が十分に想起されるし、そうすると「窓口」のコストが増大するか、そこを削るとそれこそ「炎上して」いらん風評が発生して以下略、って事になる可能性が高い。
ねぇHuluさん?*3


この辺の「相関関係と因果関係の違い」について、wikiに面白い記述があるので引用。
http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E9%96%A2%E4%BF%82%E3%81%A8%E5%9B%A0%E6%9E%9C%E9%96%A2%E4%BF%82

広く研究された例として、ホルモン補充療法 (HRT) を行っている女性での冠状動脈性心臓病 (CHD) の発生率が低いことから、HRT が CHD 予防に効果があるという提案がなされたことがある。しかし対照試験を行ってみると、HRTによってCHDのリスクが若干ではあるが明らかに有意な増加を示した。データを再検討してみると、HRTを受けていた女性は上流階級の婦人が多く、ダイエットやエクササイズをよく行っていたことがわかった。つまり、HRTを受けることとCHD発症率が低いことは共通の原因の結果であり、両者に提案されたような原因と結果の関係は存在しない[4]。

つまり、当初
・「ホルモン補充療法 (HRT) を行っている女性」は「冠状動脈性心臓病 (CHD) の発生率が低い」
から、この2つの変数には因果関係がある、と勘違い(相関関係はある)。
そこから実験をして、つまり
・ホルモン補充療法をすることで冠状動脈性心臓病の発生率を下げよう
と試みてみるも、今ひとつ優位な結果が出ない………あれ?


ここで「ホルモン補充療法を試した。」「冠状動脈性心臓病の発生率低下かくにん!」とかやってはいけません*4

データを再検討してみると、HRTを受けていた女性は上流階級の婦人が多く、ダイエットやエクササイズをよく行っていたことがわかった。つまり、HRTを受けることとCHD発症率が低いことは共通の原因の結果であり、両者に提案されたような原因と結果の関係は存在しない

とあるんで。恐らく
・「ホルモン補充療法 (HRT) を行っている女性」は上流階級の婦人が多い(多分、高価なんでしょう)
・上流階級の婦人(または「ホルモン補充療法を行う、程度に、健康に対する意識の高いご婦人」)はダイエットやエクササイズをよく行っている
・「ダイエットやエクササイズをよく行っている」と「冠状動脈性心臓病 (CHD) の発生率が低い」
とかって感じなのではないかなぁ? と。文章の並び的に。予想だけど。


あぁ。
相関関係で、もう一つ面白いのがあった。
・「DHMO(Dihydrogen Monoxide)という液体を摂取したことがある人」と「死亡率」
には、極めて高い相関性があります。
…っていうネタの中身を知りたい人は、 http://ja.wikipedia.org/wiki/DHMO こちらを参照のこと。


微妙に散らかしてきたんだけど、緩やかにまとめ。


「因果関係」の場合で、因の側の変数をいじると、当然ですが果のほうの変数も変わります。
なので。マケとかグロハックとかで「その2つの変数には因果関係があり、かつ、変数Aが因で変数Bが果である事までが証明出来ている」というのであれば、それはもぉ、がっつりと「変数Aをいじって」変数Bをどうにかすればよいのです。


でも。
相関関係ってのは「なんか同じように数字が動いているよねぇ」なんだけど、それが「理由があってのこと」なのか「偶然」なのかが、まず不明です。
故に、「相関関係ってだけ」だとどうなるかわからないし、因果関係にしても「果のほうの変数をいじる」と、無意味な訳です。
そんな状態で。「変数Aと変数Bに相関関係がある」ってだけで、それが「因果関係なのかどうか」の確認すらせずに「マーケティング分析だPDCAだグロースハックだ」とか騒がれても、正直、失笑レベルなのです。


勿論。
相関関係であることは割と簡単に計算ができるのですが( http://d.hatena.ne.jp/gallu/20081216/p2 )。
一方で、2つの変数が「因果関係にあること」を突き止めるのは、とても難しいんですね。手間もかかるし。
でも「手間がかかるから面倒だからいいや相関関係だけ見れば」ってのは、根本的にナニカチガウんじゃないかなぁ? とか思うわけなのです。
ましてや「いんがかんけいってなに? 相関と一緒でしょ?」とか言われると、ちょっと「不勉強に過ぎるんでないかい?」とか思うわけなのです。


分析をすること、自体は、とても有益かつ有効だと思うのですが。
「数字は嘘をつかない」ってのは事実なのですが、この言葉には「事象を数値に変換する部分」と「数値を言語化したり事象化したりする部分」を含んでいないので。
前後でいくらでも「恣意的に」動かせるんですね。


「数字を扱う」お仕事であれば。その辺、もうちょっと「真摯かつ誠実に」扱って欲しいなぁ、とか割と切実に思うのですが、どんなもんでしょうかね?

*1:欺すとか言い切った

*2:ガラケーの公式サイトあたり

*3: http://growthhack.vasily.jp/2014/02/hulu-growthhacker-2/ この辺参照。"解約ページ"の項を見た瞬間、おいちゃんは「間違ってもHuluは使うまいまい」と思ったものである

*4:ジャブ程度の小ネタな時事ネタ