
データ分析と「見たものすべて」
前々回,前回は「見たものすべて」と新型コロナウイルス蔓延に関する話題を取り上げたが,5月25日に全都道府県の緊急事態宣言が解除されたので,今回は日常のビジネスとも深い関わりを持つテーマについて考えてみよう。
データ分析はビジネスの成功にとって不可欠の要素であろう。しかし,データ分析を行なう場合にも「見たものすべて」が災いとなることがある。よりよい判断をするためには考慮に入れなければならないデータを,その重要性に気づかずにあるいは意図的に考慮の外においてしまうのである。
カーター・レーシングのケース
調べなければならないことがあっても,それに気づかないことがあるのだ。
次の例を考えてみよう。この例はハーバード大学のビジネス・スクールで行なわれているケースメソッドの一つに採用されたケースであって実例ではなく仮想例であるが,データを解釈するときに陥りがちな弱点をついた,実にうまくできたケースだと考えられるので詳しく見てみよう。これはもともとは,1980年代というかなり以前にジャック・ブリテンとシム・シトキンの2人が考案したものである[2]。
ここでは,このケースを授業で使っていたマックス・ベイザーマン[1]にもとづいて話を進めていこう。ストーリーは次の通りである。カーター・レーシング社は今日行なわれるカーレースに自社の車を出走させるかどうかの決断を迫られていた。このケースを分析するには,自動車やレースについて詳しくなくても大丈夫である。ここで次のような状況が生じていた。
・今まで24レースに出走しているが,そのうち7レースはガスケットの故障で,2レースはその他の原因で途中リタイアしている。
・エンジン担当メカニックによると,ガスケットの故障は外気温が関わっている。これまでガスケット故障が起きた時の気温は,11.7℃,13.3℃,14.4℃,17.8℃,20.6℃,21.1 ℃,23.9℃であった。
・昨夜の気温は氷点下であり,今日の気温は4.4℃である。
・チーフメカニックは,ガスケットの故障と気温が関係しているというエンジン担当メカニックの見解には反対している。
・今日のレースはテレビで全国放送されるほか,よい成績を残せば大きなスポンサーがついて十分な資金が提供される。
つまり,カーター・レーシング社には,このレースにどうしても出たいという理由があるのだ。
こういった材料に基づき受講者はカーター・レーシング社としての意思決定を行なうわけである。この授業を担当していたマックス・ベイザーマン[1]によると,ここで興味深いのは,受講者に対して「追加の情報が必要なら言ってほしい」と繰り返し説明したのにもかかわらず,ほとんどの受講者が他の情報を求めずに,出走すると決めてしまったことだった。その理由は,故障の確率が7/24であって低いし,データから決定的なことはわからないと判断したからである。おそらくテレビ中継やスポンサー収入も判断に大きな影響を与えたであろう。
正しい判断をするためには
実は,この場合に適切な判断をするためには,故障したときの気温のデータだけでなく,故障が起きずに完走したときの気温のデータも必要なのである。ベイザーマンの授業では,数少ないが追加データを要求した受講者には,次のようなデータが渡された。
・ガスケットの故障が起こらなかった時の気温:
1.9℃,19.4℃(3回),20.0℃,20.6℃,21.1℃(2回),22.2℃,23.9℃,24.4℃(2回),26.1℃,26.7℃,27.8℃
・ガスケットの故障以外の原因で完走できなかったときの気温は22.8℃と25.6℃
ガスケット故障が起こった時の情報に,この2つの追加情報を合わせると,次の表が得られる。
気温℃ |
ガスケット故障が起こったレース数 |
総レース数 |
割 合(%) |
18℃以下 |
4 |
4 |
100 |
18℃~22℃ |
2 |
10 |
20 |
22℃~27℃ |
1 |
9 |
11 |
27℃超 |
0 |
1 |
0 |
出典:ベイザーマン[1]23頁
この表のデータをどう解釈したらよいかは,統計解析の詳しい知識がなくてもすぐにわかる。レース時の気温とガスケットの故障には高い相関があることは一目瞭然なのだ。この表から考えれば,レース当日の4.4℃という気温はありえないくらい低く,レースに出走してもガスケットの故障がおこる可能性はきわめて高いので,レースに参加しないという決断がすぐに下せるであろう。
この表によって,全レースの気温とガスケットの故障との正しい関係を見ることができるのである。つまり故障が起こった時の気温だけでなく,起こらなかった時の気温も考慮に入れることによって初めて,気温と故障の間の関係がわかることになり,レースに出るべきかどうかの正しい決断が下せるのである。目の前に提示された情報だけでなく,見えてない情報にも配慮する必要があるのだ。
スペースシャトル・チャレンジャー号分解事故
上のケースは仮想的であるが,同じような理由で人命が奪われる大事故も実際に起こっている。1986年1月にアメリカで起きたスペースシャトル・チャレンジャー号の打ち上げ直後の分解事故である。この事故で7名の乗組員が亡くなり,アメリカのスペースシャトル計画は32ヶ月間に渡り頓挫することとなってしまった。ブリテンとシトキンは,カーター・レーシングのケースを考案する時,事故の際のNASAやロケット部品製造会社の決断の仕方を参考にしたそうである。
チャレンジャー号の事故原因は,固体燃料補助ロケットの密閉用Oリングがロケット打ち上げ時に破損したことである(ウィキペディア[3])。ゴム製Oリングの製造会社の技術者は,チャレンジャー号打ち上げ当日の気温が異常に低いため,ゴム製リングの弾力性が低くなり機密性が保たれないのではないかという不安を示したと言う。しかし,製造会社やNASAの幹部は気温が低いことの危険性に気がつかずに打ち上げを強行し,事故を招いたことがわかっている。
データ分析は客観的な結論を得るために重要である。しかし,きちんとしたデータがあるとしても,それを正しく活かすことができるかどうかは人の判断にかかっている。「見るものすべて」という私たちの性質は,データ分析においても正しい判断の障害となりかねない。
参考文献・資料
[1]ベイザーマン,マックス, 2015, 『ハーバード流「気づく」技術』KADOKAWA
[2]Brittain, Jack and Sim Sitkin,1986, Carter Racing, Delta Leadership, Inc.
[3]ウィキペディア,「チャレンジャー号爆発事故」