「偶然と必然の方程式」をご紹介
1 きっかけ
大学院では主に公共政策について学んでいます。先行事例を研究し、自分の派遣元自治体でどのように課題を解決して行くべきかを考えて行くプロセスのおいて、データサイエンスは非常に有効です。しかし、いざ職場においては分かっていても前例主義の仕事が多く、なかなか分析する時間も気持ちの余裕も作れなかったのが本音です。
そこで、大学院にいる1年間で、折角なのでデータサイエンス手法を学ぼうと思い、文系なのに無理してデータサイエンス関係の授業を手当たり次第受講しています。しかしやっぱり理解することが難しい授業も多く、そんな中大学院の図書館で”データサイエンス入門”と書かれた本を見つけたので読んでみました。
2 本の基本情報
◆書名 偶然と必然の方程式
◆著者 マイケル・J・モーブッシン
◆出版社 日経BP社
◆出版日 2013年6月24日
3 概要
◆運と実力
・運 人やグループに影響する偶然の出来事、向上させる方法はない
・実力 効果的かつ容易に知識を実行に移せる能力
→相互に作用している
※ド・モアブルの方程式
サンプルの平均値のバラツキが、サンプルの大きさに反比例する
実力を測るには、サンプルの大きさは関係ない
◆偏見
・物語を人は好む、運があっても実力のように思い込む
・失敗例のサンプリング不足、人は成功から学ぼうとする
→偏見や調べすぎが原因(無意識、運の役割を理解していない)
・実力を高めることは、成功への近道
努力の最終結果に寄与する一要因
◆全体分布の把握
・実力が向上すると運がより重要になる
分散が徐々に低下して一定の値へ収束 = 実力より運が重要になっていく
※分散=標準偏差(平均からどれだけ離れているか)を二乗したもの
◆運と実力の相対的な寄与度の分析
・原因と結果 容易に見つかれば実力が大きく影響
・平均への回帰速度 早い回帰は運が大きく影響
・どんな分析で上手に予測できるか 専門家の予測が正確で一様なら実力
→「運だけだったら」、「それが全て実力の結果だったら」を想像する
その後に実際のデータを観察(「実力」=「観察された結果」−「運」)
◆実力の変化
・年齢 例)スポーツ
・知能 流動性知能:学んだことに依存しない(年齢によって減)
結晶性知能:学習知識(年齢によって増)
・IQ(知能指数)
・RQ(合理性) 認知の実力を示す
◆結果への影響
・社会的影響(初期条件、調査方法、偏見)
◆役に立つ統計
・持続性が高い(=信頼性)、予測可能性(=妥当性があるか)
◆実力を高めるか否か=取組が「運〜実力連続体」のどの位置か
・実力>運 訓練に重視
・実力<運 プロセスに意識
・チェックリストの活用
行って確認する、読んでから行う 例)医療チェックリスト
実用的かつ組織が使用を支配することが重要、適切にデータを集め分析する
→原因と結果が明白となる
◆重要点
・正しい分析、バイアスの意識、正確なフォードバック
・平均への回帰(平均への収束)
活用することで予測の精度を高める
※ブラックスワン(まれ値)の存在に注意
・意図的な訓練の停滞
・結果の検証には、まず単純なモデル(ヌルモデル)の結果と比較すべき
・反事実的思考(後知恵、バイアスを避ける)
・統計のサンプルの大きさと測定期間が、予測の精度に大きく影響する
状況と統計を精査すべきであり、物事の変化にも注意
4 思ったこと
データサイエンスや統計学を学んでいて思うことは、身近な例があると理解し易いことです。授業では「気温と消費電力」、この本では「運と実力」というように、普段から思うことや実体験しているものであればあるほど、中身自体の面白さに惹かれ、自分も分析したくなるような気持ちになります。
一方で、こんな基本的なことさえ仕事の中では出来ていなかったのかと思うと、恥ずかしささえ感じます。派遣元に戻った1年目が一番期待値が高まっている時です。現在の研究内容においても派遣元での政策提言及び改革を意識して、取り組んでいきたいと思います。