効果検証・因果推論についての勉強
現在,仕事で様々なマーケティング施策の効果検証を行っています.
その際, 正確でかつ素早い(ここ重要)検証を行えるよう, 効果検証・因果推論系の書籍を読んで日々知識を拡充しています.
そこで, 人にお勧めするときのリストかつ備忘録として各書籍の特徴や勉強になった点をまとめておこうと思います. おすすめできる本ばかりですが, 前に紹介したものほどおすすめ度が高いと思ってください.
効果検証・因果推論についての書籍リスト
効果検証入門 -正しい比較のための因果推論/計量経済学の基礎-
効果検証を始めるための基本的な知識はこの本で固まったなと感じました. 効果検証をやったことがない状態からひとまず何をすればよいかがわかる状態になれます.
紹介されている手法は, ランダム化比較実験, 線形回帰, 傾向スコアマッチング, DID(差分の差分法), CausalImpact, RDD(回帰不連続デザイン)になります.
特に, 日々出会う検証手法はほとんどすべてこれらの派生と言えるので, ここを押さえておけば全く何をすればよいかわからないという状態からは抜けられます. 各手法を深めていけばきりがないと思いますが, それはおそらくどんな分野でもそうでしょう.
1点だけ欠点を述べるとするならば, RCT(ランダム化比較実験)に関する記述がやや簡略化されていることです. 数式も紹介されており一見丁寧な解説に見えるのですが, 単純無作為割り付けですべてうまくいくような書き方がされており, この点には注意が必要かと思います. RCTにも単純無作為割り付け, 乱塊法, 一対比較など複数の方法論があってそれらを適切に使用しないとセレクションバイアスが発生します. この点は下で紹介する岩崎学「統計的因果推論」が詳しいので興味のある方はそちらを見てみてください.
最後に再び良い点ですが, 参考文献が章ごとに丁寧に記載されているので必要に応じてもとの論文にあたることができます. 例えば, 次の記事は元論文をたどってDIDを深めてみたものです.
画像のようなデータを作成できます. 興味のある人はぜひ見てみてください.
上手は合成コントロールで作成した反実仮想データをグラフ化してみたものです.
統計学入門
学部時代に読んだもはや古典的名著といってもよいような書籍ですが, いまだにたまに参照します.
特に検定に関する事項や, 各確率分布の特徴の細かい部分を度忘れした際に参照します. 数学的に厳密かというとそうでもない印象がありますが, 「使う」という視点では端的にまとまっていて良い本だと思います.
確率の定義も厳密に行うのであれば現代では測度論を基礎とすることが標準的ですが, この本ではそこまで要求しません(当然ここで紹介している他の本でも要求されません). 実務でそこまで必要になることは今のところありませんし, 機械学習の基礎的な論文まで進まないと必要にならない印象です(筆者はもともと解析系なので測度論好きなのですが). 統計分野の本を読むための常識を揃えるためにはよいレベルだと思います.
序文にて「ほぼ半年(約15週間)分であって, 大学の単位数でいうと, 2単位分に相当する分量に相当している」と書かれていることから, 教科書として使用することを意識して書かれた内容になっていると思われます. そのため, 網羅的で統計を使うのであれば頭の片隅において置いたほうが良いことは一通り書かれています.
シリーズ本である次の2冊も事例の調査などでたまに参照します(「統計学入門」ほどではありませんが).
統計的因果推論の理論と実装
最初に紹介した「効果検証入門」と比較するとやや理論よりの書籍です. 因果推論における基本的な条件であるSUTVAや無作為割り付けにおける識別性条件など, 重要な条件がコンパクトに紹介されています. 各条件がきちんとフォーマルに述べられており, 基本に立ち返る必要があるときに参考になります.
また, 書籍冒頭の部分で因果推論という分野がどのように発展してきたのかをHolland, Rubin, Pearlなどの当該分野の巨人たちの主張を簡単に紹介しながら解説してくれます. そして, 現在も発展している分野なのだということを感じさせてくれ, 学習意欲をそそる構成になっています.
最後に特徴的な点として, 文中の主張や命題についてかなり細かく参考文献が明示されています. 参照している本のページ数まで記載されているので, 詳しく知りたくなったときにすぐに原典を当たれるようになっている点はすごくありがたい点です.
統計的因果推論
1つ上で紹介した「統計的因果推論の理論と実装」で頻繁に参考文献として使用されていたので気になって購入した本です. やはり頻繁に登場するだけあってとても正確でよい内容でした. 「統計的因果推論の理論と実装」と比べてもう1ランク理論よりかもしれません. 私は通読するというより知りたいポイントを絞って本書に当たるようにしています.
とくに有用だったと思う点は, 1. ランダム化比較実験の実験計画について詳しく述べられている点, 2. SUTVAと識別性条件について詳細な解説がなされている点の2点です.
ランダム化比較実験ではセレクションバイアスが起こらないかというとそんなことはなく, 単純無作為割り付けの場合には処置群/統制群のどちらかに偏った分布をしてしまうことがありえます. そのようなときに乱塊法, 一対比較などバイアスを軽減する方法をこの本は紹介してくれています. 記述自体は短いですが, 有用なまとめになっています.
また, SUTVAと識別性条件について詳細な解説は, 因果推論の基本に立ち返らなければいけなくなったときにとても参考になりました. 最初に紹介した「効果検証入門」でも概略は理解できますが, より厳密で形式的なステートメントはこちらの本の方がわかりやすいものでした.
入門統計的因果推論
正直に言うとこの本はまだほとんど目を通せていません. しかし, ほとんどの本がRubinの潜在変数モデルを下地に書かれているのに対し, この本はPearl流の因果推論がまとめられています(原著者がPearlその人です).
読んでいないにも関わらずずっと頭の片隅にあり続けるいわゆる積読です. Pearlはチューリング賞を受賞している偉大な数学者であり, 計算機科学や人工知能という重要分野で活躍する人物です. 著者がこのような人ですから, 教養としていつか必ず頭に入れておかなければと思っています.
まだ読んでいないのにおすすめにランクインという異例の存在でした. 読んだら更新します.
統計学が最強の学問である
これは私が効果検証を仕事にするより以前に読んだ本です. 仕事で効果検証や因果推論を本格的に調べるようになってからはほぼ手に取っていませんが, まだ門外漢だったころの自分にとっては回帰分析の重要性に気付ける点でとても刺激的な本だったことを覚えています.
また, 一般向けの書籍なだけあってほとんど数学的な知識を要求されず, 単純に読み物として面白いものでした.
それでもランダム化比較実験や実験計画法, そこから発展して回帰分析での因果推論に進むという構成自体は1つ目に紹介した「効果検証入門」と似通った点があります. 大雑把な言い方ですが, 現代で重用される統計学を機械学習系と統計的学習系に分けるなら後者に近い事例を紹介している本だとい言えます. 前者はAutoMLの登場でどんどん自動化が進んでいますが, 後者はそうもいっていない印象なのでこの本で雰囲気を掴んでから効果検証や因果推論を本格的に学んでいくという流れもありかもしれません.
シリーズとして他に「実践編」「ビジネス編」「数学編」があります. 特に「実践編」は社会で生きている統計学を知ることができてよい本だったと記憶しています. 「数学編」は内容を知っていたので買っていません.
このシリーズは一般布教用としてよいと思いました.
効果検証・因果推論についての書籍:まとめ
いまでも必要な勉強はどんどん進めているので, 気が向いたときに更新するかもしれません.
自分の中で本の脳内配置が大きく変わったら記事を書き直すかもしれませんし, この記事を更新するかもしれません. とにかく, 効果検証・因果推論は奥が深いので正確でかつ素早い(ここ重要)検証ができるようになることにこだわって研鑽を積んでいきたいと思います.