loading...

データサイエンスはビジネスをどう変えるか?No.1

因果推論研究者と考える、広告効果の本質

2022/05/12

近年、広告施策における効果検証のニーズが高まっています。「本当にこの広告は効果があるのか?」とシビアに問われるようになり、データサイエンスのアプローチを用いた分析を導入する企業も増えています。

その際に問われるのは、データサイエンスの「質」です。より緻密で高度な効果検証を実現するために、どのようなアプローチが必要なのか。本連載では、社内のデータサイエンティストや研究者と共に統計や機械学習を用いた分析・ソリューション開発に注力してきた電通データ・テクノロジーセンターが、広告効果検証におけるデータサイエンスの活用法を紹介します。

初回は電通が長年研究を重ねてきた「因果推論(※1)を用いた広告効果検証」について、アドバイザーを務める慶應義塾大学の中村知繁研究員と、電通クロスブレインの永田大貴氏が語り合います。

※1 因果推論:統計的なアプローチを用いて施策などの効果を推定する手法のこと。

 

因果推論を広告効果の推定に活用する

永田:今回は近年注目が集まっている因果推論という手法のビジネス活用について、慶應義塾大学理工学部で研究員をされている中村先生と議論したいと思います。まず、中村先生の専門分野や研究対象について教えてください。

中村:専門は統計的因果推論です。主に統計的因果推論やランダムフォレストといった機械学習の理論を研究対象としています。また、理論のヘルスケア分野への応用や、データ分析の手法開発なども行っています。

永田:統計学の理論を土台に、実際の事象についても解析などを行われているのですね。普段の研究活動で意識されていることはありますか?

中村:理論はどうしても細かいことを計算で突き詰めていくことになりがちですが、私はどちらかといえば、実際にビジネスを行っている人たちも使えるようなシンプルな手法を設計し、意思決定に役立てていただくことを意識しています。分かりやすい活用例でいうと、野球におけるバント・スクイズ作戦の有効性について、統計的因果推論の手法を使って分析したりもしていました。

永田:中村先生の研究テーマである因果推論は、統計的なアプローチを用いて施策などの効果を推定する手法のことです。因果推論は医学や経済学において、投薬や政策介入などを行った際のそれらの効果を評価する手法として発展してきた側面があります。これは広告施策の効果を証明する際にも活用できる手法であることから、3年以上前から中村先生にはアドバイザーとして私たちの業務をサポートしていただき、勉強会の開催、共同研究などを行っています。

単純なリフトアップの効果検証に潜む落とし穴

永田:私は電通でテレビ・ラジオのデータソリューション開発を経て、現在は出向先の電通クロスブレインでクライアントのデータ解析の支援を行っています。長年データビジネスに関わっていますが、近年は特に広告施策の効果証明が求められる場面が増えてきているように感じます。

このようなニーズに対して、例えば、テレビCMの効果を大規模なIoTデータから分析することができる「STADIA」というソリューションでも、因果推論の考え方を用いて分析の精度を高めようとしてきました。

因果推論

この図は、あるキャンペーンにおいてクライアントが出稿したテレビCMの接触者/非接触者に対して、KPI(キャンペーンサイトで成約したユーザーの割合)がどう変化したのかを計算したものです。このような分析はブランドリフト調査などでもよく用いられます。

このキャンペーンでは一見するとCM視聴によりKPIがリフトアップしているように思えるのですが、このような分析を行う際に、気を付けるべきことは何でしょうか?

中村:この図ではCM接触者とCM非接触者という2つのグループを比較していますが、これらのグループを構成している年齢・性別などの構成が統一されているのか、本当に均質なのかを精査することが重要です。例えば、CM接触者のグループに高齢層が多く、CM非接触者のグループに若年層が多い場合、CMを視聴したから成約率が伸びたのではなく、そもそも高齢層のほうが成約しやすい傾向があるのかもしれません。

永田:確かに、この場合はCMを見た人と、見ていない人のあいだに“偏り”がありそうですね。テレビというメディア自体にアクセスしない人も増えてきていますし、若年層は特にその傾向が顕著です。そう考えると、CMを見た/見ていない人は、相対的に高齢/若年である傾向が高いことが想像できます。つまり、広告効果に年齢というバイアスが入っている状態なのですが、本来はどのような対応をすべきなのでしょうか?

中村:もし年齢層で成約率やCM接触時間が異なるのであれば、年齢層ごとに比較したり、人数に重み付けをして補正する必要があります。至極当たり前のことですが、比較対象を均質化しないと、KPIの上昇が年齢というバイアスにより生じているのか、CMの因果効果(純粋な広告効果)によるものなのかを正しく判断することはできません。

擬似的な均質化を実現する、「傾向スコア」の強み

永田:2つのグループを比較する際、できる限り“均質なグループ”を比較することが望ましいということですね。そして、このようなケースでCMの因果効果を推定する方法として有効なのが“因果推論”です。なぜ、因果推論のアプローチが有効なのか、詳しく教えていただけますか?

中村:統計学には、調べたい影響に対して他の変数が影響するのを抑える「ランダム化比較実験」(RCT)という手法があります。有名なのはフィッシャーの実験で、農薬が作物にもたらす影響を調べたい時、単純に畑を2分割して肥料あり/肥料なしを分けてしまうと、両者の日当たりや水はけが異なるので比較対象を均質化できません。そこで、畑をさらに細かく分割して、肥料あり/なしをランダムに配置することで、変数の影響を抑えることができるのです。では、この手法をCMに適応できるかというと、CMを見せるか見せないかをランダムに振り分けることは難しいですよね。

因果推論

永田:ある人たちをランダムに2つのグループに分け、片方のグループにはテレビCMを強制的に見せ、もう片方のグループにはCMを見せないように私たちがコントロールすることは、現実的に不可能だということですね。

中村:そうです。さらに広告の効果検証の場合、膨大な数の変数が存在します。年齢、性別、年収、貯蓄、テレビ視聴時間、デジタルアクティブ度……その他さまざまな変数があり、その全てが広告の見られやすさや成約率に影響を与えている可能性があるのです。仮に“たくさんの変数“の中から完全に一致する人をグループ化できたとしても、母数が極端に少なくなってしまうので効果検証そのものが成り立ちません。このように比較対象の均質化/完全マッチングが難しい状況において因果効果を導き出したい時、因果推論のアプローチが有効です。

永田:年齢以外にも性別や年収など、バイアスを生じさせる要因のことを“共変量”と言ったりしますが、確かに共変量が多い場合は全ての変数で均質化/マッチングをさせることは難しいと思います。では、因果推論を用いた具体的な対処法はどのようなものになりますか? 

中村:「傾向スコア」を利用することで、さまざまなバイアス要因の情報を集約し、均質化を行います。傾向スコアとは、例えば「45歳、男性、未婚、年収600万円」という変数を集約し、この人にはどのぐらいCMがマッチングしやすいのかという「傾向」を数値化したものを指します。

因果推論
「傾向スコア」は、1983年、ポール・ローゼンバウムとドナルド・ルービンによって提唱されたもので、理論的には共変量を全部統一せずとも、傾向スコアが同じであれば比較できるようになったのです。

少し専門的な話になりますが、具体的には、たくさんの変数からロジスティクス回帰モデル(※2)やランダムフォレスト(※3)などのモデルを使って傾向スコアを推定し、傾向スコアが同じ人たちをマッチングして比較するのです。

永田:本来は観測されていない“テレビCMへのマッチングしやすさ”というものを統計モデルから推定できるようになるということですよね。データアナリストの立場からすると、やはり分析のハードルが下がる点が傾向スコアの大きなメリットだと感じます。

※2 ロジスティクス回帰モデル:選択確率pをロジスティクス関数により定式化する統計モデル。
※3 ランダムフォレスト:機械学習手法の1つ。決定木という弱学習器を大量に生成した結果を統合することで学習を行うモデル。


 

傾向スコアの本質は、比較対象を均質化すること

永田:傾向スコアがグループ間のバイアスを補正する際に便利なものだということは分かりました。では、傾向スコアを用いた解析の本質とは何なのでしょうか?

中村:ここまで述べたように、テレビCMの効果検証では、必ずと言っていいほど共変量の分布に性別や年齢の偏りが生じます。その偏りに対して、傾向スコアで逆数の重み付けを行うことで分布を等しくするのです。これを「疑似ランダム化」と言うのですが、つまり、疑似的に均質な2つのグループを作ることが、傾向スコアを用いた解析の本質的な部分になります。

因果推論
永田:テレビCMの例で言うと、例えば2グループの間に存在した年齢の偏りを、傾向スコアの調整によって均質化できることが重要になるわけですね。傾向スコアを使った解析を行う際に注意すべき点はありますでしょうか?

因果推論
中村:傾向スコアはあくまでもデータから推定している数値なので、本当に正しい値かどうかは分かりません。ただ少なくとも、傾向スコアで分布を重み付けした際に、共変量の分布を等しくできているかを確認する作業は忘れてはいけません。年齢や男女比は本当に均質化できているのか、バイアスを本当に取り除けているのか、確認するプロセスを踏むことが大切です。

永田:データサイエンティストが因果推論を行う際に、意外とつまずきやすいポイントですよね。具体的な解析事例を知りたい方は、ぜひ中村先生も執筆している「岩波データサイエンス Vol.3」(岩波書店)をご覧ください。

データの質、推察力、発想力……。広告ビジネスにおいて大切なこととは?

永田:中村先生の解説をお聞きしていると、因果推論は、比較対象を均質化するという本質を心掛けるとともに、繊細な解析も求められるという印象を受けました。

中村先生と電通はアドバイザー契約を結んで3年以上がたちます。クライアントから高度な効果検証を求められるケースも増える中、私が行った解析が本当に正しい施策判断を導いているのか、中村先生に相談しながら修正することで、より高い次元の提案ができていると感じています。そんな中村先生から見て、今の広告ビジネスについて思うことはありますか?

中村:広告ビジネスにおいて、ボトルネックになるのは「データの質」だと思っています。例えば医療が対象であれば、研究目的として倫理的なプロセスを踏んで実験をデザインするので、そこから得られるデータも扱いやすいです。一方、広告ビジネスではプライバシーの問題で取れないデータがありますし、適切なサンプルを形成するのが難しい側面もあり、因果推論の理論をそのまま応用することはできないと感じています。

逆に大きな可能性を感じているのが、広告ビジネスに携わる方々の、完全ではないデータから推察して解釈を導き出す力、人間の行動原理などあらゆる要因から発想する力です。理論だけをやっている人間からは出てこないアウトプットばかりで、見えない部分をロジックやアイデアで埋めていくことが、広告のデータ解析では非常に大切なんだと、いつも勉強させてもらっています。

欲を言えば、理論とビジネスをつなげるトランスレーターのような人材が広告業界にもっと増えると、研究者の立場としては非常に心強いです。研究者とビジネスパーソンのあいだに立って、お互いの言葉を適切に翻訳できる人が増えれば、今よりも開発や実証実験のスピードが早まるのではないかと思います。

永田:因果推論というアプローチ自体は特定の分野にとどまるものではなく、何か施策を行ったときに、その効果を推察する際に非常に有用であると感じます。最近、ノーベル経済学賞を受賞したカード、アングリスト、インベンスらの研究でも、因果推論のアプローチが用いられていたことが話題となりました。これからの因果推論研究はどうなっていくのでしょうか?

中村:1983年に傾向スコアが誕生してから約40年が経ち、テクノロジーの発展とともにコミュニケーションのあり方やデータのあり方も大きく変わりました。統計学ではAIなど、因果推論では機械学習などが使われるようになり、効果検証の対象も大きな集団だけでなく、もっと小さな集団や「人」に焦点が当てられるようになりました。医療分野では個別化医療の最適化に因果推論が役立てられますし、広告に関して言えば、より成約率が高まる「人」に広告を届けたいというニーズがあり、最近では、広告効果が高い層に向けて広告配信を行うための技術としてCausal Treeのような手法(決定木を用いて、個人ごとの処置効果を推定する因果推論手法)も研究されています。

永田:なるほど。確かに、コンバージョンしやすい人かどうかを判別できるのが機械学習で、広告に接触した時の効果が大きいかどうかを判別できるのが因果推論ということですね。クーポンがあってもなくても買ってくれる人にクーポンを届けるのではなく、クーポンがないと買ってくれない人を見つけてクーポンを届ける。それこそが広告効果の最大化であり、そういった場合に因果推論は有効な手法だと感じます。

中村:はい。ぜひ電通と一緒に研究を進めていきたい分野の一つです。それから、データ解析の結果を数字の羅列ではなく、もっと視覚的に伝えられるような手法も今後開発したいと考えています。やはり理論は使ってもらってこそ価値があるものなので、もっとビジネスに歩み寄る必要があると思っています。

永田:お互いに歩み寄ることが大切ですよね。われわれビジネスの人間もある程度は理論のことを理解し、共通言語を持つことでより良い関係を築いていけると思います。

電通では「People Driven Marketing」という人基点でのデータ活用の枠組みを提唱してきましたが、個別医療などのアプローチは弊社のビジネスにおいても活用の可能性があるように感じました。これからの因果推論の発展を期待したいと思いますし、ぜひまた新たな知見をビジネスに実装していければと思っております。本日は貴重なお話をありがとうございました。

Tw