広告は本当に効いていたのか——「因果推論」で効果を正しく測る【基礎編】 ‣ はてなベース株式会社

月曜の朝、広告レポートにこう書いてあります。「広告を見た人の購入率は、見ていない人の2倍でした」。効いている、と判断して予算を増やす。よくある光景です。でも、ちょっと待ってください。広告を見た人は、そもそも最初から買う気が強かっただけかもしれません。だとしたら、増やした予算は宙に消えます。

広告が本当に効いたのかを見抜くのは、思っているより難しい。その難しさと向き合うための考え方が「因果推論」です。この記事では数式もコードも使いません。身近なたとえと図だけで、効果検証の土台になる感覚をつかんでもらうのがねらいです。続く実践編では、実際のダミーデータを使って手を動かしながら効果を測ります。まずは基礎編から。

「一緒に動く」と「引き起こす」は、別物

夏になると、アイスがよく売れます。そして同じ時期、水の事故も増えます。データを並べると、アイスの売上と水難事故の件数はきれいに連動します。では、アイスが事故を引き起こしているのでしょうか。そんなわけはありません。犯人は「気温」です。暑いからアイスが売れ、暑いから泳ぐ人が増えて事故も増える。アイスと事故は、ただ同じ原因に動かされて、一緒に揺れているだけなのです。

相関と因果の違いを示す図。気温という共通要因がアイス売上と水難事故の両方を引き起こしている — 「一緒に動く」ことと「引き起こす」ことは違う。背後に隠れた共通の原因がいることが多い

広告でも、これと同じことがしょっちゅう起きます。たとえば、購入履歴のある優良顧客にだけクーポン付きメルマガを配ったとします。配信後に購入率が上がれば「クーポンが効いた」と言いたくなる。けれど、その人たちはクーポンがなくても買っていた常連です。アイスにおける気温のように、「もともとの買う気」という隠れた要因が、広告と購入の両方を押し上げているだけかもしれません。

用語メモ｜相関と因果 — 相関とは「2つのものが一緒に動く関係」、因果とは「片方がもう片方を引き起こす関係」のこと。相関があっても因果があるとは限りません。「広告を見た人ほど買っている」は相関の話で、「広告のおかげで買った」という因果の証明ではない、という区別がこの記事の出発点です。

効果が「盛られる」3つの理由

「広告を見た人」と「見ていない人」を、そのまま比べる。これがいちばんやりがちで、いちばん危ない測り方です。なぜなら、その2つのグループには広告以外の違いがたくさん紛れ込んでいて、効果を実際より大きく見せてしまうからです。代表的な落とし穴が3つあります。

広告効果を過大評価させる3つの落とし穴（セレクションバイアス・交絡・逆因果）を3カードで示した図 — 「広告を見た人」と「見ていない人」をそのまま比べると混じり込む、3つの歪み

理由1 そもそも別の集団を比べている

ネット広告を見るのは、ふだんからネットをよく使う、行動的な人に偏ります。そういう人は、広告があってもなくてもネットで買い物をします。つまり「広告を見た人」の集団は、最初から「買いやすい人」に寄っている。この偏りを広告の手柄として数えてしまうのが、最初の落とし穴です。

用語メモ｜セレクションバイアス — 比べたい2つのグループが、最初から別の性質を持った集団になってしまっている状態のこと。日本語では「選択バイアス」とも言います。広告を当てる相手を偏って選ぶと、その偏りがまるごと効果に化けてしまいます。

理由2 隠れた共通の原因がいる

いまの広告配信は、「この人は買いそうだ」と見込んだ相手をアルゴリズムが選んで配信します。すると広告が当たったグループは、初めから購入確率の高い人ばかりになる。効いているのは広告の力ではなく、「買いそうな人を選んだ」という共通の要因かもしれません。アイスと事故における気温と、まったく同じ構図です。

用語メモ｜交絡（こうらく） — 広告に当たることと、商品を買うことの両方を、同時に引き起こしている「隠れた共通の原因」があること。この共通原因をそろえずに比べると、広告のせいでもないのに効果があったように見えてしまいます。

理由3 原因と結果が逆になっている

「広告費と売上が一緒に伸びている」。これも要注意です。広告が売上を増やしたのではなく、売れているから気をよくして広告予算を増やしているだけ、という逆向きの流れがありえます。これを「広告が効いた」と読み違えると、効いていない施策にお金を注ぎ続けることになります。

用語メモ｜逆因果 — 原因だと思っていたものが、実は結果だった、という取り違えのこと。「広告を増やしたから売れた」のではなく「売れたから広告を増やした」のように、矢印の向きが逆になっている状態を指します。

本当の効果は「引き算」で決まる

では、広告の本当の効果とは何か。答えはシンプルで、「実際に起きたこと」から「もし広告を打たなかったら起きていたこと」を引いた残りです。問題は、この“もしも”が絶対に観測できないこと。広告を見せたら、その人の「見た世界」しか見られません。「見なかった世界」は永遠にわからない。これが因果推論のいちばん厄介なところです。

1人の顧客が広告を見た世界と見なかった世界に分岐し、その差が広告の本当の効果だと示す図 — 本当の効果は、現実と「もしもの世界」の差。けれど、もしもの世界は決して観測できない

頭痛薬を思い浮かべると腑に落ちます。頭が痛くて薬を飲み、治った。でも「飲まなくても治っていたか」は、誰にもわかりません。同じ自分を、飲んだ世界と飲まなかった世界で同時に走らせることはできないからです。広告も同じで、効果検証とは結局、「広告なしのその人」の代役を、どれだけ公平に用意できるかという勝負になります。

用語メモ｜反実仮想（はんじつかそう） — 「もし〜しなかったら、どうなっていたか」という、実際には起こらなかった“もしもの結果”のこと。広告効果は、現実の結果と、この反実仮想との差で決まります。本人では見られないので、似た別の人やグループで代用するのが因果推論の腕の見せどころです。

いちばん確実なのは「くじ引き」

その代役を、いちばん公平に用意する方法があります。くじ引きです。対象をランダムに「広告を見せる組」と「見せない組」に振り分ける。こうすると、年齢も買う気もネット好き度も、目に見える性質も見えない性質も、平均すれば両組でそろいます。違いは「広告を見たかどうか」だけ。だから結果の差を、まるごと広告の効果と言い切れます。さきほどの3つの落とし穴が、いっぺんに消えるのです。

用語メモ｜A/Bテスト（ランダム化比較試験・RCT） — 対象をくじ引きのようにランダムへ2組に分け、片方にだけ施策を行って結果を比べる方法。ランダムに分けることで2組の条件がそろうため、因果を測る“ゴールドスタンダード（最も信頼できる基準）”とされます。Webサイトのボタンの色をA案・B案で出し分ける、あの仕組みと同じ発想です。

ただし、くじ引きが万能というわけではありません。すでに全員に配信し終えた広告は、後からランダムに分け直せません。テレビCMのように広く流れるものや、ブランドが時間をかけてじわじわ効いてくるものも、短いA/Bテストでは捉えにくい。一部のお客さまに広告を見せ続けないこと自体が、機会損失になる場合もあります。理想はわかっていても、いつでも使えるわけではないのです。

でも、手元のデータは平気で嘘をつく

では、くじ引きができないときはどうするか。多くの会社は、ふだん貯まっているログ（観察データ）で何とか効果を測ろうとします。これがどれだけ危ういかを、身をもって示した検証があります。Facebook（現Meta）の研究チームは、信頼できるランダム化実験を“正解”として用意し、同じデータに観察データ向けの分析を当てて答え合わせをしました。結果、観察データの分析は効果を過大評価し、購入の伸びを3倍ほど大きく見積もるケースまであったのです。豊富な属性データで補正しても、ずれは消えませんでした。

もうひとつ、有名な話があります。eBayは、自社のブランド名で出していた検索連動の広告を、思い切って止めてみました。すると、止めて失われたクリックの大半が、無料の自然検索からそのまま流れ込んできたのです。つまりその広告は、放っておいても来ていた人に、わざわざ有料でクリックさせていただけ。レポート上は立派に効いて見えていたのに、上乗せ効果はほぼゼロでした。

eBayが指名検索広告を停止したところ、失ったクリックの99.5%が無料の自然検索で戻ってきたことを示す図 — 「最後にクリックされた広告」に手柄を全部渡すと、本当は不要だった広告費に気づけない

見るべきは「増えた分」だけ

eBayの教訓は、効果検証の急所をついています。最後にクリックされた広告に成果を全部割り当てる、いわゆる「ラストクリック」の発想は、経路をなぞっているだけで、広告のおかげかどうかを証明していません。本当に知りたいのは「この広告がなかったら、この売上は起きなかったのか」。広告があったからこそ上乗せされた分だけを取り出して評価する——この考え方を増分効果と呼びます。

用語メモ｜インクリメンタリティ（増分効果） — 広告があったからこそ“上乗せ”された成果だけを取り出して測る考え方。たとえば広告ありの組の購入率が6%、なしの組が4%なら、差の2%が増分です。「広告経由の売上」ではなく「広告がなければ起きなかった売上」を見る、反実仮想を現場に落とし込んだ実践版だと考えてください。

実際には、ランダムに一部へあえて広告を見せない「見せない組」を残しておく、一部の地域だけ広告を出したり止めたりして比べる、といった工夫で増分を測ります。どれも「広告なしの世界」を、別の人や別の地域で代役させる試みです。

観察データから因果に近づく道具たち

くじ引きが組めないときでも、手元のデータから少しでも因果に近づくための“道具”がいくつもあります。仕組みの細かい話は実践編にゆずりますが、ここでは「こんな道具箱がある」という地図だけ示しておきます。大事なのは、どれも「広告なしの世界の代役を、どう公平に作るか」という一点を、別々のやり方で工夫している点です。

道具	どんなときに使うか
A/Bテスト	くじ引きで分けられるとき。最も信頼できる
差分の差分法（DiD）	広告を出した店と出さない店を、前後で比べたいとき
傾向スコアマッチング	似た者どうしのペアを作って、属性の偏りをそろえたいとき
マーケティング・ミックス・モデリング	テレビも含め、全チャネルの貢献をまとめて見たいとき

ちなみに最近は、この話題に追い風が吹いています。スマホでの個人単位の追跡がしづらくなり、Cookie（サイトをまたいで行動を記録する仕組み）に頼った計測が揺らいだことで、地域や全体のまとまりで増分を測る手法が、あらためて見直されているのです。次回の実践編では、この道具箱のうち差分の差分法と傾向スコアマッチングを実際に使ってみます。

それでも、効果検証はAIに丸投げできない

ここまで読むと、「データと統計の話なら、AIに任せれば自動で答えが出るのでは」と思うかもしれません。けれど、効果検証はAIに丸投げできない仕事の代表格です。いちばん大事な部分が、人間の頭の中にあるからです。どのグループを代役（対照群）に選ぶか。どんな隠れた要因がありそうか。その比較は本当にフェアか。こうした見立ては、その事業と現場を知っている人の仮説に支えられています。

AIは、与えられたデータと条件のもとで計算を高速にこなし、分析を大きく加速してくれます。でも「何を疑い、何と何を比べるべきか」を決める仕事と、出てきた数字を自社の文脈で読み解く仕事は、人間が引き受けるしかありません。現場の知識や立てた仮説は、その全部をAIに言葉で渡しきれないからです。だからこそ、AIに分析を任せられる時代ほど、因果の考え方を理解した人の価値は上がります。AIをどう業務に組み込むかは「AIを入れる」から「安全に回す」へでも整理しています。

まとめと、次回予告

「広告を見た人ほど買っている」は、効いた証拠ではありません。比べる相手の偏り、隠れた共通原因、原因と結果の取り違え。この3つを疑い、「もし広告がなかったら」という引き算で考える。理想はくじ引き、現実には増えた分だけを見る。そして、何を比べ、どう解釈するかは人間が決める。これが基礎編の骨子です。社内に散らばる売上データをどう集約して分析につなげるかは、Snowflakeで売上ダッシュボードを作る記事も参考になります。

次回の実践編では、架空の食品スーパーチェーンが一部の地域だけ折込チラシと地域広告を打った、というダミーデータを用意します。同じデータを「店舗どうしの単純比較」「差分の差分法」「傾向スコアマッチング」の3つで分析し、結論がどれほど変わるかを図で見比べます。単純な比較が効果を水増しし、因果推論の手法だけが真実に近づく様子を、手を動かしながら確かめましょう。続けて実践編へどうぞ。

因果推論【基礎編】適用判断チェック

全 4 問

問1
あなたが BtoB SaaS のマーケ担当で、「先月のリード獲得広告を見たユーザーの商談化率は、見ていないユーザーの 2 倍」というレポートを受け取りました。本記事の主張に従うと、この数字を理由に広告予算を増やす前に確認すべきことは？
解説
本記事の「効果が盛られる 3 つの理由」のうち最初に挙げられているセレクションバイアスです。「ネット広告を見るのは、ふだんからネットをよく使う、行動的な人に偏ります」「広告に当たったグループは、初めから購入確率の高い人ばかりになる」と説明されています。誤答 (1)(2)(4) はいずれもバイアスを残したまま予算を動かすため、効いていない出稿を増やすリスクが高いです。
問2
あなたが食品メーカーのマーケ責任者で、テレビ CM のような全国一斉配信の効果を測りたいですが、A/Bテスト形式では分けられません。本記事の道具箱の発想に従うと、どの方針が現実的か？
解説
本記事の道具箱には「差分の差分法 (DiD)」「傾向スコアマッチング」「マーケティング・ミックス・モデリング」が紹介されています。共通する考え方は「広告なしの世界の代役を、別の人や別の地域で公平に作る」です。誤答 (1) はラストクリックを倍増する根拠がなく、(3) は判断を諦めるだけで予算配分の根拠が残らず、(4) は逆因果や交絡を一切考慮していません。
問3
あなたが EC のマーケ責任者で、四半期の振り返りで「広告費を増やしたら売上が連動して伸びた」というグラフを見ました。本記事の主張に従うと、これを「広告が効いている根拠」とできるか？
解説
本記事は逆因果を 3 つ目の落とし穴として明示しています。「広告が売上を増やしたのではなく、売れているから気をよくして広告予算を増やしているだけ、という逆向きの流れがありえます」。誤答 (1) はまさに本記事が警告している判断、(2) は有意性を計算しても矢印の向きは判定できず、(4) は同じグラフを再加工しているだけで因果の証明にはなりません。
問4
あなたが社内 DX 担当で、「効果検証は AI に任せれば自動で答えが出るのでは」という意見が経営会議で出ました。本記事の主張に従うと、どう答えるべきか？
解説
本記事は「効果検証は AI に丸投げできない仕事の代表格」と明示しています。「いちばん大事な部分が、人間の頭の中にあるから」「『何を疑い、何と何を比べるべきか』を決める仕事と、出てきた数字を自社の文脈で読み解く仕事は、人間が引き受けるしかありません」。誤答 (1) は人を増やせば解決すると勘違いし、(2) は本記事が真っ向から否定する主張、(4) は AI 活用そのものを諦めるオーバーリアクションで、AI による計算高速化のメリットを捨ててしまいます。

データに基づく意思決定を、はてなベースが伴走します

効果検証は「分析の前」が9割です。どのデータを揃え、どんな仮説を立て、何と何を比べるか。ここが整っていないと、どんな高度な手法も誤った結論を出します。はてなベースでは、データに基づく意思決定の土台づくりを支援しています。たとえばこんなケースでお役に立てます。

その広告効果、正しく測れていますか

散在するデータを集約して分析の土台をつくるデータ基盤の整備、効果検証や仮説設計に伴走する分析・AI活用の支援、そして「全社で安全にAIを使いたい」という方へのオンプレミスAI導入支援まで、貴社の状況に合わせて伴走します。まずは無料相談でお気軽にご相談ください。

無料相談はこちら