対照地域がなければ「作る」——合成コントロール法でTVCMの効果を測る【発展編】 ‣ はてなベース株式会社

前回の実践編では、広告を出した店と出さなかった店を前後で比べる差分の差分法で、地域広告の効果を測りました。差分の差分法には「似た対照群」が必要です。けれど現実には、ちょうどいい比較相手が見つからないこともあります。たとえばテレビCMを1つの地域だけで流したとき、その地域に“そっくりな別の地域”が都合よく1つ存在するとは限りません。今回はこの問題を、対照を「探す」のではなく「作る」という発想で解きます。シリーズ第3回、発展編です。前回までと同じく、数式やコードは使わず図で見ていきます。

ちょうどいい対照地域は、たいてい存在しない

テレビCMを一部地域でテスト放映する、という話はよくあります。問題はその効果の測り方です。CMを流した地域の売上が伸びても、それがCMのおかげなのか、季節や景気のせいなのかは、その地域だけ見ていてもわかりません。比較するための「CMを流さなかったら、この地域はどう動いていたか」という反実仮想が必要です。ところが、規模も客層も売れ方も似た地域を1つ選ぶのは至難の業です。大都市は大きすぎ、地方は小さすぎ、どれも帯に短したすきに長し。ここで効くのが、対照を1つに絞らず、複数を混ぜて作るという考え方です。

この「地域単位で効果を測る」発想は、いまの広告業界でむしろ追い風を受けています。スマホでの個人単位の追跡がしづらくなり、これまで広告効果の測定で頼ってきたCookie（サイトをまたいで行動を記録する仕組み）が揺らいだためです。個人を1人ずつ追えなくても、地域というまとまりで「広告を出した側」と「出さなかった側」を比べれば、効果は測れます。テレビCMやデジタル広告を一部の地域だけで出し、その差を見るやり方は地域実験（ジオ実験）と呼ばれ、合成コントロール法はその分析の中心的な道具になっています。

似た地域がなければ「混ぜて」作る

合成コントロール法のアイデアは、料理の味の再現に似ています。あの店のソースとまったく同じ調味料は売っていなくても、複数の調味料を絶妙な配合でブレンドすれば、そっくりの味を作れる。同じように、処置地域とぴったり一致する地域が1つなくても、いくつかの地域を重みづけして混ぜれば、処置地域そっくりに動く「人工の対照地域」を作れます。

合成コントロール法の概念図。複数の地域を重みづけして配合し、処置地域そっくりの人工の対照地域を作る — 対照に“ぴったりの1地域”は要らない。複数地域を配合して、処置地域そっくりの動きを再現する

用語メモ｜合成コントロール法 — 処置を受けていない複数の地域（や店舗）を、それぞれ何割ずつか重みをつけて混ぜ合わせ、処置を受けた対象そっくりに動く“人工の対照”を作る方法のこと。施策前の動きがぴったり重なるように配合を決め、施策後に生まれたズレを効果とみなします。

用語メモ｜ドナープール — 合成対照地域の“材料”になる、施策を受けていない地域の集まりのこと。ドナー（提供者）が多く、かつ処置地域と動きの傾向が近い地域が含まれているほど、よい合成対照を作れます。

前回の差分の差分法と、どう違うのか

前回の差分の差分法も、対照群を使って「広告がなかったらどうなっていたか」を推し量る点では同じ仲間です。違いは対照の作り方にあります。差分の差分法は、あらかじめ用意した対照群（広告を出さなかった店など）を、原則そのまま使います。これは「広告がなければ両グループは同じように動いたはず」という前提に支えられていました。一方の合成コントロール法は、対照を1つに決めず、複数地域を配合して処置地域そっくりに“仕立てる”ところが新しい。対照群がうまく見つからない、あるいは施策を受けた対象が1つしかない、という差分の差分法が苦手な場面で力を発揮します。前回が「似た相手と比べる」なら、今回は「似た相手を作って比べる」と覚えてください。

実例——「さくら県」だけにTVCMを流した

架空の小売チェーンを想定します。この会社は、ある時期から「さくら県」という1つの地域だけでテレビCMを集中放映しました。手元にあるのは、さくら県を含む全16地域の週ごとの売上です。残りの15地域はCMを流していないので、これらが合成対照地域の材料、つまりドナープールになります。さくら県の売上は、CM開始後にたしかに伸びました。問題は、その伸びのうちどれだけがCMの効果かです。

ここで難しいのは、さくら県とそっくりな地域が1つも見当たらないことです。売上規模が近い地域は売れ方の季節パターンが違い、季節パターンが近い地域は規模がまるで違う。実際のデータでもよくある状況です。だからこそ「ぴったりの1地域を探す」発想を捨て、「複数地域を配合してそっくりに作る」合成コントロール法の出番になります。以下では、まず安直なやり方がなぜ失敗するかを見てから、配合した合成対照で測り直します。

この記事の数値は、解説のために架空の設定で生成したダミーデータを分析した結果です。実在する地域や企業のデータではありません。データは「真のCM効果は売上+6%」とわかった状態で作っているので、各手法がこの正解にどれだけ近づけるかを答え合わせできます。

単一地域や全国平均では、なぜ測れないのか

まず、安直なやり方が通用しないことを確かめます。さくら県といちばん動きの似た1地域（ここでは東京）を対照にすると、効果はマイナスに出てしまいました。東京はさくら県より売上規模がずっと大きいため、水準をそのまま比べると話になりません。では全国平均と比べればいいかというと、今度は逆に効果を大きく水増ししてしまいます。次のグラフは、施策前の動きを比べたものです。さくら県の動きに本当に寄り添えているのは、単一地域でも全国平均でもなく、複数地域を配合した合成対照だけだとわかります。

施策前の動きの比較。さくら県に最もよく追従するのは合成対照で、単一地域や全国平均はずれていく — 単一地域（東京）も全国平均も、さくら県の動きとはずれていく。合成対照だけが寄り添える

配合の中身——どの地域を何割混ぜたか

では、さくら県そっくりに動く合成対照は、どんな配合でできたのか。中身を開けると、静岡を3割強、新潟を約3割、東京を2割強、大阪を1割強、という具合に、複数地域のブレンドになっていました。どれか1つの地域では似せられなかったものが、混ぜることで再現できたわけです。重みは、施策前の売上の動きがいちばんよく一致するように自動で決めます。

合成対照地域に占める各ドナー地域の重みの棒グラフ。静岡33.5%、新潟29%、東京23.4%、大阪13.3%など — 合成対照地域は複数地域のブレンド。施策前がいちばん一致するように配合が決まる

結果——施策前はぴったり、施策後にギャップ

いよいよ答え合わせです。次のグラフで、さくら県の実績（濃い実線）と合成対照地域（破線）を重ねます。CM開始前は、2本の線が驚くほどぴったり重なっています。配合がうまくいった証拠です。そしてCM開始後、さくら県だけが合成対照を上回って離れていきます。この開いた幅、つまり「実績」と「CMがなければこうなっていたはず」の差こそが、CMの本当の効果です。

さくら県の実績と合成対照地域の売上推移。施策前は一致し、TVCM開始後にさくら県が上振れする — 施策前はぴったり一致し、TVCM開始後にギャップが生まれる。このギャップがCMの効果

数字で並べると、対照の作り方によって結論がここまで変わります。仕込んでおいた真の効果は+6%でした。安直に1地域を対照にすると効果がマイナスに、全国平均と比べると6倍近くに膨らむ。合成コントロールだけが正解を当てています。

対照の作り方	推定したCM効果	真値+6%との関係
全国平均と比べる	+35.5%	大きく水増し（規模が違う）
単一の似た地域（東京）と比べる	−45.2%	マイナスに誤判定（東京が大きすぎ）
合成コントロール（配合）	+6.0%	ぴたりと一致

この差は、そのまま意思決定を左右します。もし「全国平均と比べて+35%も効いた」と信じれば、CM予算を一気に増やしたくなるでしょう。逆に「東京と比べたら効果はマイナスだった」と読めば、CMをやめてしまうかもしれません。どちらも対照の選び方を誤ったための錯覚で、本当の効果は+6%です。広告の良し悪しを判断する前に、比べる相手が公平かどうかを問う。合成コントロール法は、その公平な比較相手を、データから作り出すための道具だと言えます。

合成コントロールが向くとき、苦手なとき

万能の道具ではありません。合成コントロール法がよく効くのは、施策を受けた対象が1つか少数で、施策前のデータがある程度長くそろっているときです。配合の良し悪しは、施策前の線がどれだけぴったり重なるかで判断します。逆に、施策前の期間が短い、似た傾向の地域がドナープールにそもそも無い、施策と同時に処置地域だけ別の出来事（大型店の出店や災害など）が起きた、といった場合は、合成がうまく作れなかったり、効果が混ざったりします。施策前の重なりが甘いまま結論を出すのは禁物です。

結果が偶然でないかを確かめる、簡単なやり方もあります。本当は何も施策をしていない別の地域を“ニセの処置地域”に見立てて、同じ分析を回してみるのです。もしそこでも大きなギャップが出てしまうなら、さくら県で見えたギャップも本物とは言い切れません。逆に、ニセの地域では差が出ず、さくら県でだけはっきり差が出るなら、効果は本物らしいと自信を持てます。

用語メモ｜プラセボテスト — 本当は施策をしていない対象を、あえて“施策を受けたつもり”で同じ分析にかけ、効果が出ないことを確かめる検証のこと。「効いていないはずの所では効果が出ない」を確認することで、本命の結果が偶然でないかをチェックします。

それでも、配合の妥当性は人間が見極める

重みの計算そのものはコンピュータが一瞬でやってくれます。けれど、ここでも肝心な判断は人間に残ります。どの地域をドナープールに入れるか。施策前の重なりは“十分”と言えるか。CM期間中に処置地域だけで別の出来事が起きていないか。これらは、その事業と地域を知る人にしか見立てられません。前回までと同じ結論にたどり着きます。AIは配合という計算を加速してくれますが、材料を選び、結果を信じてよいかを判断するのは人間の仕事です。

現場の事情や仮説は、その全部を言葉にしてAIへ渡しきれません。だからこそ、手法の名前を覚えること以上に、「この比較は本当にフェアか」を問える目を持つことが効いてきます。AIをどう業務に組み込むかは「AIを入れる」から「安全に回す」へでも整理しています。

まとめと、次回予告

ちょうどいい対照地域が見つからないときは、複数地域を配合して人工の対照を作る。それが合成コントロール法です。単一地域や全国平均では効果を誤りますが、施策前がぴったり重なるよう配合した合成対照なら、施策後のギャップから本当の効果を取り出せます。テレビCMやエリア限定の販促といった、1地域だけの施策と相性のよい考え方です。前回の差分の差分法が「似た相手と比べる」道具なら、今回は「似た相手を作って比べる」道具。手元の状況に応じて使い分けるのがコツです。そして配合の妥当性、とりわけ施策前がきちんと重なっているかを見極めるのは、最後まで人間の目の役割です。社内に散らばる地域別データをどう集約するかはSnowflakeで売上ダッシュボードを作る記事も参考になります。

次回は、ECサイトの王道である「A/Bテスト」を取り上げます。一見いちばん確実な方法に見えて、実は判断を急ぎすぎて誤るケースが後を絶ちません。途中で勝っている方に寄せてしまう、サンプル数が足りない、最初だけ珍しがられて伸びる——そんな“A/Bテストの落とし穴”を、これもダミーデータで確かめます。

合成コントロール法適用判断チェック

全 4 問

問1
あなたが地方小売チェーンのマーケ責任者で、特定の1地域だけでテレビCMを集中放映する計画を提案されました。本記事の主張に従うと、「効果が測れるかどうか」を判断するうえで最初に確認すべきことは？
解説
本記事は「合成コントロール法がよく効くのは、施策を受けた対象が1つか少数で、施策前のデータがある程度長くそろっているとき」「ドナーが多く、かつ処置地域と動きの傾向が近い地域が含まれているほど、よい合成対照を作れます」と整理しています。誤答 (1) は分析の前提を満たすかと無関係で、(2) は「ぴったりの1地域はたいてい存在しない」と本記事が真っ向から否定する発想、(4) はクリエイティブ評価であって地域効果の検証にはなりません。
問2
あなたが食品メーカーのデータ分析担当で、さくら県でのCM効果を測るため「東京1地域だけを対照」にしたら効果が大きくマイナスに、「全国平均」にしたら大幅プラスに出ました。本記事の主張に従うと、この結果をどう扱うべきか？
解説
本記事は単一地域(東京)対照では−45.2%、全国平均対照では+35.5%、合成コントロールでは+6.0%(真値+6%とほぼ一致)になったと示し、「どちらも対照の選び方を誤ったための錯覚」と明示しています。誤答 (1) は誤った推定値の平均をとっても正解には近づかず、(3)(4) は本記事が「これを信じれば予算を増やしたくなる/CMをやめてしまうかもしれない」と警告している判断そのものです。
問3
あなたが地域CMキャンペーンの効果検証をしていて、合成対照を作ったところ、施策前の売上推移が処置地域と合成対照でかなりずれて重ならない (差があるまま) ことが判明しました。本記事の主張に従うと、どう対応すべきか？
解説
本記事は「配合の良し悪しは、施策前の線がどれだけぴったり重なるかで判断します」「施策前の重なりが甘いまま結論を出すのは禁物です」と明示しています。誤答 (1) は前提が崩れた数値をそのまま報告するもの、(3) は「施策前の動きがいちばんよく一致するように自動で決める」という配合のルールを人間が恣意的に歪める行為、(4) は前提条件の問題と精度の問題を混同しています。
問4
あなたがCMを打った地域で売上が伸びた結果を経営層に説明するため、「効果が偶然でないか」を裏付ける検証を求められました。本記事の主張に従うと、どんな追加分析が有効か？
解説
本記事は「本当は何も施策をしていない別の地域を“ニセの処置地域”に見立てて、同じ分析を回してみる」「ニセの地域では差が出ず、さくら県でだけはっきり差が出るなら、効果は本物らしいと自信を持てます」というプラセボテストを推奨しています。誤答 (2) は規模・季節要因の違いを無視しており、(3) は相関と因果を混同するまさに本シリーズが警告している判断、(4) は他社事例にも同じバイアスが含まれる可能性が高いため検証にはなりません。

データに基づく意思決定を、はてなベースが伴走します

効果検証は「分析の前」が9割です。どのデータを揃え、どんな仮説を立て、何と何を比べるか。ここが整っていないと、どんな高度な手法も誤った結論を出します。はてなベースでは、データに基づく意思決定の土台づくりを支援しています。たとえばこんなケースでお役に立てます。

その広告効果、正しく測れていますか

散在するデータを集約して分析の土台をつくるデータ基盤の整備、効果検証や仮説設計に伴走する分析・AI活用の支援、そして「全社で安全にAIを使いたい」という方へのオンプレミスAI導入支援まで、貴社の状況に合わせて伴走します。まずは無料相談でお気軽にご相談ください。

無料相談はこちら