サイトをリニューアルしたら、全体の購入率が上がった。チームは沸きます。ところが念のため顧客タイプ別に分けて見ると、新規でも既存でも、購入率はむしろ下がっていた。全体は改善、でも中身は全員悪化。同じデータなのに、見方によって正反対の結論が出る。これがシンプソンのパラドックスです。名前は難しそうですが、起きていることは「平均のマジック」で、ECの数字を見ていれば誰でも出くわします。やっかいなのは、どの数字も計算上は正しいので、間違いに気づきにくいこと。この記事では、ダミーデータでこの逆転を再現し、なぜ起きるのか、どうすれば見破れるのかを図で解説します。前回までの広告効果検証シリーズと同じく、数式やコードは使いません。
この記事の数値は、解説のために架空の設定で作ったダミーデータです。実在するサイトのものではありません。パラドックスがくっきり見えるように、数字を整えています。
全体で見ると、たしかに「改善」している
あるECサイトが、商品ページを刷新したとします。狙いは購入率の底上げ。リニューアル前後それぞれ1万人の訪問者で購入率(CVR)を比べると、リニューアル前は5.8%、リニューアル後は6.18%でした。0.38ポイントの上昇です。割合にすればおよそ7%の改善で、グラフにすればきれいな右肩上がり。担当者なら「やった、効果が出た」と報告したくなりますし、経営会議でも「リニューアル成功」で通ってしまうでしょう。

ところが、顧客タイプ別に見ると逆転する
ここで、ひと手間かけて確認します。訪問者を「新規顧客」と「既存顧客」に分けて、同じ購入率を見てみるのです。新規と既存では買い方がまるで違うので、分けて見るのは自然な発想です。すると景色が一変します。新規顧客は3.85%から3.16%へ低下。既存顧客も8.72%から7.19%へ低下。どちらの層でも、リニューアル後のほうが購入率は下がっているのです。全体では上がったのに、中身を開けると、新規も既存もそろって下がっている。同じ1万人ずつのデータから、正反対の結論が出てしまいました。これがパラドックスの正体です。

用語メモ|シンプソンのパラドックス — 全体で見たときの傾向と、グループ(セグメント)ごとに分けて見たときの傾向が、逆になってしまう現象のこと。どちらの数字も間違ってはいません。集計の仕方によって、見える結論が反対になるのが落とし穴です。
用語メモ|セグメント — 顧客や訪問者を、共通の性質でいくつかのまとまりに分けた、その一つひとつのこと。新規/既存、年代、性別、流入チャネル、デバイスなどが代表例です。全体をひとかたまりで見るのではなく、意味のあるセグメントに分けて見ることが、数字の罠を避ける第一歩になります。
種明かし——「構成比」が変わっていた
なぜこんなことが起きるのか。鍵は、訪問者の「構成比」の変化にあります。もともと既存顧客は、新規顧客よりずっと購入率が高い層です。会員登録済みで、欲しいものが決まって戻ってくることが多いからです。今回のリニューアルは、たまたまメルマガ施策の時期と重なり、その既存顧客の来訪が大きく増えていました。前は新規6割・既存4割だった構成が、後では新規2.5割・既存7.5割へ。購入率の高い既存顧客の割合がぐっと増えたのです。リニューアルの中身とは関係のないところで、客の顔ぶれが入れ替わっていた、ということです。

つまり、各層の購入率は下がっていても、購入率の高い既存顧客が全体に占める割合が増えたぶん、平均をとった全体の数字だけが上がって見えた、というわけです。リニューアルそのものは購入率を下げていたのに、客層の変化がそれを覆い隠していたのです。次の図に、この逆転の仕組みをまとめました。
数字でも追ってみましょう。全体の購入率は、各層の購入率を「人数の割合で重みづけして平均したもの」です。リニューアル前は、新規6割(購入率3.85%)と既存4割(8.72%)の混ぜ合わせで、全体5.8%。後は、新規2.5割(3.16%)と既存7.5割(7.19%)の混ぜ合わせで、全体6.18%。各層の数字はどちらも下がっているのに、全体の平均を引き上げる「重し」が、購入率の低い新規から高い既存へと移った。だから平均だけが上がった。これがからくりの全てです。重みのかけ方が変われば、中身が悪化していても、平均はいくらでも良く見せられるのです。

用語メモ|構成比(こうせいひ) — 全体のうち、それぞれのグループがどれくらいの割合を占めるかのこと。今回のように、購入率の高いグループの割合が増えると、各グループが悪化していても、全体の平均は上がって見えることがあります。
ここで大事なのは、どちらの数字も嘘ではない、ということです。全体の6.18%も、各層の低下も、計算は正しい。問題は「どちらが、いま知りたい問いに答えているか」です。知りたいのが『このリニューアルは購入率を上げる変更だったか』なら、答えは各層の数字、つまり『いいえ』です。全体の数字は、リニューアルの良し悪しに、客層の変化という別の要因が混ざってしまっているからです。数字そのものより、その数字が何を測っているのかを問う。これが効果検証の肝になります。
ECでは、こんな場面でも紛れ込む
今回は「新規と既存」で起きましたが、シンプソンのパラドックスは切り口を変えれば、ECのいたるところに潜んでいます。たとえば広告チャネル別。全体ではコンバージョン率が上がったのに、検索広告でもSNS広告でも個別には下がっていた——セール期間に、もともと数字の良い検索広告の出稿を増やしただけ、というケースです。
デバイス別でも起こります。スマホは購入率が低く、PCは高いのが一般的です。施策の後にPC比率が高い客層が増えれば、スマホでもPCでも購入率が落ちているのに、全体平均は上がって見える。あるいは月次の比較。先月より今月の全体購入率が良くても、ボーナス商戦で購入意欲の高い客が増えただけで、同じ客層で比べれば悪化している、ということもあります。共通するのは「比べている2つの期間で、客の中身が入れ替わっている」という一点です。
商品カテゴリの構成変化でも起こります。利益率の高い定番商品と、利益率の低いセール品。全体の客単価が上がったように見えても、定番もセール品も単価は下がっていて、ただ単価の高い定番がよく売れる時期だっただけ、ということがある。「平均が動いたら、まず中身の比率を疑う」を合言葉にすると、多くの早とちりを未然に防げます。
なぜ、これが怖いのか
怖いのは、全体の数字だけを見て「リニューアルは成功だった」と判断してしまうことです。実際には購入率を下げる変更だったのに、それを全ページへ展開したり、同じ方針で次の改修を重ねたりすれば、知らないうちに足元が崩れていきます。しかも全体の数字は上がっているので、何かがおかしいと気づくのが遅れます。半年後に「なぜか売上が伸び悩む」と気づいたときには、原因はとうに見えなくなっている。前回のA/Bテストの記事で触れた早とちりと同じく、見かけの数字に飛びつくと、判断を誤った代償は時間差で、しかも大きくなって返ってきます。
逆のパターンも同じくらい厄介です。本当は効果のあった施策が、たまたま購入率の低い新規客が増えた時期と重なったせいで、全体の数字が伸びず「失敗」と判断され、お蔵入りになる。良い打ち手を、構成比のいたずらでみすみす捨ててしまうわけです。成功を成功と、失敗を失敗と正しく呼ぶためにも、全体平均の一枚岩を疑う癖が要ります。
どう防ぐか——3つの習慣
幸い、これを防ぐのに難しい統計の知識は要りません。数字を見るときの習慣を少し変えるだけで、このパラドックスはかなりの確率で見破れます。ポイントは「平均ひとつで満足しない」こと。次の3つを習慣にしてください。
- 全体とセグメント別の両方を見る — 全体の数字が動いたら、必ず主要なグループ(新規/既存、年代、流入元など)に分けて確認する。
- 構成比の変化も一緒に見る — 各グループの数字だけでなく、それぞれの割合が前後で変わっていないかをチェックする。
- 条件をそろえて比べる — 客層が変わっているなら、同じ客層どうしで比べる。リニューアルの前後で新規・既存の比率が違うままの単純比較は危険。
この3つ目は、シリーズで繰り返し出てきた「公平に比べる」という発想そのものです。構成比のズレは、これまで見てきた交絡やセレクションバイアスと根は同じ。比べている2つが、実は違う集団になっていないかを疑う。それが効果検証の出発点でした。
運用に落とすなら、ダッシュボードに「全体の数字」と並べて「主要セグメント別の数字」と「構成比」も常に表示しておくのがおすすめです。毎回手で分け直すのは続かないので、最初から並べて見える状態にしておく。全体が動いたときに、セグメントと構成比へ自然に目が向く設計にしておけば、パラドックスはほぼ自動的に見つかります。仕組みで防げるものは、意志ではなく仕組みで防ぐ。これが現実的な対策です。
それでも、どう分けるかは人間が決める
ここでも、最後の判断は人間に残ります。どのグループに分けて見るべきか——新規と既存か、年代か、流入チャネルか、地域か。意味のある切り口を選べるのは、その事業と顧客を知っている人だけです。AIはあらゆる切り口で集計を一瞬で出してくれますが、「この逆転は構成比のせいでは」と疑い、確かめるべき切り口に当たりをつけるのは、現場の勘と仮説の仕事です。数字をどう切るかで結論は変わる。だからこそ、切り方を決める人間の役割は、AI時代にむしろ重くなります。裏を返せば、正しい切り口さえ決められれば、あとの集計や可視化はAIに任せて構いません。人間は「どこを疑うか」に集中し、手を動かす部分はAIに渡す。この役割分担が、データに振り回されない組織のかたちです。AIをどう業務に組み込むかは「AIを入れる」から「安全に回す」へでも整理しています。
まとめ
全体では改善に見えても、セグメント別に分けると全員が悪化している。シンプソンのパラドックスは、構成比の変化が全体の平均を動かすことで起きる、ありふれた、しかし見抜きにくい罠です。広告チャネル別でも、デバイス別でも、期間比較でも、客の中身が入れ替われば同じことが起こります。防ぐ習慣はシンプルで、全体とセグメント別の両方を見て、構成比の変化も確かめ、同じ条件どうしで比べること。「数字が上がった」で立ち止まらず、「どの層で、なぜ上がったのか」まで一歩踏み込む。それだけで、誤った成功判定はぐっと減らせます。効果検証の考え方を一通り押さえたい方は、基礎編からの通読もおすすめです。
データに基づく意思決定を、はてなベースが伴走します
効果検証は「分析の前」が9割です。どのデータを揃え、どんな仮説を立て、何と何を比べるか。ここが整っていないと、どんな高度な手法も誤った結論を出します。はてなベースでは、データに基づく意思決定の土台づくりを支援しています。たとえばこんなケースでお役に立てます。
その数字、本当に「改善」ですか
散在するデータを集約して分析の土台をつくるデータ基盤の整備、効果検証や仮説設計に伴走する分析・AI活用の支援、そして「全社で安全にAIを使いたい」という方へのオンプレミスAI導入支援まで、貴社の状況に合わせて伴走します。まずは無料相談でお気軽にご相談ください。