会員ランクの特典は本当に効いた?——回帰不連続デザイン（RDD）で測る ‣ はてなベース株式会社

「年間5万円以上のお買い上げで、ゴールド会員。送料無料とポイント2倍」。多くのECが採用する、購入額に応じたランク特典です。さて、この特典は本当に効いているのでしょうか。ゴールド会員と一般会員の翌年の購入額を比べると、ゴールド会員のほうがずっと多い。だから「特典が効いている」と判断しがちです。けれど、ゴールド会員はそもそも、たくさん買う優良顧客が選ばれているだけかもしれません。特典のおかげなのか、元から優良なだけなのか。ここを取り違えると、効果の薄い特典に値引き原資を注ぎ続けたり、逆に有効な特典を「効果がない」と早合点して廃止したりと、制度設計を誤ります。この見分けに使えるのが、回帰不連続デザイン（RDD）です。閾値のすぐ上とすぐ下にいる“ほぼ同じ客”を比べることで、特典の真の効果を取り出します。前回までの広告効果検証シリーズと同じく、数式やコードは使いません。

この記事の数値は、解説のために架空の設定で作ったダミーデータを分析した結果です。実在するサイトのものではありません。あえて「特典の真の効果は翌年購入額+8,000円」とわかっている状況を作り、各手法がこの正解にどれだけ近づけるかを答え合わせします。

単純比較は、なぜ効果を水増しするのか

まず、ありがちな単純比較から見ます。ゴールド会員全体と一般会員全体で、翌年の年間購入額を比べると、その差はなんと+31,517円。これだけ見れば「ランク特典は購入額を3万円以上も押し上げる、絶大な効果だ」と言いたくなります。もしこの数字を信じれば、「ゴールド特典は1人あたり3万円の価値がある。もっと多くの人をゴールドに引き上げよう」と判断するでしょう。しかし、この比較はまったく公平ではありません。判断を誤れば、効果の薄い特典に原資をつぎ込み続けることになります。

次の散布図を見てください。横軸が前年の購入額、縦軸が翌年の購入額です。ゴールド会員（閾値より右）は、もともと前年の購入額が大きい人たちで、翌年もよく買う傾向があります。一般会員（閾値より左）は、もともと購入額が小さい。つまり両者の差の大半は、特典の効果ではなく、元々の購買力の差なのです。これは基礎編で扱ったセレクションバイアスの典型例で、リターゲティング広告の記事やクーポンのアップリフトの記事で見たのと、根は同じ問題です。比べている2つのグループが、最初から別の集団になっているのです。極端に言えば、特典を一切配らなくても、ゴールド会員相当の高購買層は翌年もよく買い、一般会員相当の層はそれなりにしか買わない。単純比較は、この「放っておいても生じる差」を、まるごと特典の手柄に計上してしまっているわけです。

前年購入額と翌年購入額の散布図。ゴールド会員は閾値より右の高購入額側に偏っている — ゴールド会員は「元から購入額が大きい」人たち。単純比較は、この元々の差を特典の効果と取り違える

閾値の「すぐ上」と「すぐ下」だけを比べる

ここでRDDの出番です。発想はとてもシンプルで、閾値のすぐ近くにいる人だけに注目します。たとえば前年の購入額が49,000円だったAさんと、51,000円だったBさん。その差はわずか1,000円。購買力も生活ぶりも、ほとんど変わらない“ほぼ同じ人”です。にもかかわらず、Bさんは閾値を超えてゴールド特典を受け、Aさんは受けられません。たった1,000円の差で、運命が分かれたわけです。この1,000円は、たまたまその年に一品多く買ったかどうか程度の、ほとんど偶然の差にすぎません。

閾値5万円の直前のAさんと直後のBさんはほぼ同じ人で、特典の有無だけが違い、翌年購入額の差が特典の効果 — 閾値の直前と直後は“ほぼ同じ人”。違いは特典の有無だけなので、結果の差は特典のおかげと言える

ほぼ同じ人なのに、片方だけ特典を受けている。これは、閾値の周りで小さな「くじ引き」が起きているようなものです。だから、閾値のすぐ上の人たちと、すぐ下の人たちの翌年購入額の差は、純粋に特典の効果とみなせます。優良かどうかの違いは、閾値の近くではほとんどないからです。年間49,000円の人と51,000円の人を、どちらが優良かと問われても、区別はつきません。誰が閾値の上に来て、誰が下に来るかは、その年のちょっとした買い物のタイミング次第。いわば偶然です。この偶然のおかげで、閾値の周りには、A/Bテストに近い“公平な振り分け”が自然に生まれているのです。

用語メモ｜回帰不連続デザイン（RDD） — ある基準値（閾値）を境に、特典や処置の有無がはっきり切り替わるとき、閾値の「すぐ上」と「すぐ下」にいる人を比べて効果を測る方法のこと。閾値の近くにいる人どうしはほぼ同じ条件なので、結果に生じた“段差（ジャンプ）”を、処置の因果効果とみなせます。

用語メモ｜局所的な効果 — RDDで分かるのは、あくまで「閾値の近くにいる人」での効果です。閾値からかけ離れた人（ずっと買う人・ほとんど買わない人）に同じ特典が同じだけ効くとは限りません。RDDの結果は「閾値付近での効果」と理解し、全体に当てはめすぎないことが大切です。「閾値付近で測った効果」というラベルを必ず添えて報告すると、誤解を防げます。

結果に現れる「ジャンプ」が、特典の効果

閾値の近くだけを取り出して、翌年購入額を描いたのが次のグラフです。閾値の左（一般会員）と右（ゴールド会員）で、それぞれなめらかな線を引きます。注目すべきは、閾値のところで線が不連続に“ジャンプ”している点です。前年購入額がほぼ同じなのに、特典を受けたゴールド会員側だけ、翌年の購入額がぴょこんと跳ね上がっている。もし閾値の左右の線をそのまま延長したら、本来は段差なく一本につながるはずでした。その“つながるはずだった線”からのズレが、特典がもたらした上乗せ分です。この段差こそが、特典の純粋な効果です。

閾値付近で翌年購入額が不連続にジャンプし、その幅が約8,600円であることを示すRDDのグラフ — 閾値で線が不連続にジャンプ。前年購入額がほぼ同じなのに生じたこの段差が、特典の効果

このジャンプの大きさを測ると、+8,608円でした。仕込んでおいた真の効果+8,000円に、ぴたりと近い値です。単純比較が示した+31,517円とは、まるで別物。単純比較は、特典の効果を約4倍に水増ししていたことになります。

なぜ、このジャンプを効果と言い切れるのか。もし特典に何の効果もなければ、翌年の購入額は前年購入額のなめらかな延長線上に並ぶはずです。閾値の手前から先まで、線は段差なくつながる。ところが実際には、閾値のところでだけ、線がぐいっと持ち上がっています。前年購入額がほぼ同じ人たちの間で起きたこの段差は、両者の唯一の違い、つまり特典の有無でしか説明できません。だからジャンプ＝特典の効果、と結論できるのです。逆に言えば、もし閾値で段差がまったく見られなければ、その特典は購入額を動かしていない、という証拠になります。ジャンプの有無は、特典が効いているかどうかの、わかりやすい判定材料になります。

単純比較+31,517円とRDD+8,608円を比較し、真の効果+8,000円に近いのはRDDであることを示す棒グラフ — 単純比較は約4倍に水増し。RDDは真の効果にぴたりと近い値を当てる

RDDが使える場面、苦手な場面

RDDの強みは、「ある基準で機械的に特典が決まる」施策と相性が良いことです。会員ランク、ポイント付与の閾値、送料無料ライン、◯円以上で割引、累計スタンプの特典など、ECには閾値で決まる仕組みがあふれています。これらはすべて、閾値という“自然のくじ引き”を使って効果を測れます。たとえば「3,000円以上で送料無料」なら、2,900円台で購入した人と3,100円台で購入した人の、その後のリピート率を比べればいい。新たにA/Bテストを組まなくても、すでに手元にあるデータから、過去の施策の効果を後から検証できるのがRDDの嬉しいところです。A/Bテストは事前に設計して走らせる必要がありますが、RDDは「閾値で決まる仕組み」さえあれば、運用しながら貯まったデータで振り返れます。

一方で、苦手な場面もあります。まず、推定できるのは閾値の近くにいる人での効果だけです。年間4〜6万円あたりの“ボーダーライン顧客”には特典が効いても、購入額がずば抜けて多いプラチナ層のような、閾値から遠い人への効果まではわかりません。また、顧客が閾値を意識して「あと少しで5万円だから、もう一品買っておこう」と駆け込み購入で自分を閾値の上に押し上げられる場合は、閾値の近くが“ほぼ同じ人”でなくなり、RDDが崩れます。もし閾値の直前（4万円台後半）に駆け込み購入の山ができ、直後が不自然にスカスカなら、それは顧客が閾値を操作したサインです。そうなると、閾値のすぐ上の人は「あと一歩だったので頑張って買い足した意欲的な人」に偏り、すぐ下の人とは別の集団になってしまう。閾値の手前と直後で、人数の分布が不自然に偏っていないかは、RDDを使う前に必ず確認しておきたいポイントです。

用語メモ｜閾値（しきいち） — 特典や処置の有無を分ける基準値のこと。今回なら「年間購入額5万円」がそれにあたります。RDDは、この閾値のすぐ近くで起きる“ほぼランダムな振り分け”を利用します。顧客が閾値を狙って行動を変えられる場合は、この前提が崩れる点に注意が必要です。

それでも、どこに線を引くかは人間が決める

RDDの計算自体は、ツールやAIに任せられます。けれど、そもそもどの閾値に注目するか、駆け込み購入のような“閾値いじり”が起きていないか、推定した効果を会員制度の設計にどう反映するか——こうした判断は人間に残ります。「このランク特典、コストに見合っているのか」と疑問を持ち、閾値という自然実験に気づけるのも、制度と顧客を知っているからこそです。送料無料ラインを動かすと客単価がどう変わるか、ランクの基準を下げると優良顧客が薄まらないか——制度設計の勘どころは、数字の外側にある経験知に支えられています。AIは段差を測る計算を加速してくれますが、何を疑い、制度をどう変えるかは、人の仕事として残ります。AIをどう業務に組み込むかは「AIを入れる」から「安全に回す」へでも整理しています。

まとめ

会員ランク特典の効果を、ゴールド会員と一般会員の単純比較で測ると、+31,517円という大きな数字が出ます。しかしその大半は、特典の効果ではなく、元から優良な人が選ばれているだけ。閾値のすぐ上とすぐ下の“ほぼ同じ客”を比べるRDDで測ると、真の効果は+8,608円、単純比較の約4分の1でした。大事なのは、ゴールド会員という“結果”を見て効果を語るのではなく、特典という“原因”が生んだ上乗せだけを取り出すこと。閾値で決まる特典は、その閾値をうまく使えば、追加の実験なしでも効果を測れます。しかも、閾値で決まる施策のデータはすでに手元にあるので、明日からでも検証を始められます。会員ランク・ポイント・送料無料ラインなど、心当たりのある施策があれば、閾値の前後で結果に段差が出ているかを見てみてください。段差があれば効いている証拠、なければ、その特典はコストに見合っていないのかもしれません。閾値という身近な“自然実験”は、使わない手はありません。効果検証の考え方を一通り押さえたい方は、基礎編からの通読もおすすめです。

会員ランク特典適用判断チェック

全 4 問

問1
あなたが EC のマーケ責任者で、「ゴールド会員と一般会員の翌年購入額の差は +31,517 円。だからランク特典は強力な施策だ」と部下から報告を受けました。本記事の主張に従うと、最初にどう疑うべきか？
解説
本記事は「ゴールド会員はそもそも、たくさん買う優良顧客が選ばれているだけかもしれません」「両者の差の大半は、特典の効果ではなく、元々の購買力の差なのです」と明示しています。ダミーデータでは単純比較 +31,517 円に対し、真の効果はわずか +8,000 円 (約 4 倍の水増し) でした。誤答 (1) は他社も同じバイアスを抱えうるため比較できず、(2) は本記事が真っ向から警告する判断、(4) は推移を見てもグループ間の元の差は解消しません。
問2
あなたが EC のアナリストで、A/Bテストが組めない既存のランク特典について、過去データから効果を測りたいと考えています。本記事の主張に従うと、どの方法が現実的か？
解説
本記事は「閾値の周りには、A/Bテストに近い『公平な振り分け』が自然に生まれている」「閾値で決まる仕組みさえあれば、運用しながら貯まったデータで振り返れます」と整理しています。49,000 円と 51,000 円の差はその年のちょっとした買い物のタイミングで決まる偶然なので、両者の翌年購入額の差は特典の効果とみなせます。誤答 (1) は効果検証の放棄、(3) はまさに本記事が警告する単純比較、(4) は既存データを使わず新規実験を組むのは非現実的です。
問3
あなたが EC の担当者で、ランク制度に RDD を当てて「特典の効果は +8,608 円」と推定できました。経営会議で「全会員をゴールドに上げれば、1 人あたり +8,608 円稼げる」と報告したいと考えています。本記事の主張に従うと、この一般化は妥当か？
解説
本記事は「RDDで分かるのは、あくまで『閾値の近くにいる人』での効果です」「閾値からかけ離れた人(ずっと買う人・ほとんど買わない人)に同じ特典が同じだけ効くとは限りません」「『閾値付近で測った効果』というラベルを必ず添えて報告すると、誤解を防げます」と明示しています。誤答 (1) は全会員への一般化で過大期待を招き、(3) は数字操作、(4) は他社の閾値設計と自社は別物です。
問4
あなたが EC のデータ担当で、ランク特典について RDD を使う前に、サイトの会員データを確認しました。閾値の直前 (4 万円台後半) に駆け込み購入の山ができ、直後 (5 万円台前半) は不自然にスカスカでした。本記事の主張に従うと、どう判断すべきか？
解説
本記事は「もし閾値の直前 (4 万円台後半) に駆け込み購入の山ができ、直後が不自然にスカスカなら、それは顧客が閾値を操作したサインです」「閾値のすぐ上の人は『あと一歩だったので頑張って買い足した意欲的な人』に偏り、すぐ下の人とは別の集団になってしまう」と明示しています。誤答 (1)(3)(4) はいずれも前提が崩れたまま推定を続け、特典の効果を誤って測ってしまいます。

データに基づく意思決定を、はてなベースが伴走します

効果検証は「分析の前」が9割です。どのデータを揃え、どんな仮説を立て、何と何を比べるか。ここが整っていないと、どんな高度な手法も誤った結論を出します。はてなベースでは、データに基づく意思決定の土台づくりを支援しています。たとえばこんなケースでお役に立てます。

その会員特典、効果を測れていますか

散在するデータを集約して分析の土台をつくるデータ基盤の整備、効果検証や仮説設計に伴走する分析・AI活用の支援、そして「全社で安全にAIを使いたい」という方へのオンプレミスAI導入支援まで、貴社の状況に合わせて伴走します。まずは無料相談でお気軽にご相談ください。

無料相談はこちら