ABテストにご用心

広告のクリエイティブをテストするABテスト。

Webに限らず、新聞やチラシ配布などでも
広告効果を測定するために有効な手段です。

ただ、わずかでも反応率の髙かったクリエイティブを
良いクリエイティブと判断するのはいささか危険です。

今回は、統計学から見る
ABテストの注意点を書いていきたいと思います。

例えば、どんな広告でも良いのですが、
ABテストで下記のデータが得られたとします。

配信数:10,000×2
クリエイティブA:反応率0.30%
クリエイティブB:反応率0.45%

Bの反応率はAの反応率の1.5倍!
よって、Bのクリエイティブが優秀。

そう結論付けてしまうマーケッターは少なくないと思います。

しかし、統計学的に見ると、必ずしも
データBが優秀とはいえません。

統計学では、有意水準という概念があります。
厳密には「第一種の誤り」が起こる確率なのですが、
分かりやすくイメージだけ伝えます。

サイコロを1回振って1の目が出る確率を考えます。
6回振ってみた結果、たまたま1の目は3回出てしまい、
確率は1/2という結果になってしまいました。

しかし、正確なサイコロであれば、
1の目が出る確率は1/6なハズです。

事実とズレた結論になりました。

試行回数を増やすことで、
ズレは次第に正確な数値に近づいていきます。
「大数の法則」というやつですね。

今回のABテストのケースに戻ります。
本来「Aの方が反応率が高い」or「反応率に差がない」
にも関わらず、上記のサイコロの例のように、
たまたまBのテストの方が優秀
という結果になってしまったかもしれないのです。

「Bのテストの方が優秀ですよ」
という確率が有意水準です。
統計的には95%は欲しいところです。

途中式や判断の仕方などの説明を一切省いて
結論だけ申し上げますと、下記のようになります。

統計量T=(反応数の差の2乗) ÷ (反応数の和)が
3.8415を超えれば、有意水準は95%を超える。

今回のケースだと、
統計量Tは(45-30)^2÷(30+45)=3
となり、3.8415を超えません。

Bの方が優秀な確率は95%もない訳ですね。

では、下記のデータではどうでしょうか?
配信数:100,000×2
クリエイティブA:反応率0.30%
クリエイティブB:反応率0.45%

統計量Tは(450-300)^2÷(450+300)=30
となり、今度は3.8415を超えました。

同じ反応率でも、母数が多いか少ないかで
信憑性は大きく変わってくる訳ですね。

ABテストの結果を見る際は、
そのデータの有意水準がどれくらなのか?
に注意して見ていく必要があります。

詳しい統計量の定義などに興味がある方は、
下記の記事も合わせて読むと理解が深まると思います。
http://hivecolor.com/id/102

本記事を読んで
「とれわか」に興味を持った方はぜひ会員登録をお願い致します。

»資料一覧はこちら»会員登録はこちら