A / Bテストの復習

最近のデータがすべてです。リーダーは、証拠がない限り、決定を下したくありません。もちろん、それは良いことです。幸い、本能に頼らずに情報を取得する方法はたくさんあります。特にオンライン設定で最も一般的な方法の1つは、A / Bテストです。

A / Bテストとは何か、どこで発生したか、どのように使用するかをよりよく理解するために、KaiserFungと話をしました。 、コロンビア大学で応用分析プログラムを設立し、マスメディアのデータとグラフィックスの批判的調査を専門とするブログであるJunkChartsの著者です。彼の最新の著書は、Number Sense:ビッグデータを活用する方法です。

A / Bテストとは何ですか?

A / Bテストは、最も基本的な方法です。何かの2つのバージョンを比較して、どちらが優れているかを判断します。ほとんどの場合、ウェブサイトやアプリに関連付けられていますが、この方法はほぼ100年前のものであるとFung氏は言います。

1920年代に、統計学者で生物学者のロナルドフィッシャーは、A / Bテストとランダム化比較試験の背後にある最も重要な原則を発見しました。一般。 「彼はこのような実験を行った最初の人ではありませんでしたが、基本的な原理と数学を理解し、それらを科学にした最初の人でした」とFung氏は言います。

フィッシャーは農業実験を行いました。この土地にもっと肥料を入れるとどうなりますか?原則は存続し、1950年代初頭に科学者は医学の臨床試験を開始しました。1960年代と1970年代に、この概念はマーケティング担当者によって直接対応キャンペーンを評価するために採用されました(例:ポストカードや顧客を対象とした手紙は、より多くの売り上げにつながるでしょうか?)

A / Bテストは、現在の形で1990年代に登場しました。Fungは、過去1世紀を通じて、背後にある数学がテストは変更されていません。「これは同じコアコンセプトですが、オンライン、リアルタイム環境、参加者数と実験数の点で異なるスケールで実行しています。」

A / Bテストはどのように機能しますか?

A / Bテストを開始するには、必要なものを決定します。 テストする。 Fungは簡単な例を示しています:あなたのウェブサイトの購読ボタンのサイズ。次に、そのパフォーマンスをどのように評価するかを知る必要があります。この場合、指標がボタンをクリックした訪問者の数であるとしましょう。テストを実行するには、2セットのユーザー(サイトにアクセスしたときにランダムに割り当てられます)に異なるバージョン(ボタンのサイズのみが異なる)を表示し、どちらが成功指標に最も影響を与えたかを判断します。この場合、どのボタンサイズがより多くの訪問者をクリックする原因になりましたか?

実際には、誰かがクリックするかどうかに影響を与えるものはたくさんあります。たとえば、モバイルデバイスのユーザーは特定のサイズのボタンをクリックする可能性が高く、デスクトップのユーザーは別のサイズで描画される可能性があります。これはランダム化が役立つところです—そして重要です。どのユーザーがどのグループに属しているかをランダム化することで、モバイルとデスクトップなどの他の要因が平均して結果を左右する可能性を最小限に抑えることができます。

“A / Bテストは最も基本的な種類と見なすことができます。ランダム化比較試験」とFung氏は述べています。「最も単純な形式では、2つの治療法があり、一方が他方の対照として機能します。」すべてのランダム化比較試験と同様に、統計的有意性を達成するために必要なサンプルサイズを推定する必要があります。これにより、表示されている結果が「バックグラウンドノイズだけが原因ではない」ことを確認できます。

特定の変数(通常は簡単に操作できない変数)が成功指標に強い影響を与えることを知っている場合があります。たとえば、ウェブサイトのモバイルユーザーは、デスクトップユーザーに比べてクリック数が少ない傾向があります。ランダム化により、セットAにはセットBよりもわずかに多くのモバイルユーザーが含まれる可能性があり、表示されているボタンサイズに関係なく、セットAのクリック率が低くなる可能性があります。競技場を平準化するには、テストアナリストは最初にユーザーを分割する必要があります。モバイルとデスクトップで、それぞれのバージョンにランダムに割り当てます。これはブロッキングと呼ばれます。

サブスクライブボタンのサイズは非常に基本的な例です、とFung氏は言います。実際には、テストしているだけではないかもしれません。サイズだけでなく、色、テキスト、書体とフォントサイズを確認します。多くのマネージャーは、最初にサイズをテストし(大対小)、次に色をテストし(青対赤)、次に書体をテストし(Times対Arial)、2つ以上の要素を変更してはならないと考えているため、順次テストを実行します。同時。しかし、Fungによれば、その見解は統計学者によって暴かれています。また、要因が相互作用したときに何が起こるかを測定していないため、順次テストは最適ではありません。たとえば、ユーザーは平均して青を好みますが、Arialと組み合わせると赤を好む場合があります。書体テストは前のテストに「勝った」青いボタンで実行されるため、この種の結果はシーケンシャルA / Bテストでは定期的に見落とされます。

代わりに、Fung氏は、より複雑なテストを実行する必要があると言います。 。A/ Bテストの魅力は、実行がいかに簡単でシンプルかということなので、これは一部のマネージャーにとって難しい場合があります(そして、これらの実験を設計する多くの人々は、統計のバックグラウンドを持っていないとFungは指摘します)。 / Bテストでは、多数の独立した同時テストを実行する傾向があります」と彼は言います。これは主に、テストできる可能な組み合わせの数に頭を悩ませているためです。しかし、数学を使用すると、「これらの治療法の特定のサブセットのみをスマートに選択して実行できます。その後、データから残りを推測できます」。これは、A / Bテストの世界では「多変量」テストと呼ばれ、多くの場合、最終的にA / B / CテストまたはA / B / C / Dテストを実行することを意味します。上記の色とサイズの例では、大きな赤いボタン、小さな赤いボタン、大きな青いボタン、小さな青いボタンなど、さまざまなグループを表示することを意味する場合があります。フォントもテストしたい場合は、テストグループの数がさらに増えます。

どのように行いますかA / Bテストの結果を解釈しますか?

あなたの会社が計算を処理するソフトウェアを使用する可能性があり、それらの結果を解釈できる統計学者を雇うことさえあります。ただし、出力を理解し、テストのバリエーション(上記の例の新しいボタン)を続行するかどうかを決定する方法を基本的に理解しておくと役立ちます。

Fungによると、ほとんどのソフトウェアプログラムはレポートを作成します。 A / Bテストの2つのコンバージョン率。1つはコントロールバージョンを見たユーザー用、もう1つはテストバージョンを見たユーザー用です。 「コンバージョン率は、クリックやユーザーが行ったその他のアクションを測定する可能性があります。レポートは次のようになります。「コントロール:15%(+/- 2.1%)変動18%(+/- 2.3%)」これは、ユーザーの18%が、2.3%の許容誤差で新しいバリエーション(おそらく大きな青いボタン)をクリックしたことを意味します。これを実際のコンバージョン率が15.7%から20.3%の間にあると解釈したくなるかもしれませんが、技術的には正しくありません。 「実際の解釈では、A / Bテストを複数回実行した場合、範囲の95%が実際のコンバージョン率をキャプチャします。つまり、コンバージョン率は5%の時間(またはその他)の許容誤差を超えます。設定した統計的有意性のレベル)」とFung氏は説明します。

これで頭を悩ませるのが難しい場合は、クラブに参加してください。知っておくべき重要なことは、18%のコンバージョン率は保証。これがあなたの判断の出番です。18%の会話率は15%の会話率よりも確かに優れており、許容誤差も考慮に入れています(12.9%–17.1%対15.7%–20.3%)。これを「3%リフト」として説明します(リフトは、コントロールバージョンと成功したテスト処理の間の変換率のパーセンテージの差です)。この場合、新しいバージョンに切り替えることをお勧めしますが、それは新しいバージョンを実装するコストによって異なります。それらが低い場合は、スイッチを試して、(テストではなく)実際に何が起こるかを確認することができます。オンラインの世界でテストすることの大きな利点の1つは、通常、元のテストに簡単に戻すことができることです。

企業はA / Bテストをどのように使用しますか?

Fungは次のように述べています。オンライン環境がマネージャー、特にマーケターが「人々にクリックさせる可能性が最も高いのは何か?または当社の製品を購入するのか?または当社のサイトに登録するのか? 」 A / Bテストは現在、ウェブサイトのデザインからオンラインオファー、ヘッドライン、製品の説明まで、あらゆるものを評価するために使用されています(実際、先週、ここで新製品を販売するために使用する言語でのA / Bテストの結果を確認しました。 HBR。)

これらの実験のほとんどは、被験者が知らないうちに実行されます。「ユーザーとして、私たちは常にこれらのテストに参加しており、それを知りません」とFung氏は言います。

そしてそれはウェブサイトだけではありません。マーケティングメールや広告もテストできます。たとえば、2つのバージョンの電子メールを顧客リストに送信して(もちろん、最初にリストをランダム化して)、どちらがより多くの売上を生み出しているかを把握することができます。そうすれば、次回は当選バージョンを送ることができます。または、2つのバージョンの広告コピーをテストして、どちらが訪問者をより頻繁に変換するかを確認することもできます。

A / Bテストを行うときに人々はどのような間違いを犯しますか?

私はFungに、企業が犯している間違いについて尋ねました。 A / Bテストを実行するとき、彼は3つの一般的なテストを指摘しました。

最初に、あまりにも多くのマネージャーがテストをコースで実行させない、と彼は言います。これらのテストを実行するためのソフトウェアのほとんどは、結果をリアルタイムで監視できるため、マネージャーは意思決定を迅速に行いたいと考えています。この間違いは「焦りから生まれる」と彼は言います。多くのソフトウェアベンダーは、アルゴリズムを使用して結果として調整を行うことができる「リアルタイム最適化」と呼ばれるタイプのA / Bテストを提供することで、この過度の熱意に取り組んできました。問題は、ランダム化のために、テストを自然な目的で実行すると、異なる結果が得られる可能性があることです。

2番目の間違いは、メトリックが多すぎることです。 「何百ものメトリックのパネルを提供することで、すべての人を喜ばせようとするソフトウェアを見るたびに、私はうんざりします」と彼は言います。問題は、非常に多くのメトリックを同時に見ている場合、統計学者が「疑似相関」と呼ぶものを作成するリスクがあります。適切なテスト設計では、「実験を実行する前に、確認する指標を決定し、いくつかを選択する必要があります。測定する量が多いほど、ランダムな変動が見られる可能性が高くなります。」非常に多くの指標があるため、「この変数で何が起こっているのか」と自問する代わりに。 「私が見ている興味深い(そして潜在的に重要でない)変化は何ですか?」

最後に、Fungは、十分な再テストを行う企業はほとんどないと言っています。「私たちは一度テストする傾向があり、それから信じています。ただし、統計的に有意な結果が得られたとしても、誤検知エラーが発生する可能性は非常に高くなります。たまに再テストしない限り、間違っている可能性を排除することはできません。」誤検知はいくつかの理由で発生する可能性があります。たとえば、特定のA / B結果がランダムな偶然によって引き起こされる可能性はほとんどないかもしれませんが、A / Bテストを何度も行うと、少なくとも1つの結果が間違っている可能性が急速に高まります。

これは、マネージャーが矛盾した結果をもたらす可能性があり、特にマネージャーが変更を加えたいオンラインの世界で、以前の調査結果を損なったことを誰も発見したくないため、特に難しい場合があります。 —そして価値を捉える—迅速に。しかし、この価値への焦点は誤った方向に進む可能性があります。「人々は調査結果の実際的な価値についてあまり警戒していません。テスト結果が完全に信頼できない場合でも、少しでも改善することが価値があると信じたいのです。実際、改善が小さければ小さいほど、結果の信頼性は低くなります。」

A / Bテストが万能薬ではないことは明らかです。より効率的で信頼性の高いデータが得られる、より複雑な種類の実験があります。 、Fung氏は言います。しかし、A / Bテストは、あなたが持っている質問をすばやく理解するための優れた方法です。そして、「A / Bテストの世界についての良いニュースは、すべてが非常に迅速に行われることです。動作しません、あなたは何か他のものを試すことができます。いつでも古い戦術に戻ることができます。」

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です