A/Bテスト入門
A/Bテストは、実験と入念なデータ分析を通じて、さまざまな方法でアプリを最適化し、改善する効果的な方法です。
A/Bテストの背後にある考え方は、ユーザーの類似したバリアントを比較対照することですが、今後どのような変更を加えるべきかを決定するために、それぞれのバリアントに対して異なる最適化を提供します。理想的には、A/Bテストは、2つ以上のバージョンの実験を比較し、どちらがより良いパフォーマンスを示すかを確認するために使用されます。
この2つの変種を比較する場合、しばしばA変種とB変種と呼ばれる。データを歪める可能性のあるあらゆる種類のバイアスを防ぐために、ユーザーは各バリアントにランダムに割り当てられる。
これには、テスト結果に影響を与える可能性のある変数に基づくテスト前のバイアスを含めることができます。たとえば、実験を開始する直前に、ユーザーにゲームを試すための通貨を与えるソーシャルメディアキャンペーンなどです。このようなユーザー集団は、テストに影響を与え、歪んだ結果をもたらす可能性があります。
A/Bテストは、直感ではなくデータに基づいて賢明な決定を下すことを可能にする。アプリを最適化するために必要な変更を自信を持って行うには、根拠となるデータを提供できることが不可欠です。
テストの規模にもよりますが、AとBのバリアント以上のテストが可能です。テストは、より多くのバリエーションを含むように調整することができる。しかし、聴衆をより多くのバリアントに分けるには、統計的有意性を達成するためにテストの期間を延長する必要があります。
A/Bテストを活用する最も一般的な原因は、以下の通りである:
- 特定のプレーヤー行動(消費習慣、プレー習慣、リテンションなど)の最大化
- ユーザーのパフォーマンスと採用率を最適化するための新機能および既存機能のテスト
- 特定のユーザーフローの改善(FTUE、店舗ユーザーフロー、レベル進行、報酬ペースなど)
各A/Bテストの目標を明確にすることは、データと時間を適切に活用するために重要である。アプリを最適化するためのイニシアチブを推進するための貴重なデータを提供するKPIを測定できるように、各実験のビジネスゴールを明確にしてください。
アプリ内A/Bテストの一例として、新規プレイヤーの開始通貨残高のテストがある。あなたの実験は次のようなものだろう:
オーディエンス:新規ユーザーバリアントA(有効):100 ゴールドバリアントB(コントロール):0ゴールドKPIを測定する: 継続率(D1、D3、D7、D30)、ARPDAU、コンバージョン率
コントロールバリアントとは、テストの聴衆基準に合致するが、治療の影響を受けないユーザーのサブセットのことである。このグループの重要性は、AおよびBバリアントを使用して測定されたリフトまたはドロップをチームが明確に確認できるようにすることです。テスト前に設定されたKPIは、これらの変更を決定するのに役立つ。
テストグループの経時変化をコントロールバリアントの指標と比較することで、結果に影響を与える外部要因によるKPIへの影響を切り分けることができることに注意することが重要です。
Unity Gaming Servicesでは、ゲームオーバーライドシステムを使用してA/Bテストキャンペーンを作成することができます。ステップ・バイ・ステップのガイドはこちらからご覧いただけます。今後数ヶ月の間に、さらにヒントを追加していくので、このページを必ずチェックしてほしい。
このテストを実行した後、データを分析し、これらのバリアントの各動作が、開始バランスの変化によってどのような影響を受けるか、そして測定したいKPIへの影響を見ることができます。
上記の例に基づき、バリアントAがKPIにプラス(またはマイナス)の影響を与えたかどうかを確認したい。結果を検討する際、自問自答できることがいくつかある:
- バリアントAは、ユーザーがゲームの進行に役立つ通貨をより多く使えるため、コントロールに比べて定着率が高いのでしょうか?
- より高いスタート残高をユーザーに提供することは、より多くのお金を使うインセンティブになるのだろうか?
- 利用開始時の残高が多いほど、利用者は高い確率で消費者に転換しているのだろうか?
これらの質問をし、治療がユーザーに与える影響を理解することは、これらのプレーヤーの行動を理解し、これらのユーザーの経験をどのように最適化できるかを理解するために不可欠である。
A/Bテストの中級者向けヒント
統計的有意性とは、A/Bテストが正確なデータを提供し、外部要因の影響を受けていないという確信のレベルである。統計的有意性を計算する最初のステップは、帰無仮説と対立仮説を立てることである。
- 帰無仮説(H0):その変更が標本群に影響を与えなかったと仮定する記述。
- 対立仮説(Ha):あなたの治療が与えられたサンプルに与える予測。
仮説を決めたら、帰無仮説を棄却する確率である有意水準(α)を選ぶことができる。標準的な有意水準は0.05であり、これは帰無仮説が真である確率が5%未満であることを意味する。
次のステップは、帰無仮説の範囲内でデータが発生する確率を決定する確率値(p値)を求めることである。p値が低いほど、統計的に有意な結果となる。
p値が有意水準より大きい場合、帰無仮説を棄却するには確率が高すぎるため、結果は統計的に有意ではない。
p-レベルが有意水準より低ければ、帰無仮説を棄却し対立仮説を受け入れるに十分な証拠があり、結果は統計的に有意であることを意味する。
統計的に有意なA/Bテストは、実験が成功したことを示し、アプリを最適化するためにテストに基づいて自信を持って変更を加えることができます。
ゲームの初期に行うA/Bテスト実験として非常に一般的なのは、プレイヤーの早期リテンションを高めるために、異なる初回ユーザー体験(FTUE)をテストすることである(D1、D3、D7)。ゲームのFTUEは、ユーザーを取り込み、アプリに興味を持ってもらうために重要です。
オーディエンス:新規ユーザーバリアントA(変種): ノーマルFTUE(10段階)バリアントB(コントロール):短いFTUE(5ステップ)KPIを測定する:定着率(D1、D3、D7)
多くのライブサービスのゲームやアプリは、コンテンツと開発者の収益を分配するために、ユーザーがアプリ内課金(IAP)を利用できるようになっている。よくある例としては、アイテムバンドルのようなIAPバンドルの異なる価格帯をテストする(5ドルのバンドルと20ドルのバンドル)。あるいは、同じ価格帯でも、バンドル内のコンテンツが異なる場合もある。
オーディエンス:バリアントA(有効) バリアントB(コントロール):20ドルのバンドル測定するKPI: ARPDAU(1日平均ユーザーあたりの平均売上)、LTV(長期的価値)
適切:
常にA/Bテストを実施する。時間を無駄にせず、アプリを最適化する新しい方法を見つけるために、常に少なくとも1つのA/Bテストを実行する必要があります。
様々なメトリクスに関するテストを実施する。実験するときは、最適化できるさまざまな変数をテストし、それぞれに個別のA/Bテストを使用するようにする。難易度、広告報酬、プッシュ通知のタイミングなど、さまざまなものがある。
変数グループのサンプルサイズが同程度であることを確認する。グループ間のサンプルサイズが違いすぎると、不正確な結果になります。そのようなサンプルにどのような処理を施しても、適切ではないかもしれない。
避けるべきこと
同時に多くの変数をテストしすぎる。同時に多くのA/Bテストを実施すると、異なるテストが互いに直接影響し合うため、結果が濁ってしまう。
テストの時間が短すぎる。よくある間違いは、データが十分でなく、さまざまな要因に影響される可能性のあるテストを、あまりにも早い段階でやめてしまうことである。実験の途中でゲーム内のイベントが発生すると、結果に大きな影響を与え、統計的有意性が低くなり、データの信頼性が低くなります。
実験をより細かくすることを恐れてはならない。ターゲットをより細かいレベルまで絞り込むことは、よく練られた仮説があり、正確な結果を出すのに十分なサンプル数がある限り、非常に効果的である。