Hero background image
Wie man A/B-Tests auf Spiele anwendet
Erfahren Sie mehr über die Vorteile von A/B-Tests für Ihre laufenden Spiele und Projekte. 

Einführung in A/B-Tests

A/B-Tests sind ein effektives Mittel, um Ihre Anwendungen durch Experimente und sorgfältige Datenanalyse auf vielfältige Weise zu optimieren und zu verbessern.

Was ist A/B-Testing?

Die Idee hinter A/B-Tests ist es, ähnliche Varianten von Nutzern zu vergleichen und gegenüberzustellen, aber für jede Variante unterschiedliche Optimierungen vorzunehmen, um festzustellen, welche Änderungen in Zukunft vorgenommen werden sollen. Im Idealfall werden mit A/B-Tests zwei oder mehr Versionen eines Experiments verglichen, um festzustellen, welche Version besser abschneidet.

Beim Vergleich der beiden Varianten werden sie oft als A-Variante und B-Variante bezeichnet. Die Nutzer werden nach dem Zufallsprinzip jeder Variante zugewiesen, um jegliche Art von Verzerrung der Daten zu vermeiden.

Dazu können auch Verzerrungen vor dem Test gehören, die auf Variablen beruhen, die sich auf die Testergebnisse auswirken können, z. B. eine Social-Media-Kampagne, bei der Nutzer Geld erhalten, um Ihr Spiel auszuprobieren, kurz bevor Sie Ihr Experiment starten. Diese Gruppe von Nutzern kann Ihren Test beeinflussen und verzerrte Ergebnisse liefern.

Warum Sie A/B-Tests durchführen sollten

A/B-Tests ermöglichen es Ihnen, fundierte Entscheidungen zu treffen, die auf Daten und nicht auf einer Vermutung basieren. Die Fähigkeit, Daten zu liefern, ist eine wesentliche Voraussetzung dafür, dass Sie die notwendigen Änderungen zur Optimierung Ihrer Anwendung vornehmen können.

Je nach Testumfang können Sie mehr als nur eine A- und B-Variante testen. Die Tests können angepasst werden, um mehr Varianten einzubeziehen. Wenn Sie jedoch die Zielgruppe in mehrere Varianten aufteilen, müssen Sie die Dauer des Tests verlängern, um statistische Signifikanz zu erreichen, da sonst die Gefahr besteht, dass die Daten durch einen Mangel an Stichproben verwässert werden.

Wie man A/B-Tests durchführt

Die häufigsten Gründe für den Einsatz von A/B-Tests sind:

  • Maximierung des spezifischen Spielerverhaltens (Ausgabenverhalten, Spielverhalten, Bindung usw.)
  • Testen neuer und bestehender Funktionen zur Optimierung der Leistung und der Akzeptanz durch die Nutzer
  • Verbesserung spezifischer Benutzerabläufe (FTUE, Shop-Benutzerablauf, Levelfortschritt, Belohnungsrhythmus usw.)

Die Festlegung Ihrer Ziele für jeden A/B-Test ist wichtig, um Ihre Daten und Ihre Zeit richtig zu nutzen. Stellen Sie sicher, dass das Geschäftsziel für jedes Experiment klar ist, damit Sie KPIs messen können, die wertvolle Daten liefern, um Initiativen zur Optimierung Ihrer App voranzutreiben.

Ein Beispiel für einen In-App-A/B-Test wäre das Testen der Startwährung eines neuen Spielers. Ihr Experiment könnte in etwa so aussehen:

Das Publikum: Neue Benutzer Variante A (aktiviert): 100 Gold Variante B (Kontrolle): 0 gold Zu messende KPIs: Bindungsrate (D1, D3, D7, D30), ARPDAU und Konversionsrate

Bedeutung von Steuerungsvarianten

Eine Kontrollvariante ist eine Untergruppe von Nutzern, die die Kriterien für die Zielgruppe des Tests erfüllen, aber von der Behandlung nicht berührt werden. Diese Gruppe ist wichtig, um sicherzustellen, dass Ihr Team alle Hebungen und Senkungen, die mit den A- und B-Varianten gemessen werden, klar erkennen kann. Die vor dem Test festgelegten KPIs helfen bei der Bestimmung dieser Änderungen.

Es ist wichtig zu beachten, dass wir durch den Vergleich der Veränderung einer Testgruppe im Laufe der Zeit mit der Metrik der Kontrollvariante die Auswirkungen auf die KPIs isolieren können, die durch externe Faktoren verursacht werden, die Ihre Ergebnisse beeinflussen können.

Screenshot des A/B-Test-Dashboards
Fazit

Unity Gaming Services bietet die Möglichkeit, mit unserem Game Overrides-System A/B-Testkampagnen zu erstellen. Hier finden Sie unsere Schritt-für-Schritt-Anleitung. Schauen Sie regelmäßig auf dieser Seite vorbei, denn wir werden in den kommenden Monaten weitere Tipps hinzufügen.

Nach der Durchführung dieses Tests können wir die Daten analysieren, um zu sehen, wie sich das unterschiedliche Startguthaben auf die einzelnen Verhaltensweisen dieser Varianten auswirkt und wie sie sich auf die zu messenden KPIs auswirken.

Anhand unseres obigen Beispiels wollen wir sehen, ob sich Variante A positiv (oder negativ) auf unsere KPIs auswirkt. Einige Fragen, die Sie sich bei der Durchsicht der Ergebnisse stellen können, sind:

  • Bietet Variante A eine höhere Bindungsrate als die Kontrollvariante, weil die Nutzer mehr Geld ausgeben können, um im Spiel voranzukommen?
  • Besteht ein Anreiz für die Nutzer, mehr Geld auszugeben, wenn sie ein höheres Startguthaben haben?
  • Werden Nutzer mit einem höheren Startguthaben eher zu Ausgebern?

Diese Fragen zu stellen und zu verstehen, wie sich die Behandlung auf die Nutzer auswirkt, ist wichtig, um das Verhalten dieser Spieler zu verstehen und zu wissen, wie Sie die Erfahrung dieser Nutzer optimieren können.

Zwischenzeitliche Tipps für A/B-Tests

Wie man die statistische Signifikanz bestimmt

Die statistische Signifikanz ist der Grad des Vertrauens, dass ein A/B-Test genaue Daten liefert und nicht durch äußere Faktoren beeinflusst wird. Der erste Schritt zur Berechnung der statistischen Signifikanz ist die Aufstellung der Null- und Alternativhypothesen.

  • Nullhypothese (H0): Eine Aussage, dass die Änderung keine Auswirkungen auf die Stichprobengruppe hatte und als wahr angenommen wird.
  • Alternativhypothese (Ha): Eine Vorhersage, wie sich Ihre Behandlung auf die gegebene Probe auswirken wird.

Sobald Sie Ihre Hypothesen gewählt haben, können Sie Ihr Signifikanzniveau (α) wählen, das die Wahrscheinlichkeit der Ablehnung der Nullhypothese angibt. Das anzustrebende Standardsignifikanzniveau liegt bei 0,05, was bedeutet, dass die Wahrscheinlichkeit, dass die Nullhypothese zutrifft, bei weniger als 5 % liegt.

Der nächste Schritt besteht darin, den Wahrscheinlichkeitswert (p-Wert ) zu ermitteln, der die Wahrscheinlichkeit bestimmt, dass Ihre Daten innerhalb der Nullhypothese liegen. Je niedriger der p-Wert ist, desto signifikanter sind die Ergebnisse statistisch gesehen.

Wenn Ihr p-Wert größer als das Signifikanzniveau ist, ist die Wahrscheinlichkeit zu hoch, um die Nullhypothese abzulehnen, und Ihre Ergebnisse sind somit nicht statistisch signifikant.

Wenn Ihr p-Wert unter dem Signifikanzniveau liegt, gibt es genügend Beweise, um die Nullhypothese abzulehnen und die Alternativhypothese zu akzeptieren, d. h. unsere Ergebnisse sind statistisch signifikant.

Ein A/B-Test, der statistisch signifikant ist, bedeutet, dass unser Experiment erfolgreich war und Sie auf der Grundlage unseres Tests getrost Änderungen vornehmen können, um unsere App zu optimieren.

Beispiele für A/B-Tests in Spielen

Ein sehr häufiges A/B-Testing-Experiment, das zu Beginn der Lebensdauer eines Spiels durchgeführt wird, ist das Testen verschiedener Erstnutzererfahrungen (FTUEs), um die frühe Bindung der Spieler zu erhöhen (D1, D3, D7). Der FTUE eines Spiels ist wichtig, um die Nutzer an Bord zu holen und ihr Interesse an Ihrer App zu wecken.

Das Publikum: Neue Benutzer Variante A (Variante): Normale FTUE (10 Schritte) Variante B (Kontrolle): Kurze FTUE (5 Schritte) zu messende KPIs: Verbleibquote (D1, D3, D7)

Viele Live-Service-Spiele und -Apps bieten den Nutzern In-App-Käufe (IAPs) an, um die Verteilung der Inhalte und die Einnahmen der Entwickler zu unterstützen. Ein gängiges Beispiel ist das Testen verschiedener Preispunkte für ein IAP-Bundle, wie z. B. ein Item-Bundle ($5-Bundle vs. $20-Bundle). Alternativ können Sie auch den gleichen Preis, aber unterschiedliche Inhalte im Paket anbieten.

Das Publikum: Spender-Variante A (aktiviert): $5-Bündel Variante B (Kontrolle): $20-Bündel Zu messende KPIs: ARPDAU (durchschnittlicher Umsatz pro täglichem Durchschnittsnutzer), LTV (langfristiger Wert)

Do's und Don'ts von A/B-Tests

DO:

Führen Sie immer einen A/B-Test durch. Sie sollten immer mindestens einen A/B-Test laufen lassen, damit Sie keine Zeit verlieren und neue Wege zur Optimierung Ihrer App finden.

Durchführung von Tests zu verschiedenen Metriken. Achten Sie beim Experimentieren immer darauf, verschiedene Variablen zu testen, die Sie optimieren können, und verwenden Sie für jede Variable separate A/B-Tests. Das kann von der Schwierigkeit über die Belohnungen für die Werbung bis hin zum Zeitpunkt der Push-Benachrichtigung reichen.

Achten Sie darauf, dass Ihre Variablengruppen ähnliche Stichprobengrößen haben. Wenn sich die Stichprobengrößen zwischen den Gruppen zu sehr unterscheiden, werden Sie ungenaue Ergebnisse erhalten. Alle Behandlungen, die an diesen Proben durchgeführt werden, sind möglicherweise nicht angemessen.

DON'T:

Testen Sie zu viele Variablen gleichzeitig. Wenn Sie zu viele A/B-Tests gleichzeitig durchführen, werden Ihre Ergebnisse unscharf, da sich verschiedene Tests gegenseitig beeinflussen können.

Führen Sie Ihre Tests zu kurz durch. Ein häufiger Fehler ist es, einen Test zu früh abzubrechen, wenn die Daten nicht ausreichen und durch eine Vielzahl von Faktoren beeinflusst werden können. Ein Ereignis im Spiel, das mitten im Experiment stattfindet, kann Ihre Ergebnisse stark beeinflussen, was zu einer geringen statistischen Signifikanz und zu weniger zuverlässigen Daten führt.

Scheuen Sie sich nicht, bei Ihren Experimenten mehr ins Detail zu gehen. Die Eingrenzung Ihrer Zielgruppe auf eine feinere Ebene kann sehr effektiv sein, solange Sie eine gut durchdachte Hypothese haben und über eine Stichprobengröße verfügen, die groß genug ist, um genaue Ergebnisse zu liefern.