ÜbersichtA/B Tests: Die richtige Testgruppen-Größe

A/B Tests: Die richtige Testgruppen-Größe.

24.09.2018: A/B Tests sind ein unheimlich nützliches und wirksames Instrument, um mit wenig Aufwand E-Mailings gezielt zu verbessern - beispielsweise um den optimalen Versandzeitpunkt zu ermitteln oder um zu überprüfen, welche Betreffzeile bei der Zielgruppe am ehesten zu einer Öffnung führt.

Doch dabei stellt sich immer wieder die Frage: Wie groß sollen die Testgruppen gewählt werden? Und ab welcher Größe für die Stichproben macht ein solcher Test überhaupt Sinn?

Ganz kurzer theoretischer Hintergrund

Wenn man einen Test durchführt, dann gibt es immer ein Rest-Risiko, dass ein festgestellter Unterschied rein zufällig ist. So kann es beispielweise passieren, dass jemand 100x hintereinander einen "6er" würfelt; das ist nicht unmöglich, nur sehr unwahrscheinlich.

Daher stellt man über statistische Verfahren fest, ob sich ein Unterschied mit einer gewissen Wahrscheinlichkeit rein zufällig ergeben haben könnte - oder eben nicht. Wenn der Unterschied wahrscheinlich nicht zufällig ist, spricht man von einem "signifikanten" Ergebnis.

 

Vier Einflussgrößen für die Tests

Wenn man einen A/B Test durchführt, gibt es vier Elemente, die man beim Testen beeinflussen kann, um die Wahrscheinlichkeit für ein signifikantes (aussagekräftiges) Ergebnis zu erhöhen:

1) Die Größe der Testgruppen: Je größer die Testgruppen sind, umso höher steigt die statistische Wahrscheinlichkeit, dass ein Unterschied zu einem aussagekräftigen Ergebnis führt. Anders formuliert: Wenn ein gemessener Unterschied (z.B. in den Öffnungsraten von zwei Betreffzeilen) sehr klein ist, dann kann eine große Testgruppe dennoch zu einem signifikantem Unterschied führen - einfach weil die statistische Schwankungsbreite direkt mit der Gruppengröße korreliert. Es gilt also: Je größer die Testgruppen, desto besser.

2) Unterschiedlichkeit der Varianten: Doch nicht immer hat man die Möglichkeit, sehr große Testgruppen zur Verfügung zu haben. Dann gibt es eine weitere Schraube, um möglichst zu einem aussagekräftigem Ergebnis zu kommen: Wenn die Testgruppen relativ klein sind, sollte man - bewusst - auf Testelemente setzen, die sich (vermutlich) stark unterscheiden. Denn je größer der gemessene Unterschied, desto höher die Wahrscheinlichkeit, dass dieser Unterschied statistisch aussagekräftig ist. Also sollte man nicht zwei Betreffzeilen testen, die sich nur durch ein paar Buchstaben unterscheiden; oder Versandzeitpunkte wählen, die sehr dicht beieinander liegen.

3) Anzahl der Varianten: Je mehr Varianten (z.B. unterschiedliche Betreffzeilen) Sie testen möchten, umso größer muss Ihre gesamte Verteilerliste sein. Denn die Anzahl der Varianten wirkt sich natürlich direkt auf die Größe der Testgruppen aus: Wenn Sie z.B. 1.000 Empfänger in der Versandliste haben, jedoch 10 Betreffzeilen testen möchten, dann bleiben pro Testgruppe nur noch 100 Empfänger übrig.

4) Irrtumswahrscheinlichkeit: Und die vierte Schraube ist jene der statistischen Aussagekraft des Ergebnisses: Je kleiner die Irrtumswahrscheinlichkeit ist (das ist also das Risiko, dass ein festgestellter Unterschied eigentlich rein zufällig zustande kam), desto größer müssen die Testgruppen sein. In der Wissenschaft hat sich ein "Vertrauensintervall" von 95% etabliert - das bedeutet, dass ein Restrisiko (Irrtumswahrscheinlichkeit) von 5% bleibt, dass ein Unterschied eigentlich nur zufällig war. Möchte man die Sicherheit erhöhen und wählt z.B. ein Vertrauensintervall von 99% (d.h. die Irrtumswahrscheinlichkeit beträgt dann nur noch 1%), dann müssen entweder die Testgruppen deutlich größer sein und/oder der gemessene Unterschied muss groß sein.

 

Konkrete Empfehlung und eine Daumenregel

Wenn Sie Betreffzeile, Versandzeitpunkt oder Absender testen, also A/B Tests durchführen die auf eine möglichst gute Öffnungsrate abzielen, dann sollten Sie pro Testgruppe mindestens 150 Empfänger einplanen. Bei 4 Testvarianten muss die gesamte Verteilerliste also mindestens 600 Empfänger umfassen.

Bei Tests auf die Klickrate (z.B. inhaltliche Varianten eines E-Mailings) sollten es mindestens 500 Empfänger pro Testgruppe sein.

Tipp für dialog-Mail Kunden: Wenn Sie einen A/B Test erstellen, dann macht dialog-Mail automatisch einen Vorschlag für die optimale Verteilung der Testgruppen. Diesen können Sie dann annehmen oder nach Belieben verändern.

 

Und wenn der Verteiler relativ klein ist?

Wenn Ihre Versandgruppe nicht groß genug ist oder wenn Sie die Wahrscheinlichkeit erhöhen möchten, ein aussagekräftiges Ergebnis zu bekommen, dann gibt es mehrere Möglichkeiten:

  • Reduzieren Sie die Anzahl der Varianten: Beschränken Sie sich auf die erfolgversprechendsten Test-Elemente - je weniger Test-Elemente (z.B. unterschiedliche Versandzeitpunkte usw.), desto besser.
  • Gestalten Sie die Test-Elemente möglichst unterschiedlich: Je variantenreicher Ihre Elemente sind, umso besser - seien Sie mutig!
  • Akzeptieren Sie eine höhere Irrtumswahrscheinlichkeit: Eine Signifikanz von 99% zu erreichen (d.h. eine Irrtumswahrscheinlichkeit von 1%) verlangt meist relativ große Testgruppen. Bei einem Signifikanz-Niveau von 95% steigt zwar die Irrtumswahrscheinlichkeit etwas an (auf 5%), doch die notwendige Gruppen-Größe sinkt deutlich.
  • Machen Sie sequentielle Tests: Wenn es gar nicht anders geht (z.B. weil Sie einfach nur 200 Empfänger in Ihrer gesamten Versandliste haben), dann macht ein A/B Test leider kaum einen Sinn. Dann bleibt nur, ein Mailing nach dem anderen zu verschicken und dabei gezielt die Rahmenbedingungen zu ändern (z.B. die Versandzeitpunkte zu variieren). Das ist zwar kein richtiger "Test" mehr - doch interessante Erfahrungen kann man auch so oft machen!
 

Die Königs-Disziplin: Der Gewinnerversand

Wenn Sie eine etwas größere Versandgruppe haben, dann bieten manche Newsletter-Systeme ein ungemein praktisches Feature: Den Gewinner-Versand.

Dabei sendet die Software die zu testenden Varianten an die verschiedenen Testgruppen, wobei ein Teil der Versandliste zurückgehalten wird. Nun werden die Ergebnisse der Testvarianten (in Echtzeit) gemessen und sobald eine davon statistisch signifikant besser abschneidet als die anderen Varianten, sorgt das System dafür, das diese beste Variante (die Gewinner-Variante) an die restlichen Empfänger der Versandgruppe geschickt wird. Cool, oder?

Alle Fakten zu dialog-Mail finden Sie in unserem druckfrischen Folder!

Kostenloser Folder

Wir senden Ihnen unseren gedruckten Folder gerne unverbindlich per Post zu.

»Jetzt anfordern
Mit unserem Newsletter sind Sie immer top-informiert

Kein Know-how verpassen!

Fallstudien, News, Best Practies in Ihrer Inbox. Praxisnah und kompetent.

»Newsletter bestellen
Mit dialog-Mail können wir sicher sein, dass unsere Mails auch tatsächlich optimal ankommen.

"Mit dialog-Mail können wir sicher sein, dass unsere Mails auch tatsächlich optimal ankommen."

Dipl.-Ing. Rudolf Purkhauser, Bayer Austria