6 zasad prowadzenia testów A/B - abc testów A/B

Spis treści

Co to są testy A/B

Testy A/B to popularne i wraz z rozwojem reklamy internetowej będące coraz częściej wykorzystywane narzędzie do optymalizowania efektów działań marketingowych. Z testami A/B w codziennej pracy do czynienia mają specjaliści od optymalizacji konwersji i specjaliści od reklamy. Testowane są przeróżne elementy kampanii, zaczynając od przekazów marketingowych, przechodząc przez kolory wykorzystane w kampanii, a kończ na całych layoutach stron docelowych.

Na czym polegają testy A/B

Testy A/B to metoda badawcza pozwalająca na porównanie skuteczności różnych wersji tego samego elementu. Polega ona na uruchomieniu równolegle, w takich samych lub możliwie zbliżonych warunkach, emisji reklamy której elementy chcemy optymalizować lub innych elementów, z którymi użytkownik ma styczność w ścieżce zakupowej. Takimi elementami mogą być strony docelowe, formularze kontaktowe, strony koszyka, czy listy produktów (np. do cross sellingu). Wszystkie elementy, czy to kreacji reklamowej czy strony, które nie podlegają testowi powinny wyglądać identycznie.

Dla czego warto poświęcać czas i środki na testowanie

Teoretyczna wiedza specjalistów od marketingu, UX, czy psychologii sprzedaży to jedno. Może ona stanowić świetny punkt wyjścia dla projektu całego przekazu marketingowego. Dzięki zastosowaniu zasad ogólnie przyjętych za skuteczne możemy znacznie ograniczyć koszty całej kampanii, poprawić jej efektywność już na początku, a także zmniejszyć ilość iteracji testów, czyli ilość serii jaka będzie potrzebna do osiągnięcia zakładanego celu.

Jednak bazując jedynie na wiedzy teoretycznej nie osiągniemy maksimum możliwości naszych kampanii. Część rzeczy nie jest możliwa do założenia odgórnie. Świetnym przykładem są kolory przycisków w kampaniach display. W większości przypadków można przyjąć że kolory żywe, zwłaszcza przyciągający uwagę czerwony będą skuteczniejsze od szarości i kolorów zlewających się z tłem. Wiemy też, że przyciski lepiej umieszczać na dole wertykalnych (pionowych) kreacji i z prawej strony horyzontalnych. Nie jesteśmy natomiast w stanie określić, czy kolor żółty będzie skuteczniejszy od pomarańczowego. Może się okazać, że jeden z kolorów działa lepiej w określonej grupie docelowej. Ludzie młodzi mogą lepiej reagować na inne czynniki niż osoby starsze, kobiety na inne czynniki, niż mężczyźni, i tak dalej.
Przykład z kolorem przycisku może wydawać się błahy, w końcu stosunkowo mały przycisk z wezwaniem do działania wydaje się tylko dodatkiem do kreacji, ale w praktyce dobrze dobrane CTA potrafi podnieść skuteczność reklamy nawet o kilkanaście procent.

Tak więc odpowiadając na pytanie „Po co przeprowadzać testy A/B?” Przede wszystkim są to oszczędności czasu, pieniędzy i nerwów. Testy porównawcze przeprowadza się na pewnej próbce odbiorców (o czym opowiemy w kolejnych akapitach), dzięki temu emisję mało skutecznych rozwiązań wyłapujemy zaraz po zakończeniu emisji testowej i ograniczamy koszty nie efektywnych działań do minimum. Patrząc na to z perspektywy całej kampanii, na tak zwanym dużym obrazku zwiększamy zwrot z inwestycji, a na koniec dnia to jest najważniejsze.

Jakich zasad powinniśmy przestrzegać

Aby uruchomić testy A/B nie trzeba budować specjalnego laboratorium, natomiast aby dało się z tych testów wyciągnąć konstruktywne wnioski powinniśmy się trzymać kilku prostych reguł:

Po pierwsze: testowanie jednej zmiennej w jednym teście

W jednym teście optymalizacji powinien podlegać jeden i tylko jeden parametr. Celowo nie użyłem słowa element. Żeby wytłumaczyć dla czego, wrócę do przykładu z przyciskiem na kreacji. Jeśli do testów przyjmiemy kreację reklamową, na której został umieszczony czerwony przycisk, o wymiarach 50×100, z CTA o treści sprawdź, a następnie utworzymy jej kopię i zamienimy przycisk na niebieski, o wymiarach 70×120, i napisem wejdź to czego dowiemy się z tego testu? Otrzymamy informacje, że przycisk z kreacji A jest lepszy od przycisku z kreacji B o 30%, lub odwrotnie. Z jednej strony, jest to jakaś informacja, jeśli kończymy testy na tym etapie to wiemy, który przycisk będzie lepszy, ale jeśli chcemy wyciągnąć wnioski i kontynuować testy lub przygotować rekomendację do przyszłych kreacji, nie wiemy czy wzrost efektywności jest wynikiem zmiany koloru, rozmiaru, czy treści. Może pozostawiając czerwony kolor i wprowadzając pozostałe zmiany uzyskalibyśmy jeszcze lepszy efekt.

Test z powyższego przykłady powinien zostać podzielony na trzy etapy:

Etap 1: test koloru
Etap 2: test wielkości (wszystkie wersje w teście powinny zostać uruchomiane z najskuteczniejszym kolorem z etapu 1)
Etap 3: test tekstu (uruchomiony w oparciu o najskuteczniejsze parametry z poprzednich kroków)

Po drugie: Testowanie na odpowiednio dużej próbie, w odpowiednim czasie

Ten punkt w kontekście badań w ogóle nie jest odkrywczy, natomiast stanowi bardzo ważną zasadę, której złamanie może prowadzić do przekłamanych wyników. Na ogół możemy przyjąć zasadę, że im większa próba badawcza (w naszym przypadku ilość użytkowników, która miała styczność z określoną wersją) tym dokładniejsze i bardziej reprezentatywne wyniki. Musimy jednak pamiętać, że zadaniem testów jest optymalizacja kampanii, a na pewno nie zoptymalizujemy jej, jeśli cały zasięg zostanie przeznaczony na testy.
Powinniśmy zatem do testu przeznaczyć najmniejszą możliwą grupę, uważając jednocześnie, żeby ta nie była za mała. Znalezienie złotego środka zazwyczaj niestety wymaga doświadczenia w określonym rodzaju testów. Znacznie większej grupy będziemy potrzebować do porównania skuteczności reklamy display, chociażby ze względu na ślepotę banerową i powszechnie stosowane adblocki, przez które część odbiorców nie zobaczy naszej reklamy, a część świadomie lub nie ją zignoruje. Natomiast znacznie mniej akcji będziemy potrzebować do określenia, która wersja koszyka w sklepie jest skuteczniejsza.

Dla czego grupa nie może być zbyt mała? Im mniejsza grupa tym łatwiej o przekłamanie w wynikach. Jeśli wyemitujemy każdą z wersji reklamy do losowo dobranych 10 osób (oczywiście to mocno przerysowany przykład) możemy mieć szczęście w jednej z grup i trafić na 5 osób zainteresowanych reklamowaną branżą. Prawdopodobieństwo wykonania przez nich oczekiwanej akcji (kliknięcia, lub zakupu) jest znacznie większe. Jeśli optymalizujemy wartość konwersji. Jedna duża transakcja może znacząco wpłynąć na wyniki. W większej grupie, wymieszanie odbiorów z różnych środowisk jest większe i szanse na takie ekstremalne przypadki znacznie spadają.

Po trzecie: Oddzielanie segmentów użytkowników (jeśli mamy taką możliwość)

Zacznijmy od samego pojęcia segmentacji użytkowników na potrzeby testów. Jest to podział wszystkich użytkowników dostępnych w danej grupie docelowej na losowo podzielone podgrupy, często opisywane numerycznie od 1 do 100. Pozwala to na wyizolowanie użytkowników w taki sposób, aby do jednego z nich nie trafiła reklama z dwóch grup.
Dla czego to takie ważne? Bo mieszanie może zaburzyć wyniki testu. Użytkownik spotykający się z danym przekazem reklamowym pierwszy raz, może zwrócić na niego uwagę z czystej ciekawości. Kiedy badamy wskaźniki związane z klikalnością w reklamę, pierwsza odsłona np. z powodu wspomnianej ciekawości, może być klikana chętniej. Natomiast jeśli badamy konwersję, użytkownik, który kliknął w reklamę drugi raz, prawdopodobnie jest bardziej zainteresowany ofertą i (o ile nie dokonał już zakupu) jego szansa na skonwertowanie jest większa.
To samo dotyczy mailingów. Jeśli otrzymamy drugi raz wiadomość z tym samym tematem, szansa na jej otwarcie spada.
Wyizolowanie grup pozwala na ograniczenie wyżej wymienionych negatywnych efektów.

Po czwarte: Określenie celu testów

Test ma pomóc w osiąganiu lepszych wyników w kampanii. Żeby to było możliwe musimy przyjąć jakiś cel, wynik jaki kampania ma osiągnąć. Nie chodzi w tym momencie o deklarowania konkretnych wartości o ile procent dany wskaźnik musi wzrosnąć, ale o to jaki wskaźnik ma ulec poprawie. Optymalizacja kilku wskaźników jest możliwa, ale nie zawsze wszystkie z nich da się optymalizować jednocześnie.

Świetnym przykładem są kampanie email marketingowe. W przypadku tego rodzaju kampanii mamy do czynienia z takimi wskaźnikami jak:

Open rate – jest to % wiadomości jaki został otworzony
CTR, a w zasadzie dCTR – czyli % wiadomości jakie przełożyły się na kliknięcie i przejście na stronę docelową
CR – % wiadomości które przełożyły się na dokonanie na stronie docelowej konwersji

Dla czego nie możemy optymalizować wszystkich współczynników jednocześnie? bo wpływają na nie zupełnie inne elementy. Zacznijmy od pierwszego z góry open rate. Określa on współczynnik otwarć wiadomości, więc wpływają na niego elementy takie jak nazwa nadawcy i temat wiadomości. Z założenia, bardziej angażujący będzie temat tajemniczy, temat zdradzający promocję lub obietnicę, temat skierowany do szerokiego grona odbiorców, a szerokie grono ma to do siebie, że nie wszyscy w tym gronie będą zainteresowani ofertą i szansa na dokonanie przez nich konwersji będzie mniejsza. Jeśli chcemy optymalizować temat wiadomości pod CR powinien on być możliwie precyzyjny. Powinien rzucić się w oczy i przemówić do wąskiej grupy docelowej, która będzie mniej liczna, ale bardziej skłonna do zakupów, czy zostawienia swoich danych w formularzu.

Po piąte: Wykluczenie lub ograniczenie czynników zewnętrznych mogących zaburzyć wyniki testu

Jednym z takich czynników są nachodzące na siebie segmenty, ale to zostało już poruszone. Idąc dalej, co jeszcze może być takim czynnikiem?
Np.:

Różne źródła ruchu – użytkownicy pochodzący z różnych źródeł mogą cechować się zupełnie innym poziomem konwersyjności. Jest to spowodowane kontekstem w jakim pojawiają się reklamy, z jednej strony mamy kampanie emitowane szeroko lub z targetowaniem, które określa grupy celowe zawierające użytkowników, prawdopodobnie zainteresowanych danym tematem. Z drugiej strony mamy kampanie z których wiemy, że użytkownicy są zainteresowani tematem, bo świadczy o tym sama obecność na danej stronie (np. w przypadku ruchu z linków afiliacyjnych, które zazwyczaj pojawiają się na blogach tematycznych) lub świadczy o tym deklaracja samego użytkownika (np. poprzez wpisanie odpowiedniego słowa kluczowego w wyszukiwarce, w przypadku ruchu z reklam gogle w sieci wyszukiwań).
Różne tergetowanie – targetowanie reklam to określenie warunków w jakich dana reklama zostanie wyemitowana. Różne warunki emisji mogą przełożyć się bezpośrednio na wyniki. W większości przypadków jest to oczywiste, reklama kierowana do grupy odbiorców zainteresowanych daną tematyką na znacznie większe szanse na pozytywny odbiór, ale są też kategorie targetowań, które nie powinny mieć tak dużego wpływu jak na przykład lokalizacja, ale praktyka pokazuje, że nie jednokrotnie ten wpływ jest.
Przykładami targetowania mogą być między innymi:
- Kategorie urządzeń (mobile/desktop)
- Lokalizacja
- Czas, godziny i/lub dni tygodnia
- Dane demograficzne użytkownika (wiek, płeć)
- Dane behawioralne (zainteresowania)
I to o czym też już mówiliśmy, czyli testowanie więcej niż jednego czynnika

Kiedy warto dopuścić czynniki zewnętrzne?

Z jednej strony, dla zachowania wysokiej jakości danych, można przyjąć że nie powinno się tego robić nigdy, jednak czasami zdarzają się sytuacje w których zmiany warunków testu, względem warunków w których będzie działało finalne i dopracowane rozwiązanie ma sens. Oczywiście zmiany powinny być dopuszczane w równym stopniu w każdej z wersji testowych.

Kiedy to ma sens? Jednym z przykładów może być test opisu strony. Dla ścisłości, chodzi o opis meta desctiption, widoczny w wynikach wyszukiwań. W przypadku strony, która zajmuje aktualnie odległą pozycję w wynikach wyszukiwań lub zajmuje wysoką pozycję, ale na frazy o małym ruchu, przeprowadzenie testów jest praktycznie nie możliwe. Pomijam fakt, że do takiego testu, wymagane byłoby utworzenie dwóch wersji strony, co powoduje duplikację i może narobić więcej szkód niż pożytku. Test nie jest możliwy z uwagi na zbyt małą próbę badawczą. W takim wypadku dobrym pomysłem może być przeniesienie testu tego elementu do kampanii Google Ads. Wyniki płatne są do złudzenia podobne, możemy dodać wiele wersji tego samego elementu i przetestować go na odpowiednio wysokiej próbie użytkowników. Oczywiście wyniki mogą zostać lekko przekłamane bo zmienimy warunki, włącznie z powierzchnią testu, ale zmiany będą proporcjonalne w każdej z wersji, więc jeden element, który będzie badaną zmianę możemy bez problemu porównywać.

Po szóste: Testowanie od ogółu do szczegółu

Duże elementy mają zazwyczaj większy wpływ na efekty niż te małe. Zmiana koloru tła z jasnego na ciemne (w przypadku emisji reklamy na stronach z białym tłem) może podnieść wyniki znacznie bardziej niż zmiana koloru przycisku. Zawsze najpierw testowane powinny być elementy „globalne”, wpływające na całą kreację, czy stronę (ułożenie elementów, kolory przewodnie np. tła), a dopiero później elementy szczegółowe.

Testy wielowariantowe – przeciwieństwo, czy uzupełnienie testów A/B

Testy wielowymiarowe są bardzo zbliżone do testów A/B, z tym że łamią jedną z ich podstawowych zasad, testują więcej niż jeden czynnik w jednym teście. W typowym teście A/B porównującym dwie wersje formularza, jeden z nich będzie miał trzy pola, a drugi cztery. Natomiast w teście wielowymiarowym, jeden formularz będzie miał trzy pola, duży przycisk wyślij i zdjęcie z uśmiechniętą panią obok tego przycisku, a drugi będzie miał jedno pole więcej, mniejszy przycisk i zdjęcia pana zamiast pani.

Testy wielowymiarowe pozwalają na porównanie całych zestawów parametrów. Stwarza to szereg ograniczeń, jak np. trudność w wyciąganiu uniwersalnych dla danej linii reklam wniosków, ale daje też kilka przewag. Sprawdzają się idealnie kiedy na testy nie ma zwyczajnie czasu, kiedy rozwiązanie jest potrzebne tu i teraz. Tworzy się wówczas, w oparciu o praktyki przyjęte jako skuteczne X wariantów całej kreacji, i testuje je równolegle.

Testy wielowymiarowe mogą być świetnym wsadem do późniejszych testów A/B (najlepsza wersja kreacji z testu wielowymiarowego, jest później tłem do testowania poszczególnych czynników).
Tego rodzaju testy pozwalają też na skontrolowanie, czy poszczególne zmiany sobie nie szkodzą. Najprościej to zobrazować jak zwykle na mocno przerysowanym przykładzie:
Zmiana koloru przycisku na czerwony poprawiła klikalność reklamy o 15%, zmiana koloru tła na czerwony w równoległym teście spowodowała wzrost o 20%, a wprowadzenie tych dwóch zmian jednocześnie, spowodowało, zlanie się jednego z drugim i obniżyła wyniki o 50%., bo wszystko się zlewało.

W jakich obszarach marketingu testy A/B spotykamy najczęściej

Ujmując to bardzo ogólnie, testy A/B mają szerokie zastosowanie w kampaniach efektywnościowych, czyli kampaniach nakierowanych na efekt w postaci sprzedaży lub dostarczenia określonego poziomu ruchu. Przeciwieństwem tych kampanii są kampanie wizerunkowe, których głównym zadaniem jest dotarcie do możliwie szerokiego grona odbiorców. Oczywiście kampanie wizerunkowe również mogą wykorzystywać różnego rodzaju testy, ale ich pomiary nie będą już tak proste.

Wróćmy do kampanii efektywnościowych. Możemy w nich wyróżnić kilka elementów, które najczęściej są opierane o testy porównawcze:

Struktura całego lejka sprzedażowego – dotarcie do użytkownika przy pomocy tych samych kanałów, ale zastosowanych w różnej kolejności, może przynieść zupełnie inne wyniki.
Kreacje i tytuły w mailingach – Osobiście nie znam systemu do wysyłek mailingowych, który nie dawałby możliwości uruchomienia testów A/B. Testowanie wysyłek mailingowych ma dwie duże zalety; łatwość testowania (wystarczy podać kilka tytułów) oraz hermetyczność grup na których testujemy (jeden użytkownik nie dostanie dwukrotnie reklamy, w przypadku kampanii opartych o pliki cookies wystarczy, że użyje innej przeglądarki i może wpaść do grupy z innym przekazem reklamowym)
Reklamy display – możemy porównywać miejsca i czas emisji, rozmiary reklam jak i ich zawartość
Strony docelowe (LP) – często testowane są poszczególne elementu stron, np.:
- Kolorystyka
- Umiejscowienie nie ważnych elementów (np. formularz)
- Budowa formularza (np. ilość pól wymaganych, ilość kroków)

Jakie zmienne możemy testować tą metodą, a czego nie powinniśmy

Testować możemy praktycznie wszystko co naszym zdaniem może mieć wpływ na końcowy wynik. O większości zmiennych wspominaliśmy w poprzednich akapitach.
Natomiast istnieją przypadki w których test może nam dać nie miarodajny wynik, głównie za sprawą czynników docierających do odbiorców z poza kampanii.

Najlepiej będzie to przedstawić na przykładach:

Sklep sprzedający maseczki ochronne emitował kampanie display przez 2 tygodnie w styczniu. W kwietniu, ten sam sklep emituje identyczną kampanie, aby sprawdzić sezonowość, bo podejrzewa że zapotrzebowanie na maseczki wiosną może wzrosnąć. Biorąc pod uwagę epidemię, która przy okazji wybuchła, wyniki na 99% potwierdzą założenia. Kampania kwietniowa przyniesie znacznie większy zwrot z inwestycji, natomiast, czy możemy powiedzieć, że udało się potwierdzić sezonowość i za rok warto nasilić działania właśnie w kwietniu?
Przykład owszem jest mocno przerysowany, ale pokazuje jak elementy na, które nie mamy wpływu mogą namieszać w wynikach.
To samo tyczy się podkreślenia słów „antybakteryjny” i podobnych w przypadku praktycznie każdego produktu w czasie epidemii.
Kolejny przykład będzie realizowany w tym samym czasie, aby uniknąć podobnych problemów. Znana sieć restauracji testuje dwa warianty kolorystyczne w kampanii display; żółty i zielony. Wszystkie pozostałe warunki emisji są identyczne, ale w podobnym czasie inna sieć restauracji prowadzi szeroką kampanie informującą o specjalnych promocjach i rekordowo niskich cenach, a linia kreatywna całej akcji jest prowadzona w kolorystyce zielonej. Istnieje bardzo duża szansa, że część użytkowników zwyczajnie pogubi się w markach i podświadomie powiąże kolor z promocją. W tym przypadku istnieje duża szansa, że reklamy zielone będą skuteczniejsze niż byłyby w normalnych warunkach.

Kiedy testy A/B mogą okazać się szkodliwe – jak uniknąć kłopotów z seo

Jedną z wad testów jest czasochłonność i koszty. Każdy wariant testu musi zostać przygotowany przez grafika i/lub copywritera, następnie skonfigurowany, uruchomiony i doglądany. Tego niestety nie można ominąć, ale każdy z nas zdaje sobie sprawę z tego ograniczenia.

Istnieje natomiast drugi problem, o którym nie każdy wie, ale dotyczy on wyłącznie stron internetowych, a dokładniej aspektów związanych z SEO.

Test A/B z założenia polega na powieleniu tego samego elementu i jego drobnej modyfikacji, co w przypadku stron internetowych powoduje duplikację, która jest problematyczna w uwagi na sposób w jaki przeglądarki oceniają strony internetowe. Zarówno google jak i inne przeglądarki chcą dostarczyć użytkownikom możliwie najlepszej jakości treść więc unikają jak ognia wyświetlania w wynikach dwóch stron prezentujących tą samą treść, a stronom, które jawnie powielają te same teksty przypisują ujemne punkty, nawet jeśli to powielenie dotyczy podstron tego samego serwisu.

Najprostszym rozwiązaniem tego problemu jest zablokowanie przed botami wyszukiwarek wariantów jakie testujemy. Można to zrobić prowadząc testy przy wykorzystaniu, specjalnie przeznaczonego do tego oprogramowania lub umieszczając w nagłówku strony fragmentu kodu „<meta name=”robots” content=”noindex” />„. Dzięki temu strona dla przeglądarek będzie nie widoczna.

Powiązane artykuły:

2 thoughts on “6 zasad prowadzenia testów A/B – abc testów A/B”

Łukasz pisze:
3 lutego 2021 o 15:22
W sumie wszystko można testować i to w każdej branży. Niekiedy testy wychodzą w trakcie czegoś tworzenia. m.in pisania kodu, ale np. przy sprzedaży usługi możemy testować różne sposoby rozmowy, podczas seo – testy na linkowanie, optymalizacje, skuteczność i ilość EMA w treści. Sam jednak nie zawsze wykorzystuje tworzenie szczegółowych testów, gdy znam efekt końcowy 🙂
Odpowiedz
Piotr Michalak pisze:
13 września 2021 o 22:23
Popieranie naszych hipotez testami to chyba najlepsza droga do eliminacji lub do zmian, które mogą pomóc w zwiększeniu m.in. liczby konwersji. Zawszę staram się wychodzić od założenia, a później testem A/B lub wielowymiarowym weryfikować efekty zmian. Bywa niestety, że ruchu na danej stronie jest zbyt mało lub zdarzeń, co czasami przedłuża okres testowania lub utrudnia realizację samego eksperymentu.
Odpowiedz