100%

ЗА и ПРОТИВ A/B-тестов: опыт крупных компаний

Один из самых популярных инструментов продакт-менеджера — A/B-тесты, и именно этой теме был посвящён очередной вебинар в OTUS. В нём приняли участие сразу три специалиста:

Сергей Колосков — Product Manager в OZON.
Александр Поваров — Product Manager в TransferWise.
Андрей Менде — Product Owner в Booking.com.

Дискуссия получилась содержательной и жаркой.

Обсудили:

в каких случаях лучше всего применять A/B-тесты?
как определять метрики и правильно интерпретировать результаты?
как можно навредить A/B-тестами?
какие могут быть альтернативы А/В-тестов?
чем лучше проводить тестирование?
кейсы финтеха, e-commerce и маркетплейсов.

Что интересно — действительно сошлись во мнениях по поводу границ применения А/В-тестов. Но давайте обо всём по порядку.

Что такое A/B тесты?

A/B-тестирование — известный метод маркетингового исследования. Если говорить о нём простыми словами, то мы делим аудиторию на сайте на какие-то равные или неравные когорты и выполняем на сайте одно изменение/улучшение, в результате чего выясняем, какая из страниц более эффективно решает задачи бизнеса и продукта в целом. Проверяем в рамках одного теста не более одной гипотезы (максимум — двух).

Реальный пример A/B-теста на OZON:

В этом примере мы выкатили кнопку покупки в один клик для некоторых категорий товаров. По ходу эксперимента просматривали метрики и воронки, проверяя гипотезу о том, будет ли лучше пользователям использовать сценарий в один клик, не «проваливаясь» в «Корзину», т. е. не делая лишних телодвижений. Категории товаров были выбраны неслучайно — речь шла о продукции, которая по статистике чаще всего покупается именно одним товаром.

Как правило, в процессе A/B-тестирования мы смотрим метрики, среди которых:

конверсии (доля совершивших ключевые действия);
финансовые показатели (рост GMV, выручки, среднего чека);
поведенческие метрики (клики, переходы).

Вот реальный дашбоард в OZON для наглядности:

Обратите внимание, что есть возможность настройки сегментов, что также важно для A/B-тестирования, ведь мы можем увидеть, на какую аудиторию влияет конкретное улучшение. Допустим, это могут быть пользователи из Москвы в возрасте от 35 до 50 лет со средним чеком более 2500 рублей и ребёнком в семье.

Использование A/B-тестов в Booking.com (Андрей Менде)

По мнению Андрея Менде, внутри Booking.com существует твёрдая уверенность в том, что своего успеха компания достигла за счёт тестирования. Сюда относятся и A/B-тесты, без которых сейчас в Booking.com не делается почти ничего. Количество одновременно доступных версий сайта Booking.com очень велико, а A/B-тесты здесь проводятся разные, причём тестируется практически всё, что касается продукта, и любые изменения вносятся лишь после A/B-тестов. К слову, такой подход помог избежать очень многих глупостей.

Но есть и другая сторона медали: долгосрочная статистика Booking.com говорит о том, что 90 % гипотез проваливаются по результатам теста. И это на самом деле хорошо, так как позволяет быть уверенным в оставшихся 10 %. Однако не стоит пробовать все гипотезы подряд, играя в своеобразную лотерею, т. к. вы тратите на разработку и проверку любой гипотезы и время, и деньги.

Разберем любопытный кейс: допустим, на сайте есть поиск списком и поиск по картам. Согласно статистике, у пользователей, которые ищут по карте, конверсия выше. Это заметил «умный» продакт, чем не преминул воспользоваться. Он начал отправлять посетителей на карты самыми разными способами, иногда даже коварными. Например, пользователи приходят с поиска — оказываются на карте, что-нибудь сравнивают, — опять же, услужливо высвечивается кнопка «Показать на карте» и т. п. На нововведение было потрачено много времени, но результат оказался нулевой. И если пользователь не приходил на карты по своей инициативе, ничего не работало. Очень часто становится хуже, никогда не становится лучше. А всё потому, что перед нами прекрасный пример Selection bias (смещённой выборки):

Тут можно вспомнить известную историю про самолёты, одни из которых вернулись на базу, а другие нет. Пробоины на их корпусе изучались, чтобы понять, где нужно больше брони. Речь идёт о так называемой систематической ошибке отбора, когда по одной группе («выжившим») есть много данных, а по другой («погибшим») данных практически нет, в результате чего исследователи пытаются искать общие черты среди «выживших» и упускают из вида, что не менее важная информация скрывается среди «погибших».

Схожая ситуация и у нас: мы изучали людей, которые дошли до этапа бронирования на Booking.com через карты, но не изучали людей, которые не дошли до этого этапа. В результате были сделаны ложные выводы.

Идём дальше. Чем же супер полезна культура, в которой A/B-тесты играют важную роль:

Плюсы A/B-тестов очевидны:

Во-первых, тестируется очень много всего и есть соответствующая база знаний. Если вам приходит «гениальная» идея, вы можете за 15 секунд узнать, что ваша гениальная идея, оказывается, уже приходила в голову одному из продактов года два назад, причём он её успел проверить, и она провалилась с треском. Как тут не вспомнить классиков:

«Слушайте, что я накропал вчера ночью при колеблющемся свете электрической лампы: «Я помню чудное мгновенье, передо мной явилась ты, как мимолетное виденье, как гений чистой красоты». Правда, хорошо? Талантливо? И только на рассвете, когда дописаны были последние строки, я вспомнил, что этот стих уже написал А. Пушкин. Такой удар со стороны классика! А?»

Цитата Остапа Бендера из романа «Золотой телёнок», И. Ильф, Е. Петров

Во-вторых, в такой культуре комфортно работать, т. к. почти нет соревнования мнений. Решения по продукту, что называется, выкристаллизовываются, в том числе и путём тестирования. И не важно, кто ты, сеньор или джуниор — пока у тебя нет хорошего теста, никакое изменение ты никуда не выкатишь.
В-третьих, сейчас очень популярно машинное обучение и умные машинные алгоритмы. А Machine learning и A/B-тесты — это просто гремучая смесь, которая будет определять развитие продукта в самом ближайшем будущем.

Иной взгляд на A/B-тесты от стартапов (Александр Поваров)

По мнению Александра Поварова, успех Booking.com — это, конечно, похвально. Но если мы говорим о качественных тестах, они потребуют большого количества данных. У Booking.com — огромная аудитория и возможность экспериментировать со многими вещами одновременно. Если же мы говорим про какой-нибудь средний проект, то очень часто в таких проектах данных и трафика недостаточно. Если же трафика выше крыши, то и это не панацея, ведь пользователь может приходить к вам на сайт для решения разных юз-кейсов, что связано со спецификой продукта. Если это интернет-банк, то кто-то приходит заплатить за телефон, а кто-то посмотреть выписку. И так далее. Кроме того, зачастую вы тестируете одним A/B-тестом всего лишь одно действие пользователя.

Если сделать краткий вывод, то у A/B-тестирования есть следующие ограничения:

требуют большого количества данных;
подходят только для однородных юз-кейсов;
направлены на один шаг (клик).

Следующий момент — A/B-тестирование не даёт кратного роста:

прирост конверсии 1 пп (например, 1 % → 2 %);
даже за 30 итераций не вырасти 1 % → 31 %;
вероятно, ухудшатся соседние воронки;
конверсия улучшится, но на одном шаге.

Если речь идёт про сложный продукт, то играя с A/B-тестами, вы вполне вероятно зацепите соседние воронки, и конверсия на них может упасть. Самый банальный пример — когда на промо-странице большого сервиса продаётся сразу несколько фичей. Подсвечивая одну, обязательно просядет конверсия в другие. Но даже если всё пройдёт отлично, у вас начнётся история взаимодействия с пользователем, который ежедневно пользуется вашим продуктом и на это всё конверсия, которую вы как-то улучшили, вообще никак не влияет.

Таким образом, как считает Александр Поваров, ресурс продакт-менеджеров лучше использовать, чтобы растить продукт кратно. В идеале следует искать такие точки роста продукта, которые помогут вырасти в десятки процентов.

На что можно направлять свою энергию:

улучшение пользовательского опыта;
создание дополнительной ценности;
улучшение юнит-экономики;
поиск новых продуктов/бизнес-моделей.

Можно с уверенностью сказать, что продуктовая фича в разы лучше оптимизации лендинга. Например, в Яндекс.Деньги запустили цветные пластиковые карты, причём очень классные и с одним прозрачным слоем. Их просто выкатили, а люди отреагировали высоким спросом, т. к. банально захотели себе такие карты. И никакого A/B-теста не надо. То есть воронка выпуска подросла и находится теперь на значительно более высоком уровне, причём сам продукт как финансовый сервис вообще не поменялся!

Да, не каждая продуктовая фича даст прирост в десятки процентов. С другой стороны, никакое улучшение в рамках A/B тестирования не даст кратного роста.

И ещё один момент: новая аудитория даст больше, чем улучшение конверсии. Для наилучшего понимания этого момента давайте приведём пример реального кейса для компании TransferWise:

На картинке выше мы видим форму оплаты, к которой у опытного продакт-менеджера могут возникнуть вопросы. И, скорее всего, он будет прав, ведь с помощью A/B-тестов, можно в течение нескольких итераций сделать эту форму более приятной и даже повысить конверсию, скажем, спустя полгода.

Однако в компании TransferWise пошли по пути поиска точек роста продукта. Ниже представлен график, где зафиксирован показатель MNU — число присоединившихся новых пользователей:

В чём причина роста? Дело в том, что компания занимается денежными переводами, а для одной из стран поддержка оплаты картами отсутствовала, но трафик оттуда наблюдался. Добавив возможность поддержки карт для этой страны, получили больше инсайтов и повысили активную пользовательскую базу. А наша далеко не оптимальная форма оплаты так и осталось неоптимальной. Да и вообще, мы бы никогда не добились такого роста, затратив полгода времени на оптимизацию формы оплаты.

Это ещё раз говорит о том, что не менее важно концентрироваться на сущностном росте продукта, то есть на вещах, которые меняют ваш продукт, принося новых пользователей.

Так нужны A/B-тесты или нет?

После того, как преподаватели выступили, настало время оживлённой дискуссии, которую лучше смотреть вживую. Мы же сразу подведём её итог.

Особенности и границы применения А/В-тестов:

большая аудитория (DAU, MAU);
не более одной (максимум двух) гипотез в проверке;
продуктовый успех в 10 % тестов на уровне роста одного процентного пункта и отсутствие результата в 90 % тестов;
ограниченность влияния на бизнес-метрики этих самых гипотез;
неприменимость для В2В-продуктов и ограниченная применимость для финтех-продуктов (где каждый клик на счету).

При этом, безусловно, сплит-тестирование — это самый прозрачный ответ на любой вопрос и возможность не прибегать к интуиции и не думать за пользователя. Кроме того, А/В-тесты — это и хороший друг, на базе которого можно получать инсайты для имеющихся продуктов. А ещё, благодаря A/B-тесту улучшаются продуктовые метрики и NPS, поэтому тесты рекомендуется использовать всегда, если это недорого, и если мы ищем точки роста на существующих продуктах. Но всё же A/B-тесты — это скорее про выжимание максимума из текущей бизнес-модели и продукта.

А где же искать рост продукта и бизнеса (Сергей Колосков)?

Он в CustDev’е, анализе конкурентов (посредством того же Similar Web), аналитике своего продукта (при анализе ключевых воронок и сопутствующих метрик, где ищутся и находятся инсайты), аналитике рынка и проектировании пользовательских сценариев (CJM, где видно, что радует, а что огорчает пользователя).

К примеру, одно из элегантных решений, принятых когда-то в OZON после анализа конкурентов и проведения сессий интервью и проектирования пользовательских сценариев, — Trade-in на технику. Идея не нова, но дает новые точки роста бизнеса. И в самом деле, что делать, если ваша девушка захотела новый айфон, тогда как предыдущая версия, купленная, кстати, тоже за ваши кровные, ещё не покрылась пылью? Выход прост — получить существенную скидку на новый айфон, отдав взамен старый. Для этого даже из дома выходить не потребуется:

Именно продукты, дающие рост бизнесу, становятся базой труда продакт-менеджера. Именно работа, которая приносит деньги компании, должна быть у продакта первым приоритетом. Про это нужно помнить всегда.

Пожалуй, на этой позитивной ноте и закончим. Если тема интересна, смотрите видео полностью. Заодно, увидите дополнительные кейсы и прочие подробности.

habr.com › /ru/companies/otus/articl...81936