Top.Mail.Ru
Колонки

5 этапов успешного A/B-тестирования

Колонки
Муслим Бабаев
Муслим Бабаев

Руководитель направления продуктовой аналитики онлайн-кинотеатра KION

Елизавета Шатохина

A/B-тесты — один из самых полезных инструментов, позволяющий определить сильные и слабые стороны продукта, улучшить пользовательский опыт и даже найти новые способы привлечения аудитории. 

Как провести успешное тестирование и что вообще можно считать успехом? Как сформулировать гипотезу, какой должна быть выборка испытуемых и как сохранить объективность при анализе результатов? Своим практическим опытом делится Муслим Бабаев, руководитель направления продуктовой аналитики онлайн-кинотеатра KION. 

5 этапов успешного A/B-тестирования
  1. Колонки
Автор: Елизавета Шатохина

 

Этап 1. Постановка цели и формирование гипотезы

A/B-тесты могут начинаться как с проблем в продукте, так и с предложенных командой гипотез о том, как улучшить сервис. Часто о проблемах сообщают сами пользователи, поэтому важно регулярно читать отзывы о своем сервисе, отслеживать любую обратную связь, проводить исследования и опросы аудитории, чтобы оперативно отмечать недочеты и быстро инициировать исправления. 

Тесты, призванные решить конкретную проблему, чаще дают статистически значимый результат, чем тесты, которые направлены на улучшение сервиса в целом.

Хотя и начинать с гипотез тоже может быть очень полезно. Во многом результат в этом случае зависит от «насмотренности» продуктовой команды: чем глубже понимание пользовательского опыта, тем выше шансы «попасть» в ожидания аудитории и представить в рамках теста вариант, который улучшит качество пользовательского взаимодействия с сервисом. 

Также можно проводить тестирование с оглядкой на конкурентов, но результаты могут вас удивить. Некоторые фичи могут работать у одной компании, но совершенно не работать у другой, это довольно частое явление. Поэтому никогда нельзя делать однозначных выводов об эффективности той или иной фичи, важно проводить тестирование на своей аудитории и учитывать ее особенности. 

Кстати, многие путают цель и гипотезу A/B-теста, хотя это разные понятия. Цель — это конкретный результат, которого мы хотим достичь, например, рост определенной метрики. Гипотеза же — предположение о том, как достичь этой цели. 

 

Этап 2. Выбор метрики

При формировании гипотезы важно учитывать специфику бизнеса и аудитории, а также опираться на имеющиеся данные и опыт предыдущих тестов. Сформулированная гипотеза должна быть конкретной и измеримой, содержать в себе метрику. 

Например, гипотеза может выглядеть следующим образом: «Добавление функционала Х увеличит конверсию пользователя из корзины в оплату как минимум на 5%», где конверсия из корзины в оплату — конкретная метрика, «увеличить конверсию» — это цель, а «добавление функционала Х» — способ достижения цели. 

Важно заметить на этом примере, что в гипотезе нет ни слова о выручке или количестве совершенных заказов, хотя глобально бизнесу, конечно, интересно заработать деньги. Почему? 

У нас всегда есть понимание пользовательской воронки и дерева метрик. Мы обладаем априорным знанием, что при неизменности всего прочего рост конверсии на конкретном шаге спровоцирует рост всех следующих по дереву метрик показателей.

А в самом A/B-тесте необходимо делать акцент непосредственно на той метрике, на которую мы воздействуем изменением, то есть в данном случае — на конверсии. Так и происходит выбор метрик для анализа.


Несмотря на то, что ключевая метрика для оценки успешности A/B-теста соответствует непосредственной точке на дереве метрик, на которую влияют наши изменения, мы прекрасно понимаем, что не все всегда идет по плану. Поэтому для справки мы следим за пользовательской воронкой в целом на плюс-минус два шага от места воздействия, чтобы вовремя заметить изменения в других показателях. 

 

Этап 3. Подготовка к тесту 

Для проведения качественного A/B-теста нужны сильные команды продуктовой аналитики и разработки. Также потребуется специальная платформа для проведения эксперимента. Однако успешный тест можно провести и без нее, используя доступные инструменты и данные. 

Кроме того, нужно определиться с выборкой и сроками эксперимента. Размер выборки и, как следствие, длительность A/B-теста зависят от уровня значимости. Также на длительность тестирования влияет природа метрики, объем трафика и некоторые другие показатели. Чем больше выборка, тем более точные результаты можно получить. Однако нужно учитывать, что слишком большая выборка и слишком долгий тест могут привести к потенциальным потерям для бизнеса. 

 

Этап 4. Исключение случайностей

Очевидно, успешным результатом теста можно считать рост нужной метрики, но какое именно значение можно считать значимым? Как определить, что метрика точно выросла благодаря одному из вариантов в рамках теста, что это не совпадение? Чтобы исключить случайности, перед проведением теста команда определяет уровень значимости. Только если p-value оказалась ниже определенного уровня значимости, мы можем утверждать, что результат не случайный, то есть статистически значимый.

Статистическая значимость изменения метрик определяется с помощью специальных статистических критериев. Эти критерии выбираются в зависимости от типа метрики и самой гипотезы. Чаще всего используют t-тест и хи-квадрат. Обычно для определения статистической значимости используется уровень значимости 5%, но иногда он бывает ниже, когда данных много. Выше — редко. 

 

Этап 5. Анализ результатов

После стольких усилий по организации теста многим не терпится получить хоть какое-то полезное знание, и в таком случае команды могут захотеть проанализировать промежуточные результаты теста. Более того, некоторые принимают решение, выкатывать фичу или нет, на основании таких промежуточных результатов. Так делать нельзя. 

Важно придерживаться заранее рассчитанной длительности эксперимента. Но это не значит, что нельзя следить за ходом теста — конечно, мы должны держать руку на пульсе в процессе, ведь могут возникнуть непредвиденные обстоятельства. Например, пока мы выкатывали тест, мы могли что-то поломать в проде. Такие ситуации отслеживаются уже в первые часы после запуска теста, о них сигнализируют аномально резкие изменения метрик. Это исключительный случай, когда в тест стоит вмешаться — эксперимент стоит приостановить для исследования причин. Как правило, такие внезапные скачки связаны с техническими ошибками. 

Когда эксперимент будет закончен, придет время анализировать результаты. Часто считается, что успешный тест — это тот, который позволяет достичь поставленной цели и улучшить результаты бизнеса.

Однако тест, не дающий роста метрики, тоже может быть успешным, если он принес важное знание, экспертизу в команду. Главное, чтобы ресурсы, затраченные на проведение эксперимента, соответствовали пользе, которую команда из него извлекает. 

Бывают случаи, когда ключевая метрика (та же конверсия в оплату, например) в результате теста не меняется статистически значимо, а другая важная для нас метрика (например, средняя продолжительность просмотра контента) показывает значимые изменения. Это довольно противоречивый кейс, который вызывает множество споров, и разные команды на такие результаты реагируют по-разному. 

Конкретной инструкции для действий в такой ситуации дать нельзя, нужно учитывать все данные. Но однозначно важно проанализировать и осознать причины таких результатов. В общем случае такой тест рекомендуется считать неуспешным. Лучше перезапустить его с учетом полученных знаний, иначе сформулировав гипотезу и доработав функционал. 

Фото на обложке: DilokaStudio/Freepik

Подписывайтесь на наш Telegram-канал, чтобы быть в курсе последних новостей и событий!

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Материалы по теме

  1. 1 Big Data: какие ошибки совершают компании при анализе больших данных
  2. 2 Гадание по новостям: как предсказать и использовать медиатренды
  3. 3 Как составить требования к функционалу продукта с помощью инструмента User Story Map
  4. 4 7 советов, которые помогут вендору грамотно организовать поддержку партнеров
  5. 5 Как развивать бизнес через партнерскую сеть

ВОЗМОЖНОСТИ

15 июля 2024

15 июля 2024