Иллюстрированное руководство для веб-экспериментаторов

Томас Хьюгенхевен — кандидат наук, сотрудник Копенгагенской школы бизнеса, директор по стратегии Chrisper Economy. Его исследования посвящены техническим вопросам SEO, интернет-маркетингу и многим другим сферам интернет-рекламы.

Эксперименты — отличный способ улучшить взаимодействие с пользователями и повысить конверсию. Главное их преимущество в том, что они позволяют выделить значимые переменные и, таким образом, выяснить причинную зависимость между разными параметрами — такими, например, как теглайн и коэффициент конверсии.

Значительная часть литературы, посвященной экспериментальному дизайну, корнями уходит в статистику, и из-за сложности для восприятия может быть даже пугающей. Чтобы сделать этот предмет более простым и доступным, я представляю свое иллюстрированное руководство для веб-экспериментаторов (составить его мне помог мой брат, Андреас Хёгенхавен, который сделал картинки).

Прежде чем начинать экспериментировать, вам необходимо усвоить основные правила:

тестируйте те параметры, которые согласуются с вашими долговременными целями в бизнесе;
тестируйте крупные изменения, а не мелкие.

И помните, что победителем этой проверки станет не оптимальный параметр, но всего лишь лучший из протестированных. Это не значит, что вы нашли самый выигрышный вариант. Следующая проверка вполне может дать лучшие результаты.

A/B или MVT
Одна из первых вещей, на которые следует обратить внимание — экспериментальный дизайн. При проверке двух факторов обычно рекомендуется использовать тест формата А/В, а при тестировании нескольких независимых факторов применяется многомерный тест. Однако следует помнить, что и больше двух факторов можно проверить с помощью теста А/В/n или с помощью нескольких последовательных тестов А/В. Недостаток использования теста А/В для нескольких факторов состоит в том, что этот тест не учитывает эффекты взаимодействия.

Многомерный тест: полнофакторный или дробный
Итак, вы выбрали многомерный тест… Минутку, но бывают разные многомерные тесты. Если вы когда-нибудь бывали на Which MVT, вам, наверно, встречались такие термины как полнофакторный, дробный и модифицированный тагути. Прежде чем вдаваться в объяснения этих слов, давайте рассмотрим пример нашего многомерного теста. В этом примере у нас 3 разных фактора, и у каждого фактора есть по два условия.

В данном случае 3 фактора, каждый с 2 условиями, дают нам 2³=8 групп. В полнофакторном варианте тестируются все возможные комбинации. Получается 8 вариаций, пользователи делятся между ними. В следующей таблице +1 означает условие 1, а -1 означает условие 2.

$full-fractional-versus-fractional-factorial$
Такой вариант дизайна неплох, если у нас 3 фактора и по 2 условия. Но если нам нужно протестировать 4 фактора, каждый из которых содержит по 4 условия, получится 4⁴=256 групп. А если мы хотим проверить 10 разных факторов, по 2 условия в каждом, это будет 2¹⁰=1024 групп. Потребуется множество участников, чтобы выявить сколько-нибудь значительное влияние факторов. Это, конечно, не проблема, если вы Google или Twitter, но если вы продаете сосиски в одном из районов Сиэтла, то такой вариант может вызвать затруднения. Вычислить продолжительность теста можно с помощью Google Калькулятора и калькулятора VisualWebsiteOptimizers. Эти вычисления, однако, основаны на очень неточной информации, так как изменения в коэффициенте конверсии неизвестны — ведь это как раз и есть предмет тестирования.

Рассмотрим дробное тестирование. Метод дробного тестирования был популяризован Гэнъити Тагути, его иногда называют методом Тагути. В этом варианте тестирования в эксперимент включается только часть общего числа комбинаций. Вместо того, чтобы проверять все возможные комбинации, дробное тестирование позволяет проанализировать лишь часть из них, достаточную для вычисления коэффициента конверсии всех комбинаций.

В данном примере достаточно будет проверить 4 разных комбинации и использовать взаимодействие между выбранными факторами, чтобы посчитать те сочетания фактором, которые не были включены в эксперимент. 4 выбранные группы: ABC; A + (BC); B + (CA); C + (BA).

Вместо того, чтобы три раза тестировать фактор А, мы делаем это лишь один раз, оставляя при этом В и С постоянными. Точно так же, фактор В тестируется один раз с постоянными А и С, а фактор С тестируется один раз с постоянными А и В. Не стану слишком далеко углубляться в статистику, так как все математические расчеты делает за нас программа.

Дробный тест предполагает, что факторы независимы друг от друга. Если существует взаимодействие между факторами (например, между картинкой и заголовком), это повлияет на достоверность результата теста. Одна из особенностей дробного теста в том, что один фактор (например, А) может смешаться с взаимодействием между двумя другими факторами (например, ВС). Это значит, существует риск, что мы не будем знать, вызвано ли изменение фактором А или взаимодействием ВС. Таким образом, если у вас достаточно времени и посетителей, полнофакторный тест часто более эффективен, чем дробный.

Проверка условий тестирования с помощью теста А/А
Большинство маркетологов знакомы с тестами А/В. Менее известен тест А/А. Этот вариант теста позволяет проверить условия тестирования, и его стоит провести перед началом А/В или многомерного теста. Тест А/А показывает, правильно ли распределены пользователи и нет ли погрешностей в условиях проведения тестирования.

В тесте А/А пользователи распределяются так же как для теста А/В или для многомерного теста, но все группы видят одинаковые изменения. Результаты теста должны быть незначимыми, поэтому мы не делаем различий между группами. Если результат значимый, это значит, что в его условиях что-то не так, и результаты последующих тестов будет ошибочны. Но, как уже было сказано, иногда тест А/А бывает значимым из-за случайных ошибок/погрешностей.

Тест А/А также хорошо подходит для того, чтобы показывать сотрудникам, начальству и клиентам то, как колеблются данные, и то, что они не должны слишком обольщаться, когда видят рост коэффициента с достоверностью в 80%. Особенно на ранних стадиях экспериментов.

Статистическая значимость
В идеальном эксперименте все показатели остаются постоянными, кроме независимой переменной (это то, что мы хотим исследовать, например, теглайн, призыв к действию, изображения). Но в реальности многие показатели не являются постоянными. Например, при проведении теста А/В пользователи разделяются на две группы. Так как все люди разные, обе группы никогда не будут состоять из одинаковых людей. Это не проблема, если другие показатели располагаются в случайном порядке. Однако это вносит некоторую погрешность в данные. Вот почему мы используем статистические тесты.

Мы считаем результат статистически значимым в том случае, если существует лишь небольшая вероятность того, что различие между группами вызвано случайной ошибкой. Другими словами, цель статистических тестов состоит в проверке вероятности того, что два образца результатов были получены в одинаковых условиях, что между группами нет «настоящих» различий, и что все изменения вызваны погрешностями.

В большинстве экспериментов и экспериментальных программ достоверность в 95% используется как порог значимости, хотя это число может меняться. Если разница между двумя средними значениями групп является значимой при 98% вероятности, мы принимаем такой результат как значимый, даже несмотря на то, что существует 2% вероятности, что разница в результатах вызвана случайностью. Таким образом, статистические тесты показывают, насколько мы можем быть уверены в том, что разница в результатах не вызвана случайной ошибкой/погрешностью. В Google Website Optimizer эта вероятность называется chance to beat original (шанс превзойти оригинал).

Полезный совет: повышайте трафик к экспериментальным условиям постепенно
Последний совет: медленно повышать процент трафика к экспериментальным условиям. Если вы начали с 50% посетителей к контрольному условию и 50% к экспериментальному условию, у вас могут возникнуть затруднения, если что-нибудь в условиях будет нарушено. Лучше начать с 5% пользователей к экспериментальному условию (условиям). Если все хорошо, повысить до 10%, потом до 25% и, наконец, до 50%. Таким образом вы сможете выявить критические ошибки раньше, чем это сделает большинство пользователей.

P.S. Если вы хотите узнать больше или поделиться своими знаниями про эксперименты и инструменты оптимизации коэффициента конверсии, вас, возможно, заинтересует эта группа на Facebook.

#перевод

Полный автопилот с указанием домена и бюджета или тонкая ручная настройка:

101

Перевод

2 968

10 апреля 2012

Иллюстрированное руководство для веб-экспериментаторов

Аккаунтинг клиентов в условиях роста стоимости лидов

Кейс-стади. Успешные кампании по привлечению клиентов через Яндекс Директ.

Инструменты эффективного маркетолога. Разбор кейсов

Альтернативный вид трафика. Анализ конкурентов и своего места в рынке.

Для селлеров и владельцев сайтов:

Бесплатные инструменты