This is Data
4.47K subscribers
95 photos
117 links
Подписывайся на секреты аналитики от This is Data!

- Дайджесты с обзором лучших аналитических статей ENG и RU сегментов сети;
- Разбор фреймворков по работе с метриками;
- Статистические аномалии и многое другое.
Download Telegram
Свежие статьи уже в ленте!

Есть проверенный метод: чтобы досконально изучить предмет, начни учить этому других. Так случилось и у Тани Мисютиной. Когда она начинала вести курсы по визуализации данных, то стала анализировать свои и чужие работы, чтобы проложить путь к предсказуемо качественному результату. Так родился рецепт создания визуализаций – Алгоритм Δλ. Для тех, кто хотел бы глубже погрузиться в суть метода, Рома Бунин сохранил ссылки на вебинары и примеры построения визуализаций по данному алгоритму.

Автор блога на Medium (VPN) опросил тысячу дата команд и выявил три инсайта. Во-первых, хранилище данных перестало служить только для аналитики и создания отчетов. Теперь на него возлагают ответственность за решение критически важных для бизнеса задач, таких как AI/ML, автоматизированного маркетинга и отчетности. Во-вторых, дата команды и их стеки становятся больше. С возрастанием датасетов и ориентацией на data-driven подход возрастает и размер дата команды. В-третьих, универсального подхода к тестированию разросшихся данных нет. Дата специалист, проводящий тестирование, должен хорошо разбираться в доменной области. В конце статьи автор делает интересный прогноз: хранилище данных имеет все шансы стать центром управления компанией. Оно выйдет за рамки аналитики и станет ядром продаж, операций, финансов и т. д.

Как подобрать длительность эксперимента и объем выборки, чтобы обеспечить заданную точность результатов при A/B-тестировании? Такую задачу еще можно сформулировать как расчет Minimum Detectable Effect (MDE) целевой метрики. Данила Леньков, создатель in-house платформы для A/B-тестирования в Авито, поделился эффективным решением. Он написал простой SQL-запрос, который поможет избежать большого количества потенциальных ошибок. В статье вы найдете сам запрос и инструкцию по его адаптации.

#дайджест
Когда тебя заменит робот?

Алгоритмы машинного обучения и искусственный интеллект развиваются семимильными шагами и уже плотно вошли в нашу повседневную жизнь. Иногда становится страшно: а что, если роботы нас совсем заменят? Что будем делать мы, люди?! Или этого никогда не произойдет и не стоит опасаться?

Автономные системы управления с искусственным зрением уже начинают заменять людей в транспортной отрасли. Беспилотные автомобили и самолеты, управляемые роботами, тестируются по всему миру. Например, не так давно «Яндекс» объявил о запуске беспилотного такси в одном из районов Москвы, хотя пока с водителем-испытателем. Цель проекта – создать технологию, которая не требует присутствия человека за рулем. Про роботов-доставщиков еды вы тоже наверняка слышали.

Если говорить об IT-шечке, то тут языковые модели умеют писать и проверять код, полностью автоматизируя многие задачи. В аналитике машины также успели занять место. Системы автоматической раскатки и анализа А/Б-тестов уже используются в больших корпорациях. Построение дашбордов становится автоматизированным: скоро можно будет создавать их с помощью простого перетаскивания элементов, а вся аналитическая работа будет происходить «под капотом». Более того, задавая вопрос системе на простом человеческом языке, можно будет получать готовый дашборд.

Дизайнеры тоже не остались в стороне от революции. Такие инструменты, как DALL-E и Midjourney, уже умеют генерировать изображения высочайшего качества для различных нужд – будь то логотип или рекламный баннер.

Да, сейчас машины работают не идеально. Но через пару лет многие профессии изменятся до неузнаваемости. Человеку останется обслуживающая функция языковых моделей и их обучение. Однако всегда будет необходимость в инфраструктуре для всего этого, а также в разработке высокоуровневых шаблонов и правил работы для умных алгоритмов.

И что точно останется неизменным, так это уникальность человеческого мышления. Робот никогда не сможет заменить пытливость человека, его стремление сделать жизнь вокруг себя лучше. Только человек способен работать вне рамок заранее описанных правил, демонстрируя изобретательность и креативность. Человеческое мышление уникально: мы умеем пробовать, тестировать, ошибаться и все равно находить лучший вариант. Падать, подниматься и идти дальше – это то, что делает нас людьми.

Машины могут выполнять многие задачи, но они никогда не заменят человеческий дух и стремление к совершенству.

P.S. Но это не точно 🤖

#мысли
Неожиданно наступил понедельник и лето!

Бизнес не может и не должен уделять внимание всем метрикам одновременно. Как говорил Стив Джобс: Focus is about saying no. Тогда как приоритизировать показатели? На разных стадиях жизненного цикла продукта важны разные метрики (VPN). Ведь их задача – ответ на насущные проблемы. Например, на этапе внедрения бизнес должен знать, отвечает ли продукт требованиям рынка. Поэтому на первый план выходят метрики Retention, Active Users и Stickiness. А на этапе спада важно удержать интерес пользователей и отдалить момент их ухода. Здесь мы фокусируемся на анализе оттока клиентов.

В GA4 туго с визуализацией данных, поэтому удобнее создавать дашборды другими способами. Например, в Looker Studio. В блоге Analytics Mania опубликован туториал по созданию отчетов по данным из GA4. Особенно полезны последние разделы об ограничениях инструмента и советах по его использованию. Обратите внимание, что Looker, Looker Studio и Looker Studio Pro – не одно и то же! Looker – это платный BI-инструмент, сочетающий в себе искусственный интеллект и облачную инфраструктуру, которая требует более сложных внедрения и настройки, чем готовое решение LS. Looker Studio и Looker Studio Pro – разные версии одного продукта, бывшего Google Data Studio. Сравнение платной и Pro версий вы найдете в конце статьи.

В блоге на Medium (VPN) я наткнулся на толковые примеры визуализации изменений данных во времени. Под каждым графиком – ссылка на исходный код. Над графиком – совет по визуализации, который график иллюстрирует. Например, некоторые изменения хорошо изобразить стрелками. Так вы подчеркнете направление изменений от одной временной точки к другой. Кратковременные точечные изменения можно попробовать передать тепловой картой.

#дайджест
Привет, друзья!

Если хотите пообщаться со мной офлайн, то у вас есть отличная возможность – завтра я буду на конференции по продуктовой аналитике Aha! Ищите меня в зале Тинькофф 🏦Т-Банк (да, теперь работаю здесь). Мы подготовили крутую программу, и я уверен, что вам понравится. Вот что вас ждет:

1. Наш CDO Кирилл Николаев выступит с докладом о сложных продуктовых решениях на основе размена метрик в A/B-тестах.
2. Владимир Абазов, руководитель продуктовой аналитики, расскажет о том, как управлять отделом так, чтобы вас просили расширять штат аналитиков.
3. Влад Петраков, тимлид продуктовых аналитиков, прожарит дизайн A/B-тестов и расскажет какие проблемы не решают A/B-платформы.
4. Для вас также будет работать интерактивная зона с квестами и решениями кейсов. Можно будет исповедоваться, получить совет и излить душу нашим лидам.

В общем, отличная программа, хорошие доклады и интересные конкурсы. Приходите!

И напоследок, в Т-Банк я буду отвечать за развитие экосистемной аналитики, включая создание дерева метрик для всех продуктов. Сейчас мне в команду нужен сильный аналитик. Если ты знаешь, что такое NSM и умеешь считать LTV, то срочно откликайся.

До встречи на конференции!
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет! Я с очередной порцией статей для новых идей и вдохновения.

Синьорный аналитик с опытом работы в Uber и Meta* поделился десятью ключевыми инсайтами о дата аналитике (VPN). Многие из них актуальны всегда, независимо от стадии развития компании, продукта или бизнес-модели. Например, разница между хорошим и лучшим аналитиком пролегает в умении понимать нужды бизнеса. Если вы старший специалист в передовой компании, ваши технические навыки будут приблизительно на том же уровне, что и у коллег. В таком случае мало шансов выделиться за счет профессиональных знаний. Но если вы понимаете приоритеты бизнеса и работаете с учетом задач стейкхолдеров, вас будут горячо любить и ценить.
*деятельность Meta в РФ запрещена

Бутстрап (Bootstrap) – метод оценки статистики вероятностных распределений. Он основан на многократной генерации выборок методом Монте-Карло из уже существующей выборки. Бутстрап словно волшебная таблетка для аналитика: он позволяет оценить параметры, такие как среднее, дисперсия и доверительные интервалы, даже в нестандартных случаях (например, когда ваши данные имеют выбросы или далеки от теоретического распределения). Метод крайне полезный. В блоге на Medium (VPN) лежит подробная статья об идее бутстрапа и о примерах его применения. Один из них – анализ результатов А/Б-тестов.

Павел Бухтик поделился бесценным (и бесплатным) кладом с начинающими продуктовыми аналитиками - пошаговым руководством по проведению А/Б-тестов. Такой структурный материал редко встретишь на курсах или в книгах. Роадмап Паша собирал сам: пересматривал проверенные временем видео, перечитывал любимые статьи из закладок и объединял кусочки воедино с собственным опытом. Каждый шаг руководства состоит из тем, при нажатии на которые вы попадаете на учебный материал. Что особенно приятно – большая часть ресурсов на русском языке.

#дайджест
Как аналитики, мы часто натыкаемся на странности в данных. Если о них не знать, то можно сделать неверные выводы. Чтобы не попасть в неудобную ситуацию, я решил осветить некоторые моменты.

Первая уловка статистики кроется в медиане. Это значение, которое делит упорядоченный набор данных на две равные части. В работе мы привыкаем смотреть на вещи под одним и тем же углом. Медиана воспринимается как объективная реальность, а отклонения и выбросы – как погрешности. Тут и поджидает нас демон.

Мы забываем, что медиана – это абстракция, один из вариантов измерения среднего значения. Отклонения же – реальные данные, по которым мы вычисляем среднее.

Я наткнулся на статью 1985 года «The Median Isn't the Message» Стивена Джея Гулда, преподававшего биологию, геологию и историю науки в Гарварде, после прочтения которой перестаешь слепо верить измерениям. Гулд был биологом и понимал сущность статистики. В молодости у него обнаружили рак. Медианная продолжительность жизни с его диагнозом составляла 8 месяцев. Отойдя от шока, Гулд обратился к науке. Он проанализировал статистику по заболеванию и поверил в то, что переживет медиану. Так и оказалось – с диагнозом мезотелиома брюшины он прожил еще 20 лет, что превышает медианное значение в 30 раз!

На что обратил внимание Гулд?

1️⃣ Ассиметричное правостороннее распределение

При таком распределении график скошен вправо, а его хвост тянется достаточно далеко. При этом медиана меньше среднего значения:
мода < медиана < среднее

Вытянутый вправо хвост, пусть и тонкий, указывал на наличие больных, которые прожили на несколько лет дольше 8 месяцев. И Гулд имел хорошие шансы оказаться в этой части распределения.

2️⃣ Обстоятельства

Анализировать данные следует исходя из контекста. Если он меняется, то меняется и интерпретация данных.

На продолжительность жизни онкобольных влияет лечение, стадия выявления рака, возраст пациента и его мотивация жить. В этом плане Гулду повезло – рак был выявлен на ранней стадии. То, что он был молод, начал проходить экспериментальное лечение, а также задал правильные вопросы и нашел правильные ответы, помогло ему обрести уверенность и оказаться в самом хвосте распределения.

Пример Гулда показывает, что любое среднее – это в первую очередь абстракция. При интерпретации данных мы должны учесть их распределения, отклонения и контекст.

#аномалии
Лето. Понедельник. Утро. Дайджест!

Когда ты не новичок в дата аналитике, уже шаришь за дашборды и правильно интерпретируешь результаты А/Б-тестов, то настало время подумать о значении своей работы для компании. Ведь истинная задача аналитика – не дизайнерские графики «в стол» и сотни строк кода. Бизнес нанимает нас, чтобы мы помогали принимать решения. Не только менеджер озабочен бизнес-целями. Аналитик тоже обязан быть проактивным: расширять влияние и доверие к своей работе, вовлекать стейкхолдеров, закрывать задачи исходя из запроса бизнеса. Если ты хочешь расти по карьерной лестнице и увеличивать ЗП, то вот рецепт. Автор на Medium (VPN) рассказал, как изменить мышление и максимизировать влияние на бизнес.

Там же на Medium (VPN) вышла свежая статья Марии Мансуровой. Она перечислила десять полезных привычек программистов, которые стоит перенять дата аналитику. Если вы уже о них слышали, но пренебрегали – пора исправляться. Не старайтесь применить все практики за раз. Результат будет более ощутимым, если прорабатывать по одному совету каждый день. Например, сегодня при написании кода уделите внимание его читаемости. На следующий день приоритезируйте задачи, которые можно автоматизировать в ближайшее время.

Сергей Тихомиров поделился размышлениями о процессах управления продуктом в компаниях. В погоне за успехом, менеджеры горят идеей внедрить «продуктовую культуру». Но далеко не все понимают, что значит быть «продуктовой компанией». Сергей предлагает взглянуть на управление продуктом под другим углом. Он делит компании на две группы, сравнивая их с культурой варваров и культурой земледельцев. Первые существуют в условиях нехватки ресурсов и нестабильности. У них властный лидер, краткосрочные цели и фокус на одном продукте. Вторые созревают при большом капитале, когда есть возможность подумать о долгосрочных целях и ценности потребителя. Каждая из культур по-разному управляет продуктом. Чтобы эффективно внедрить продуктовый подход, нужно использовать инструменты из своей культуры.

#дайджест
Почему Revenue и Profit – плохие кандидаты в NSM?

Евангелисты NSM настаивают на том, что главная метрика должна отражать ключевую ценность продукта не только для бизнеса, но и для пользователей и фокусировать на развитии продукта в долгосрочной перспективе. Однако, часть аналитиков выбирают в качестве NSM метрики Revenue и Profit. Давайте поговорим, почему это не Best Practice.

Во-первых, Revenue и Profit относятся к метрикам монетизации. Они не отражают ценность продукта для клиента, не учитывают удовлетворенность и лояльность пользователей.

Revenue (выручка) – это деньги, которые бизнес заработал на продаже продукта. Сюда не относятся доходы от сдачи в аренду собственности компании и проценты по вкладам, а также возвраты товара и скидки.

Profit (прибыль) – это деньги, остающиеся на руках бизнеса после уплаты всех расходов: затраты на эксплуатацию оборудования, налоги, рекламу и др. В отличие от Revenue, Profit включает доходы от некоммерческой деятельности.

Во-вторых, выручка и прибыль – запаздывающие индикаторы (lagging indicators). Они показывают, что уже произошло в бизнесе. NSM, «путеводная звезда», относится к опережающим индикаторам (leading indicators) и предвещает устойчивый рост в долгосрочной перспективе. Если бизнес зациклен на доходах, он будет стремиться к сиюминутным результатам. Это вредит устойчивому росту компании в будущем. Бизнес будет игнорировать инвестиции в инновации, улучшение продукта и обслуживание клиентов.

В-третьих, гиперфокус на метриках монетизации не укажет на причины роста или стагнации бизнеса. Изменения в выручке и прибыли могут вызвать внешние факторы, а не улучшение продукта и возросший спрос. Например, на Profit и Revenue будут влиять факапы конкурентов или их уход с рынка, санкции, скачки валютных курсов и др.

В качестве NSM выбирайте метрики, которые:
✔️отражают ценность как для бизнеса, так и для клиентов;
✔️стимулируют инновации и влияют на долгосрочное развитие компании;
✔️больше зависят от продукта и меньше от внешних факторов.

#метрики
В блоге GoPractice опубликован адаптированный перевод разбора продуктовой модели Spotify. Над оригиналом работали бизнес-лидер Марти Каган и бывший бизнес-коуч Spotify Йоаким Сунден. Поразбираться действительно есть в чем. Шведский стриминговый сервис музыки стал крупнейшим в мире на январь 2024 года. Он умудряется опережать гигантов вроде Amazon и Apple во многом из-за эффективной продуктовой культуры. Авторы разбирают модель работы продукта под тремя главными углами: стратегия продукта, поиск продуктовых решений и доставка решений пользователям.

В блоге на Medium (VPN) опубликован гайд, как выжать максимум инсайтов из данных. Статья затрагивает извечные темы: поиск метрик, их мониторинг и определение проблем и возможностей на основе данных. Автор советует построить дерево метрик, начиная декомпозицию с Revenue. Чем ниже мы спускаемся по дереву, тем больше лидирующих метрик обнаруживаем. Если вы видите резкие изменения в нижележащей метрике, сперва проверьте отстающие вышележащие показатели. Если их значения не изменились, то с поиском первопричины можно повременить. Также автор затронул интересную аномалию – парадокс Симпсона. О нем я уже задумал пост.

Почему многие дата-проекты заведомо провальные? Потому что технологии сами по себе не являются волшебной таблеткой от бюрократии, неэффективной структуры дата-команды или задержке в получении актуальных отчетов. Закон Конвея гласит: организации проектируют системы, которые копируют структуру коммуникаций в самой организации. Например, если сейчас не налажено взаимодействие бизнес- и дата-команд, то и в новой дата-платформе бизнес будет изолирован от актуальной аналитики. Как выстроить коммуникацию - читай в статье на Medium (VPN).

#дайджест
Please open Telegram to view this post
VIEW IN TELEGRAM
Пока лето уверенно приближается к своей середине, я то и дело перелопачиваю блоги коллег и достаю алмазы. Дайджест от меня, сердечко от вас 🫶🏻

Павел Бухтик поделился очередной выручай-палочкой. На этот раз в руки попал чек-лист по проведению А/В эксперимента, а также шаблон дизайна с заполненным примером. Чек-лист содержит шесть разделов для проработки каждого этапа: оценку потребностей бизнеса, дизайн и запуск эксперимента, его сопровождение, подведение итогов и завершение теста. Я работал во многих компаниях, и в каждой из них аналитик делал А/В-тест на свой лад. Приходилось внедрять стандарты, чтобы поставить процесс на единые рельсы. Материалы Паши отлично подходят на роль универсальной методологии.

Netflix после успеха интерактивного эпизода Black Mirror: Bandersnatch погрузился в гейм-индустрию, запустив проект Netflix Games. Компания поставила высокую и, как оказалось, недостижимую цель: к концу 2022 года стать лучшим сервисом видеоигр. Спустя два года, слив миллиард долларов и захантив передовых специалистов, ребята так и не добрались до пьедестала. Среди 247 миллионов подписчиков в играх ежедневно зависают менее 1% пользователей. Обозреватель из геймдева проанализировал причины провала проекта, главный из которых – отсутствие стратегии. Как показывает жизнь, одного видения продукта недостаточно, даже если у тебя лучшие головы и большие деньги.

Последние 40 лет информатики борются над решением задачи (нет, не трех тел) о нахождении уникальных элементов в потоке данных. По условию, элементы поступают последовательно, их количество может быть до бесконечности большим, а значения могут повторяться. Решением должен служить алгоритм, который подсчитывает уникальные элементы, затратив как можно меньше времени и памяти. Недавно вышла статья с описанием нового решения. Алгоритм CVM предлагает одолеть задачу с помощью рандомизации. Для простоты понимания подойдет аналогия с броском монетки. Кто заинтересовался – вот неплохой обзор и его перевод.

#дайджест
Первым делом – опережающие индикаторы

Сегодня разберем, что такое опережающие и запаздывающие метрики, и какие из них держать в фокусе.

Опережающие индикаторы (leading indicators) – это метрики, которые измеряют действия пользователей или работу процессов. К ним относятся, например, количество открытий приложения и доля пользователей, сделавших заказ. Мы можем измерять и воздействовать на опережающие метрики напрямую и получать эффект практически в реальном времени.

Запаздывающие индикаторы (lagging indicators) – это результат прошлых действий и решений. Такие метрики измеряют долгосрочный результат и экономический эффект проделанной работы (например, Revenue). Запаздывающие метрики контролируются опосредованно через опережающие индикаторы.

Аналитикам следует концентрироваться на опережающих метриках. Во-первых, они подвластны прямому контролю. Во-вторых, через них мы влияем на запаздывающие метрики.

Следует помнить, что опережающие и запаздывающие индикаторы связаны между собой. Чтобы влиять на желаемые запаздывающие показатели, нужно правильно выбрать опережающие и проанализировать взаимосвязь между первыми и вторыми.

Для поиска опережающих метрик применяют фреймворки, о которых я рассказывал в постах про NSM и древо метрик. Также существует универсальный фреймворк DMAIC для улучшения процессов. Подбор опережающих метрик – это всегда про эксперимент и поиск самых «влиятельных» показателей.

Пример. Одна компания работает над увеличением Revenue (запаздывающий индикатор) своего приложения. Для этого нужно найти опережающие метрики и проработать их. В ходе брейншторма бизнес формулирует NSM как Digital transactions per user. В качестве опережающих индикаторов были выбраны New installs, Number of openings, Reorder stickiness.

Если вы хотите управлять бизнесом на основе data driven подхода, метрики должны быть отзывчивыми. Если метрика отстает, т.е. требуются недели или месяцы, чтобы изменения повлияли на метрику, то у вас не будет цикла обратной связи, который позволит вам вносить непрерывные улучшения.
Безусловно, запаздывающие индикаторы очень важны, но большинству команд следует уделять бОльшую часть времени анализу опережающих метрик.

#метрики
Ребята, поздравляю с Днем семьи, любви и верности!
И не благодарите за напоминание)

В блоге Analytics Mania опубликованы Best Practices по работе в GA4. С одной стороны, это базовая инструкция, а-ля чек-лист при настройке трекинга. Но многие аналитики упускают и половины возможностей, которые указаны в статье. Вот так живешь себе и не догадываешься, что, например, можно изменить срок хранения данных с двух месяцев до 14. Всего автор дал 12 советов, а также поделился ссылками на другие обучающие статьи. Если тебе легче воспринимать материал на слух, то можешь посмотреть видео на YouTube-канале блога по той же теме. Ссылка – в статье.

Вернемся к вечному вопросу: как найти лучшую метрику? Уже полюбившийся автор Torsten Walbaum в блоге Towards Data Science (VPN) поделился своей версией. Торстен проработал десять лет руководителем команд аналитики, а теперь делится опытом с другими. Эта статья мне понравилась по нескольким причинам. Во-первых, мне импонируют характеристики «хорошей» метрики. Автор сформулировал их в виде девяти принципов, которые помогут отфильтровать достойные метрики от вторичных. Во-вторых, интересно посмотреть на «нехорошие» метрики. Иногда бизнес, вроде того же Х Илона Маска, уводит внимание от проблем в компании, меняя ключевую метрику. Главный инсайт: не существует идеальной метрики без недостатков. Среди всех вариантов мы выбираем «наименее плохой» показатель.

Зачем нужно измерять LTV? Паша Левчук в классной статье на Medium (VPN) рассмотрел четыре популярных сценария, когда LTV полезен при анализе рекламных кампании в digital-маркетинге. Например, LTV в паре с САС поможет рассчитать максимальную стоимость привлечения одного клиента через конкретный канал или кампанию. Также метрика [LTV / CAC] укажет на те кампании, которые стоит оптимизировать в первую очередь. Кстати, это лишь одна из статей о LTV от Паши. Остальные ищи в блоге автора.

#дайджест
Друзья, хочу поделиться с вами радостной новостью – я наконец-то обновил дизайн блога This is Data 🎉

Обновление дизайна напрашивалось давно, так как блог существует с 2016 года.
И вот наконец это сделано

За все время существования сайта его посетили более полумиллиона юзеров! Достойный результат.

Самые популярные статьи:
- Учимся применять оконные функции (266 379 просмотров)
- Как правильно вычислить среднее значение (83 074 просмотров)
- Онлайн-курс для новичков «Digital-аналитика» (83 074 просмотров)
- Прогнозирование продаж в Excel с учетом сезонности  (42 127 просмотров)
- Автоматизация отчетности при помощи SQL и Power BI  (25 125 просмотров)

Сейчас у меня основной фокус на развитии данного канала, статьи тоже будут, но реже.

Спасибо, что читаете! Продолжаем полет 🚀