Как мы разрабатываем DMP для Такси, Еды и Лавки

RU / День 3 / 17:15 / Зал 3

Команда Яндекс.Go разрабатывает платформу управления данными, Data Management Platform, DMP, как сервис для оффлайн и near real-time обработки данных в Такси, Еде и Лавке.

Владимир расскажет про мотивацию, которая нужна для разработки собственного ETL-инструмента, про превращение ETL и DWH в DMP. Спикер поделится тем, какие проблемы возникают в процессе разработки DMP и расскажет про опыт их решения.

На данный момент под управлением Яндекса:

  • более тысячи процессов трансформации данных, которые запускаются сотни тысяч раз в день;
  • Data Lake на YT (in-house аналог Hadoop) размером более 1ПБ с ежемесячным инкрементом по 100ТБ;
  • Data Warehouse на Greenplum с эффективным пространством в 0.5ПБ;
  • Tableau, OLAP-кубы в MS SSAS и аналитические инструменты для JupyterHub.

Пользователи платформы: 4 команды дата-инженеров, несколько команд аналитиков данных и бэкенд-разработчиков. Они готовят данные для аналитики, управленческой и оперативной отчетности, ML и использования в рантайме приложений.

Структура доклада будет следующая:

  • немного контекста — хранилище, стек и паттерн работы;
  • ETL-фреймворк (почему не условный Airflow, а своя реализация), его внутренности и особенности;
  • жизнь дата-инженера, аналитика и бэкенд-разработчика на платформе Яндекса;
  • внутреннее устройство отдельных инструментов и частей платформы.