Команда Яндекс.Go разрабатывает платформу управления данными, Data Management Platform, DMP, как сервис для оффлайн и near real-time обработки данных в Такси, Еде и Лавке.
Владимир расскажет про мотивацию, которая нужна для разработки собственного ETL-инструмента, про превращение ETL и DWH в DMP. Спикер поделится тем, какие проблемы возникают в процессе разработки DMP и расскажет про опыт их решения.
На данный момент под управлением Яндекса:
- более тысячи процессов трансформации данных, которые запускаются сотни тысяч раз в день;
- Data Lake на YT (in-house аналог Hadoop) размером более 1ПБ с ежемесячным инкрементом по 100ТБ;
- Data Warehouse на Greenplum с эффективным пространством в 0.5ПБ;
- Tableau, OLAP-кубы в MS SSAS и аналитические инструменты для JupyterHub.
Пользователи платформы: 4 команды дата-инженеров, несколько команд аналитиков данных и бэкенд-разработчиков. Они готовят данные для аналитики, управленческой и оперативной отчетности, ML и использования в рантайме приложений.
Структура доклада будет следующая:
- немного контекста — хранилище, стек и паттерн работы;
- ETL-фреймворк (почему не условный Airflow, а своя реализация), его внутренности и особенности;
- жизнь дата-инженера, аналитика и бэкенд-разработчика на платформе Яндекса;
- внутреннее устройство отдельных инструментов и частей платформы.