Data engineer
Обязанности
О компании:
Dodo Brands - международная компания, развивающая 3 бренда (Dodo Pizza, Drinkit, Doner 42) в 14 странах. За 10 лет более 25 миллионов клиентов оставили информацию о себе. Совокупно более 20 000 сотрудников работает в более 800 пиццерий.
Мы делаем ставку на IT и создаём Додо ИС, информационную систему, включающую клиентский сайт, мобильное приложение, интерфейс контакт-центра, трекинг заказов на кухне, учёт продуктов, аналитические инструменты и многое другое.
Прямо сейчас над нашей собственной системой Додо ИС работают более 20 команд разработки, всего более 180 человек.
О команде данных:
Цель нашей команды - сделать Dodo Brands data-driven компанией.
Сейчас над этими задачами работают команды Business Intelligence и Data Engineering. Кроме этого в компании в разных доменах есть свои ML инженеры и data analysts.
Data Engineering отвечает за своевременную доставку данных до DataLake, создание Data Platform - децентрализованной платформы данных для ML, data analytics, reporting и dashboarding.
Сейчас мы ищем в нашу команду сильного Data Engineer.
Наш стек технологий:
Python, Spark (Batch и Structured Streaming на платформе Databricks), DeltaLake, Azure Data Explorer, Azure EventHubs (Kafka API), Kafka Connect (Debezium), GitHub Actions, MLFlow, Superset.
Чем предстоит заниматься:
- Создание инфраструктуры и инструментов для работы с данными для других команд.
- развертывание и обслуживание data сервисов: Superset, Kafka Connect и т.д.,
- CI/CD для пайплайнов,
- автоматизация вгрузок из разных источников (CDC, события),
- интеграция данных платформы с другими системами,
- автоматизация lineage, data quality,
- подготовка платформы к Data Mesh подходу.
- Помощь другим командам в работе с данными, с интеграциями, с нашими инструментами, с оптимизациями (центр экспертизы по работе с аналитическими данными).
- Проектирование модели данных детального слоя под бизнес требования с оптимальным хранением данных.
- MLOps: CI/CD для ML проектов, создание тулинга для вывода ML-моделей в production.
- Доработка Spark коннекторов к Azure ресурсам, доработка Superset’а, написание платформенных библиотек (именно поэтому здорово, если ты умеешь программировать).
Требования
Требования:
- Уверенное владение одним из языков программирования: Python, Scala, Java.
- Построение пайплайнов данных с мониторингом и логированием; опыт в оптимизации/изменении существующих пайплайнов.
- Spark, Spark Streaming (у нас Structured Streaming)
- Apache Kafka и/или RabbitMQ.
- System design
- Дизайн DWH.
- Хорошие навыки в моделировании данных как для классических реляционных моделей, так и для DWH.
Будет плюсом:
- MPP/Cloud data warehouse решения (Snowflake, Redshift, BigQuery, Vertica, Teradata, Greenplum, Azure DWH, ClickHouse и т.д.).
- Как писать и оптимизировать сложные SQL запросы.
- Дизайн распределенных систем.
- Опыт MLOps
- Опыт работы с Hudi или Iceberg или Delta Lake.
- Умеете балансировать между MVP и собственным перфекционизмом 🙂
Условия
Приятные бонусы:
- Работа в офисе или удаленная работа
- Расширенная ДМС с первого рабочего дня
- Оплата профильных конференций, курсов, профессиональной литературы
- Партнерские программы (скидки на изучение английского языка Skyeng, 50% компенсация психологической помощи на платформе Alter);
- Митапы, лекции, воркшопы и интенсивы по вашему направлению у нас в офисе.
- Прокачка навыков публичных выступлений (сделаем из вас крутого спикера).
- Помощь в написании профессиональных статей и раскрутку вас, как автора, на профильных ресурсах (Хабр, VC).
- Помощь в переезде (релокационный бонус).
- Периодически Костя Оганезов готовит борщ или окрошку.