Открытая школа для Data Engineer (Hadoop)
Москва
декабрь 2021
Курс. Экосистема Hadoop
- Принципы MPP-систем (в т.ч. основы map-reduce). Arenadata Hadoop целевая система - главное донести суть систем класса MPP.
- Распределенные файловые системы (на примере HDFS). Сделать акцент на том, что можно обрабатывать данные не только в реляционных базах, но и неструктурированные данные (картинки и т.д.). Кейс про обработку 5 млн. картинок.
- Колоночное хранение (на примере Parquette, ORC), отличие от строкового хранения. Select * - не всегда хорошо, целевая выборка - лучше (привести пример на базе Parquette)
- CRUD-операции на MPP-системе (почему Delete работает медленно и ресурсоёмко). Update 3-4-х строк - это ГБ данных. Упомянуть DataLake.
- Основы разделение ресурсами кластера (YARN). Рассказать про разделение ресурсов, получение. Очереди. Какую долю вычислительной мощности пользователь может получить от системы.
- Экосистема Hadoop. Подведение итогов предыдущих пунктов. Это набор сервисов (таск менеджер, …). Системное представление о том, что такое Hadoop (схема экосистемы). Можно упомянуть Hive. Упомянуть про ноды.
- Статистика, партиционирование (обработка файлов: подсчет строк). Кейс с распределенным обучением. Про индексы и скорость select и join, на что следует рассчитывать при работе с Hadoop.
- Высокоуровневые инструменты для работы с данными на Hadoop (Hive, основы Spark). Акцент больше на Spark, чем на Hive. По Spark у нас есть отдельный курс, поэтому можно не сильно углубляться. Spark SQL.
Формат обучения
- 3 недели, по 2 занятия в неделю, по 2 часа
- ДЗ по 2 часа на каждое занятие
- Контрольное задание: уточнить требования, проверить гипотезу. Предложить слушателям ключевые метрики. Ожидаем применения модели и выводы о результатах.
Мы готовим не дата аналитиков, а с помощью Hadoop проверяем гипотезы
Профиль кандидата