Открытая школа для Data Engineer (Hadoop)

Москва
декабрь 2021

Курс. Экосистема Hadoop

  • Принципы MPP-систем (в т.ч. основы map-reduce). Arenadata Hadoop целевая система - главное донести суть систем класса MPP.
  • Распределенные файловые системы (на примере HDFS). Сделать акцент на том, что можно обрабатывать данные не только в реляционных базах, но и неструктурированные данные (картинки и т.д.). Кейс про обработку 5 млн. картинок.
  • Колоночное хранение (на примере Parquette, ORC), отличие от строкового хранения. Select * - не всегда хорошо, целевая выборка - лучше (привести пример на базе Parquette)
  • CRUD-операции на MPP-системе (почему Delete работает медленно и ресурсоёмко). Update 3-4-х строк - это ГБ данных. Упомянуть DataLake.
  • Основы разделение ресурсами кластера (YARN). Рассказать про разделение ресурсов, получение. Очереди. Какую долю вычислительной мощности пользователь может получить от системы.
  • Экосистема Hadoop. Подведение итогов предыдущих пунктов. Это набор сервисов (таск менеджер, …). Системное представление о том, что такое Hadoop (схема экосистемы). Можно упомянуть Hive. Упомянуть про ноды.
  • Статистика, партиционирование (обработка файлов: подсчет строк). Кейс с распределенным обучением. Про индексы и скорость select и join, на что следует рассчитывать при работе с Hadoop.
  • Высокоуровневые инструменты для работы с данными на Hadoop (Hive, основы Spark). Акцент больше на Spark, чем на Hive. По Spark у нас есть отдельный курс, поэтому можно не сильно углубляться. Spark SQL.

Формат обучения

  • 3 недели, по 2 занятия в неделю, по 2 часа
  • ДЗ по 2 часа на каждое занятие
  • Контрольное задание: уточнить требования, проверить гипотезу. Предложить слушателям ключевые метрики. Ожидаем применения модели и выводы о результатах.

Мы готовим не дата аналитиков, а с помощью Hadoop проверяем гипотезы

Профиль кандидата