Параллельные и распределённые вычисления 2019

Материал из Public ATP Wiki
Версия от 02:18, 26 октября 2019; VeLKerr (обсуждение | вклад) (Преподаватели)
Перейти к: навигация, поиск

Общие сведения

Материалы занятий

Преподаватели

  • Лекторы
    • Долуденко А. (tg: @adoludenko)
    • Ивченко О. (tg: @velkerr)
    • Пилипенко А.
    • Лахвич Д.
    • Леонов Я.
  • Семинаристы
    • Параллельная часть:
      • Бабин Олег
      • Долуденко Алексей
      • Ахтямов Павел
      • Иванова Юлия
    • Распределённая часть:
      • Бабин Олег
      • Булгакова Дарья
      • Долуденко Алексей
      • Ахтямов Павел
      • Чернецкий Аркадий
      • Иванова Юлия
      • Ивченко Олег
  • Учебные ассистенты
    • Вручтель Серафима
    • Госткин Евгений.

Критерии получения оценки

После дедлайна задачи можно сдавать лишь с -50% от максимальной оценки.

План курса

Дата Лектор Тема лекций и семинаров Дополнительные активности
29.10 Пилипенко А. Hive, продолжение Контрольная по HDFS & MapReduce
05.11 Лахвич Д. Spark, начало Выдача домашки по Hive
12.11 Леонов Я. Лекция: Модель распределённых систем Семинар: продолжение Spark
19.11 AB, FLP, CAP. Контрольная по Hive & Spark. Выдача домашки по Zookeeper
26.11 Распределённые конфигурации. Zookeeper
03.12 Dynamo-подобные системы. Cassandra
10.12 Очереди в распределённых вычислениях. Kafka. Контрольная по Cassandra. Kafka, Zookeeper.

Список рекомендуемых материалов

  • Параллельная часть
  1. Методичка по MPI
  2. Методичка по OpenMP
  • Распределённая часть (лекции)
  1. Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: WebUI, shell, Java API
  2. Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. API для работы с Hadoop (Native Java API vs. Streaming), примеры
  3. Типы Join'ов и их реализации в парадигме MR. Паттерны проекттирования MR (pairs, stripes, составные ключи). PageRank в MR. Планировщик задач в YARN
  4. SQL поверх BigData
  • Распределённая часть (семинары)
  1. Устройство Hadoop-кластера, HDFS CLI, Web API, внутреннее устройство HDFS
  2. Hadoop streaming API. Простейшая программа на MapReduce (подсчёт слов в тексте). Её модификации. Инструменты отладки в MapReduce.
  3. Advanced HDFS shell. Hadoop Java API, Joins в MapReduce, Счётчики в MapReduce
  4. Apache Hive. Язык HiveQL, его расширения (Hive Streaming, User defined functions)