Параллельные и распределённые вычисления 2019

Материал из Public ATP Wiki
Версия от 02:54, 17 февраля 2020; VeLKerr (обсуждение | вклад) (Критерии получения оценки)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Общие сведения

Материалы занятий

Преподаватели

  • Лекторы
    • Долуденко А.
    • Ивченко О.
    • Пилипенко А.
    • Лахвич Д.
    • Леонов Я.
  • Семинаристы
    • Параллельная часть:
      • Бабин Олег
      • Долуденко Алексей
      • Ахтямов Павел
      • Иванова Юлия
    • Распределённая часть:
      • Бабин Олег
      • Булгакова Дарья
      • Долуденко Алексей
      • Ахтямов Павел
      • Чернецкий Аркадий
      • Иванова Юлия
      • Ивченко Олег
  • Учебные ассистенты
    • Вручтель Серафима
    • Госткин Евгений.

Критерии получения оценки

Зачёт выставляется на основании баллов, полученных в течение семестра.

Параллельная часть

2 домашних задания. Сдача предполагает публикацию кода на GitLab, а также устную защиту работы.

Распределённая часть

4 домашних задания. Сдача проходит в 2 этапа:

  • прохождение автоматических тестов на базе системы BigJudge,
  • code review (проводится преподавателем либо учебным ассистентом).

После мягкого дедлайна задачи можно сдавать лишь с 50% от максимальной оценки. После жёсткого - 25%.

3 самостоятельных работы на семинарах:

  • 2-3 теор. вопроса,
  • 15-20 минут времени.

Дедлайны по домашкам

Домашка Мягкий deadline Жёсткий deadline
HDFS 27.10, 23:59 04.11, 23:59
MapReduce 17.11, 23:59 24.11, 23:59
Hive 24.11, 23:59 01.12, 23:59
Spark (bonus) 02.12, 23:59 09.12, 23:59
ZooKeeper 21.12, 23:59 21.12, 23:59

План курса

Дата Лектор Тема лекций и семинаров Дополнительные активности
29.10 Пилипенко А. Hive, продолжение Контрольная по HDFS & MapReduce
05.11 Лахвич Д. Spark, начало Выдача домашки по Hive
12.11 Леонов Я. Лекция: Модель распределённых систем Семинар: продолжение Spark
19.11 AB, FLP, CAP. Контрольная по Hive & Spark. Выдача домашки по Zookeeper
26.11 Распределённые конфигурации. Zookeeper
03.12 Dynamo-подобные системы. Cassandra
10.12 Очереди в распределённых вычислениях. Kafka. Контрольная по Kafka, Zookeeper.

Список рекомендуемых материалов

  • Параллельная часть
  1. Методичка по MPI
  2. Методичка по OpenMP
  • Распределённая часть (лекции)
  1. Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: WebUI, shell, Java API
  2. Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. API для работы с Hadoop (Native Java API vs. Streaming), примеры
  3. Типы Join'ов и их реализации в парадигме MR. Паттерны проекттирования MR (pairs, stripes, составные ключи). PageRank в MR. Планировщик задач в YARN
  4. SQL поверх BigData
  • Распределённая часть (семинары)
  1. Устройство Hadoop-кластера, HDFS CLI, Web API, внутреннее устройство HDFS
  2. Hadoop streaming API. Простейшая программа на MapReduce (подсчёт слов в тексте). Её модификации. Инструменты отладки в MapReduce.
  3. Advanced HDFS shell. Hadoop Java API, Joins в MapReduce, Счётчики в MapReduce
  4. Apache Hive. Язык HiveQL, его расширения (Hive Streaming, User defined functions)