Параллельные и распределённые вычисления 2019 — различия между версиями

Материал из Public ATP Wiki
Перейти к: навигация, поиск
м (контакты для связи)
м (Общие сведения)
Строка 1: Строка 1:
 
= Общие сведения =
 
= Общие сведения =
 +
* Семестр: 5 (третий курс)
 
* Форма контроля: зачет
 
* Форма контроля: зачет
 
* '''[http://bit.ly/336mbtp Форма регистрации на курс]'''
 
* '''[http://bit.ly/336mbtp Форма регистрации на курс]'''

Версия 12:59, 9 октября 2019

Общие сведения

Материалы занятий

Преподаватели

  • Лекторы:
    • Долуденко Алексей (tg: @adoludenko)
    • Ивченко Олег (tg: @velkerr)
  • Семинаристы:
    • Бабин Олег (791)
    • Булгакова Дарья (792)
    • Долуденко Алексей (793, 796)
    • Ахтямов Павел (794)
    • Чернецкий Аркадий (795)
    • Иванова Юлия (797)
    • Ивченко Олег (798, 7910)

Критерии получения оценки

После дедлайна задачи можно сдавать лишь с -50% от максимальной оценки.

Список рекомендуемых материалов

  1. Распределённые файловые системы (GFS, HDFS). Её составляющие. Их достоинства, недостатки и сфера применения. Чтение и запись в HDFS. HDFS APIs: WebUI, shell, Java API
  2. Парадигма MapReduce. Основная идея, формальное описание. Обзор реализаций. API для работы с Hadoop (Native Java API vs. Streaming), примеры
  3. Типы Join'ов и их реализации в парадигме MR. Паттерны проекттирования MR (pairs, stripes, составные ключи). PageRank в MR. Планировщик задач в YARN
  4. SQL поверх BigData
  • Распределённая часть (семинары)
  1. Устройство Hadoop-кластера, HDFS CLI, Web API, внутреннее устройство HDFS
  2. Hadoop streaming API. Простейшая программа на MapReduce (подсчёт слов в тексте). Её модификации. Инструменты отладки в MapReduce.
  3. Advanced HDFS shell. Hadoop Java API, Joins в MapReduce, Счётчики в MapReduce
  4. Apache Hive. Язык HiveQL, его расширения (Hive Streaming, User defined functions)