Хранение и обработка больших объемов данных

Материал из Public ATP Wiki
Перейти к: навигация, поиск

Общие сведения

  • Семестр: 10 (пятый курс)
  • Форма контроля: экзамен

Важные ссылки

Материалы

Команда курса

  • Преподаватели
    • Ивченко Олег, MIPT, Yandex, HSE
    • Пилипенко Антон, LaModa
    • Лахвич Дмитрий, Tele2
    • Липовский Роман, MIPT
    • Ахтямов Павел, MIPT, VicMan
    • Жестов Анатолий, Exante, ведущий системный инженер
  • Учебные ассистенты
    • Проверяющие
      • Вручтель Серафима
      • Чернецкий Аркадий
    • Разработчки тестов
      • Иванова Юлия

Критерии получения оценки

Домашние задания

Планируется 6 домашних заданий (5 условно-обязательных, 1 бонусное).

  • Каждое оценивается максимум в 1,5 балла.
  • За сдачу позже мягкого дедлайна -50%
  • За сдачу позже жёсткого -75%. Со штрафом -75% можно сдавать до 17.06, 23:59.

Дедлайны по домашкам

Домашка Мягкий deadline Жёсткий deadline
MapReduce 09.03, 23:59 16.03, 23:59
Hive 05.04, 23:59 12.04, 23:59
Spark 27.04, 23:59 04.05, 23:59
RealTime & Kafka 10.05 (13.05 для задачи 2), 23:59 17.05, 23:59
HBase 22.05, 23:59 29.05, 23:59
Google Spanner 23.06, 23:59 --

В идеальном случае за домашние задания можно получить 9 баллов.

Мини-контрольные работы (Quiz'ы)

Планируется 5 мини-контрольных (см. план курса). Каждая контрольная:

  • проводится на семинарах (т.е. в четверга в 18:30).
  • содержит 2-3 вопроса,
  • длится 15-20 мин.,
  • оценивается максимум в 1 балл.

В идеальном случае за контрольные можно получить 5 баллов.

Бонус

Бонус начисляется за:

  • активное участие в семинарах,
  • помощь коллегам в чате курса.

Возможно получить до 1 балла. Количество студентов, которым может быть начислен бонус, неограничено.

Экзамен

Является необязательным.

  • 6 вопросов по всему курсу,
  • 45 минут времени
  • возможна устная защита по окончанию 45 минут
  • Максимальная оценка: 2 балла.

Список рекомендуемых материалов

Основная

  1. Tom White, Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale, Publisher: O'Reilly, Media Release Date: April 2015
  2. Karau, H., Konwinski, A., Wendell, P., & Zaharia, M, Learning Spark: Lightning-Fast Big Data Analysis
  3. Holden Karau et al. Learning Spark. Lightning-fast Data Analytics. Preview Edition. O’Reilly, 2015.

Дополнительная

  1. Chuck Lam. Hadoop in Action. New York: Manning Publications co., 2011.
  2. Alex Holmes , "Hadoop in Practice", 2012
  3. Martin Fowler, "NoSQL", 2013
  4. Eric Redmond, Jim R. Wilson, "Seven Databases in Seven Weeks", 2012
  5. Jonathan Leibiusky, "Getting Started with Storm", 2012
  6. Donald Miner, Adam Shook. MapReduce Design Patterns. O’Reilly, 2013.
  7. Arun C. Murthy et al. Apache Hadoop YARN. Addison-Wesley, 2014.
  8. Spark Core Programming. TutorialsPoint, 2015.
  9. Dario Simonassi, Gabriel Eisbruch, Jonathan Leibiusky. Getting Started with Storm. O’Reilly, 2012.
  10. Edward Capriolo, Dean Wampler, and Jason Rutherglen. Programming Hive. O’Reilly, 2012.
  11. Lars George. HBase: The Definitive Guide. O’Reilly, 2011.
  12. Eben Hewitt. Cassandra: The Definitive Guide. O’Reilly, 2011.