Хранение и обработка больших объемов данных
Содержание
Общие сведения
- Семестр: 10 (пятый курс)
- Форма контроля: экзамен
Важные ссылки
Материалы
Команда курса
- Преподаватели
- Ивченко Олег, MIPT, Yandex, HSE
- Пилипенко Антон, LaModa
- Лахвич Дмитрий, Tele2
- Липовский Роман, MIPT
- Ахтямов Павел, MIPT, VicMan
- Жестов Анатолий, Exante, ведущий системный инженер
- Учебные ассистенты
- Проверяющие
- Вручтель Серафима
- Чернецкий Аркадий
- Разработчки тестов
- Иванова Юлия
- Проверяющие
Критерии получения оценки
Суммарно за все активности курса (домашки, контрольные, экзамены и бонус) можно получить 17 / 10. Но если не сдана хотя бы одна (любая) домашка, за курс будет неуд. даже если по баллам набрано > 2.5.
Домашние задания
Планируется 6 домашних заданий (5 условно-обязательных, 1 бонусное).
- Каждое оценивается максимум в 1,5 балла.
- За сдачу позже мягкого дедлайна -50%
- За сдачу позже жёсткого -75%. Со штрафом -75% можно сдавать до 17.06, 23:59.
Дедлайны по домашкам
Домашка | Мягкий deadline | Жёсткий deadline |
---|---|---|
MapReduce | 09.03, 23:59 | 16.03, 23:59 |
Hive | 05.04, 23:59 | 12.04, 23:59 |
Spark | 27.04, 23:59 | 04.05, 23:59 |
RealTime & Kafka | 10.05 (13.05 для задачи 2), 23:59 | 17.05, 23:59 |
HBase | 22.05, 23:59 | 29.05, 23:59 |
Google Spanner | 23.06, 23:59 | -- |
В идеальном случае за домашние задания можно получить 9 баллов.
Мини-контрольные работы (Quiz'ы)
Планируется 5 мини-контрольных (см. план курса). Каждая контрольная:
- проводится на семинарах (т.е. в четверга в 18:30).
- содержит 2-3 вопроса,
- длится 15-20 мин.,
- оценивается максимум в 1 балл.
В идеальном случае за контрольные можно получить 5 баллов.
Бонус
Бонус начисляется за:
- активное участие в семинарах,
- помощь коллегам в чате курса.
Возможно получить до 1 балла. Количество студентов, которым может быть начислен бонус, неограничено.
Экзамен
Является необязательным.
- 6 вопросов по всему курсу,
- 45 минут времени
- возможна устная защита по окончанию 45 минут
- Максимальная оценка: 2 балла.
Список рекомендуемых материалов
Основная
- Tom White, Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale, Publisher: O'Reilly, Media Release Date: April 2015
- Karau, H., Konwinski, A., Wendell, P., & Zaharia, M, Learning Spark: Lightning-Fast Big Data Analysis
- Holden Karau et al. Learning Spark. Lightning-fast Data Analytics. Preview Edition. O’Reilly, 2015.
Дополнительная
- Chuck Lam. Hadoop in Action. New York: Manning Publications co., 2011.
- Alex Holmes , "Hadoop in Practice", 2012
- Martin Fowler, "NoSQL", 2013
- Eric Redmond, Jim R. Wilson, "Seven Databases in Seven Weeks", 2012
- Jonathan Leibiusky, "Getting Started with Storm", 2012
- Donald Miner, Adam Shook. MapReduce Design Patterns. O’Reilly, 2013.
- Arun C. Murthy et al. Apache Hadoop YARN. Addison-Wesley, 2014.
- Spark Core Programming. TutorialsPoint, 2015.
- Dario Simonassi, Gabriel Eisbruch, Jonathan Leibiusky. Getting Started with Storm. O’Reilly, 2012.
- Edward Capriolo, Dean Wampler, and Jason Rutherglen. Programming Hive. O’Reilly, 2012.
- Lars George. HBase: The Definitive Guide. O’Reilly, 2011.
- Eben Hewitt. Cassandra: The Definitive Guide. O’Reilly, 2011.