Хранение и обработка больших объемов данных — различия между версиями

Материал из Public ATP Wiki
Перейти к: навигация, поиск
(Команда курса)
(Критерии получения оценки)
 
(не показано 13 промежуточных версий этого же участника)
Строка 18: Строка 18:
 
= Команда курса =
 
= Команда курса =
 
* '''Преподаватели'''
 
* '''Преподаватели'''
** Ивченко Олег, ''MIPT, YSDA, HSE''
+
** '''Ивченко Олег''', ''MIPT, Yandex, HSE''
 
** Пилипенко Антон, ''LaModa''
 
** Пилипенко Антон, ''LaModa''
 
** Лахвич Дмитрий, ''Tele2''
 
** Лахвич Дмитрий, ''Tele2''
 
** Липовский Роман, ''MIPT''
 
** Липовский Роман, ''MIPT''
 
** Ахтямов Павел, ''MIPT, VicMan''
 
** Ахтямов Павел, ''MIPT, VicMan''
 +
** Жестов Анатолий, ''Exante, ведущий системный инженер''
 
* '''Учебные ассистенты'''
 
* '''Учебные ассистенты'''
 
** Проверяющие
 
** Проверяющие
Строка 31: Строка 32:
  
 
= Критерии получения оценки =
 
= Критерии получения оценки =
 +
 
=== Домашние задания ===
 
=== Домашние задания ===
 
Планируется 6 домашних заданий (5 условно-обязательных, 1 бонусное).  
 
Планируется 6 домашних заданий (5 условно-обязательных, 1 бонусное).  
 
* Каждое оценивается максимум в 1,5 балла.
 
* Каждое оценивается максимум в 1,5 балла.
 
* За сдачу позже мягкого дедлайна -50%
 
* За сдачу позже мягкого дедлайна -50%
* За сдачу позже жёсткого -75%. Со штрафом -75% можно сдавать до начала сессии.
+
* За сдачу позже жёсткого -75%. Со штрафом -75% можно сдавать '''до 17.06, 23:59'''.
 
==== Дедлайны по домашкам ====
 
==== Дедлайны по домашкам ====
 
{|  class="wikitable"
 
{|  class="wikitable"
Строка 43: Строка 45:
 
! Жёсткий deadline
 
! Жёсткий deadline
 
|-
 
|-
|[https://docs.google.com/document/d/1ltPJXsZHwwGATfS4rIaxZWbl3OmjJUSMHWg5wCN2D9o/edit?usp=sharing MapReduce] || 09.03, 23:59 || 16.03, 23:59  
+
|[https://docs.google.com/document/d/1ltPJXsZHwwGATfS4rIaxZWbl3OmjJUSMHWg5wCN2D9o/edit MapReduce] || 09.03, 23:59 || 16.03, 23:59  
 +
|-
 +
|[https://docs.google.com/document/d/1VqRe7fgfJKcbLKpg8zOLPSyNsGagv2dITP3UoOYu864/edit Hive] || 05.04, 23:59 || 12.04, 23:59
 +
|-
 +
|[https://docs.google.com/document/d/1nArtdVDU1-Ulw-GUQYTJ4eYScnSvQ1Ldxq6058-55ZY Spark] || 27.04, 23:59 || 04.05, 23:59
 +
|-
 +
|[https://docs.google.com/document/d/1IExbU6ECHVbecTtRuaKq8FFmwlnxFtYbiYtA5a9vFo0 RealTime & Kafka] || 10.05 (13.05 для задачи 2), 23:59 || 17.05, 23:59
 +
|-
 +
|[https://docs.google.com/document/d/1etxcohHNQSZHr89_QXEuMkOEsdUY5FbdHvl5tTqHP34 HBase] || 22.05, 23:59 || 29.05, 23:59
 +
|-
 +
|[https://docs.google.com/document/d/1NcwxoZVsxfUmNO69u_n4Uj4kvcmvJbXF8JDyTTjypd0/edit# Google Spanner] || 23.06, 23:59 || --
 
|}
 
|}
  
Строка 55: Строка 67:
 
* оценивается максимум в 1 балл.
 
* оценивается максимум в 1 балл.
 
В идеальном случае за контрольные можно получить '''5 баллов'''.
 
В идеальном случае за контрольные можно получить '''5 баллов'''.
 +
 
=== Бонус ===
 
=== Бонус ===
 
Бонус начисляется за:
 
Бонус начисляется за:
 
* активное участие в семинарах,
 
* активное участие в семинарах,
* помощь коллегам на Piazza или в чате курса.
+
* помощь коллегам в чате курса.
 
Возможно получить до 1 балла. Количество студентов, которым может быть начислен бонус, неограничено.
 
Возможно получить до 1 балла. Количество студентов, которым может быть начислен бонус, неограничено.
 +
 
=== Экзамен ===
 
=== Экзамен ===
 
Является '''необязательным'''.
 
Является '''необязательным'''.
Строка 66: Строка 80:
 
* возможна устная защита по окончанию 45 минут
 
* возможна устная защита по окончанию 45 минут
 
* Максимальная оценка: 2 балла.
 
* Максимальная оценка: 2 балла.
 +
 
= Список рекомендуемых материалов =
 
= Список рекомендуемых материалов =
 
=== Основная ===
 
=== Основная ===

Текущая версия на 22:06, 3 февраля 2021

Общие сведения

  • Семестр: 10 (пятый курс)
  • Форма контроля: экзамен

Важные ссылки

Материалы

Команда курса

  • Преподаватели
    • Ивченко Олег, MIPT, Yandex, HSE
    • Пилипенко Антон, LaModa
    • Лахвич Дмитрий, Tele2
    • Липовский Роман, MIPT
    • Ахтямов Павел, MIPT, VicMan
    • Жестов Анатолий, Exante, ведущий системный инженер
  • Учебные ассистенты
    • Проверяющие
      • Вручтель Серафима
      • Чернецкий Аркадий
    • Разработчки тестов
      • Иванова Юлия

Критерии получения оценки

Домашние задания

Планируется 6 домашних заданий (5 условно-обязательных, 1 бонусное).

  • Каждое оценивается максимум в 1,5 балла.
  • За сдачу позже мягкого дедлайна -50%
  • За сдачу позже жёсткого -75%. Со штрафом -75% можно сдавать до 17.06, 23:59.

Дедлайны по домашкам

Домашка Мягкий deadline Жёсткий deadline
MapReduce 09.03, 23:59 16.03, 23:59
Hive 05.04, 23:59 12.04, 23:59
Spark 27.04, 23:59 04.05, 23:59
RealTime & Kafka 10.05 (13.05 для задачи 2), 23:59 17.05, 23:59
HBase 22.05, 23:59 29.05, 23:59
Google Spanner 23.06, 23:59 --

В идеальном случае за домашние задания можно получить 9 баллов.

Мини-контрольные работы (Quiz'ы)

Планируется 5 мини-контрольных (см. план курса). Каждая контрольная:

  • проводится на семинарах (т.е. в четверга в 18:30).
  • содержит 2-3 вопроса,
  • длится 15-20 мин.,
  • оценивается максимум в 1 балл.

В идеальном случае за контрольные можно получить 5 баллов.

Бонус

Бонус начисляется за:

  • активное участие в семинарах,
  • помощь коллегам в чате курса.

Возможно получить до 1 балла. Количество студентов, которым может быть начислен бонус, неограничено.

Экзамен

Является необязательным.

  • 6 вопросов по всему курсу,
  • 45 минут времени
  • возможна устная защита по окончанию 45 минут
  • Максимальная оценка: 2 балла.

Список рекомендуемых материалов

Основная

  1. Tom White, Hadoop: The Definitive Guide, 4th Edition Storage and Analysis at Internet Scale, Publisher: O'Reilly, Media Release Date: April 2015
  2. Karau, H., Konwinski, A., Wendell, P., & Zaharia, M, Learning Spark: Lightning-Fast Big Data Analysis
  3. Holden Karau et al. Learning Spark. Lightning-fast Data Analytics. Preview Edition. O’Reilly, 2015.

Дополнительная

  1. Chuck Lam. Hadoop in Action. New York: Manning Publications co., 2011.
  2. Alex Holmes , "Hadoop in Practice", 2012
  3. Martin Fowler, "NoSQL", 2013
  4. Eric Redmond, Jim R. Wilson, "Seven Databases in Seven Weeks", 2012
  5. Jonathan Leibiusky, "Getting Started with Storm", 2012
  6. Donald Miner, Adam Shook. MapReduce Design Patterns. O’Reilly, 2013.
  7. Arun C. Murthy et al. Apache Hadoop YARN. Addison-Wesley, 2014.
  8. Spark Core Programming. TutorialsPoint, 2015.
  9. Dario Simonassi, Gabriel Eisbruch, Jonathan Leibiusky. Getting Started with Storm. O’Reilly, 2012.
  10. Edward Capriolo, Dean Wampler, and Jason Rutherglen. Programming Hive. O’Reilly, 2012.
  11. Lars George. HBase: The Definitive Guide. O’Reilly, 2011.
  12. Eben Hewitt. Cassandra: The Definitive Guide. O’Reilly, 2011.