Сбор, подготовка и разметка данных весна 2025 — различия между версиями

Материал из Public ATP Wiki
Перейти к: навигация, поиск
 
(не показана 1 промежуточная версия этого же участника)
Строка 7: Строка 7:
 
* [https:// Продление дедлайнов]
 
* [https:// Продление дедлайнов]
  
= Команда курса =
 
* Максим Кочуков, руководитель курса, лекции, семинарист
 
* Хайрулин Асхат, семинарист
 
* Егоров Владислав, семинарист
 
 
= План курса =
 
 
* Количество аудиторных часов: 24 часа
 
* Количество аудиторных часов: 24 часа
 
* Лекции: 12 часов
 
* Лекции: 12 часов
Строка 21: Строка 15:
 
* Количество контрольных работ, заданий: 4
 
* Количество контрольных работ, заданий: 4
  
 +
= Команда курса =
 +
* ______, руководитель курса, лекции, семинарист
 +
* ______, семинарист
 +
* ______, семинарист
  
 +
= План курса =
  
* [https://docs.google.com/spreadsheets/d/e/2PACX-1vR_9oagb-IJAK0HBVzuf91Rbb-Dn7kBsg29-0L-6bmWqmsaMJ9qZ-o2r5MRt81oSngZzRDcNpt9kZ0t/pubhtml?gid=749127730&single=true План курса]
+
* '''1.Введение в курс.'''
 +
* Важность данных в машинном обучении.
 +
* Данные для разметки: оценка качества данных и методы кросс-валидации.
 +
* '''2.Разметка с помощью краудсорсинга'''
 +
* Краудсорсинг и аутсорсинг.  
 +
* Примеры краудсорсинговых платформ.  
 +
* Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
 +
* Этап работы над проектом по разметке.
 +
* Разметка сложных проектов, задачи ранжирования и матчинга.
 +
* Упрощение и оптимизация разметки с помощью эвристик.
 +
* '''3. Разметка с помощью больших языковых моделей'''
 +
* Введение.
 +
* Генерация данных для задач обработки естественного языка.
 +
* Генерация данных в задачах компьютерного зрения.
 +
* Кросс-валидация данных, работа с временными рядами
 +
* '''4. Жизненный цикл данных в ML-системах'''
 +
* Жизненный цикл данных, концепция human-in-the-loop.
 +
* Хранение данных и признаков, концепция feature store.
 +
* Инструменты для версионирования данных.
 +
* '''5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)'''
  
= Важные ссылки =
+
= Цели и задачи =
* [https://forms.gle/sxzPFnxnUADH22du6 Регистрация на курс]
+
* Собирать данные для своих задач, выстраивать правильную валидацию
* [https://t.me/+3rtAqGyQs-0xMDky Чат курса]
+
* Размечать данные с помощью краудсорсинговых платформ
* [https://docs.google.com/spreadsheets/d/e/2PACX-1vR_9oagb-IJAK0HBVzuf91Rbb-Dn7kBsg29-0L-6bmWqmsaMJ9qZ-o2r5MRt81oSngZzRDcNpt9kZ0t/pubhtml?gid=1413543485&single=true Таблица с оценками]
+
* Использовать большие языковые модели для разметки
* [https://forms.gle/yHeLgyXP3gJHiRG36 Форма на продление дедлайнов]
+
* Выстраивать разметку данных в реальных в ml-системах
  
== Материалы ==
 
* [https://drive.google.com/drive/folders/1lWAkkIUU2gPJugQqlAfx3r42S_ht8pZc?usp=sharing Видеозаписи занятий]
 
* К каждой новой лекции по этой ссылке будут появляться слайды с новым материалом. [https://docs.google.com/presentation/d/1gtvlrsw0HAHzEs_mK0bB2hejR0vweG9F99jXqT8QdjQ/edit#slide=id.g1f10e076f13_0_0 Презентация курса]
 
* [https://github.com/tna0y/course-networks Репозиторий курса]
 
  
= Критерии получения оценки =
+
= Важные ссылки =
 +
* https://www.oreilly.com/library/view/training-data-for/9781492094517/
 +
https://www.manning.com/books/human-in-the-loop-machine-learning
 +
* Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning.    * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
  
Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1.
 
  
*3 балла - Теоретический зачет в конце семестра;
+
= Материалы =
*3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса);
+
* https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре
*5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса);
+
* https://tasks.yandex.ru/ сервис Яндекс.Задания
*3 балла - Реализация атаки на протокол по выбору.
 
  
== Домашние задания ==
+
* Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ.
+
* https://kontur.ru/talk
 +
* https://stepik.org/
  
ДЗ 1
 
Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом.
 
Дедлайн - зачетная неделя.
 
  
ДЗ 2
+
= Критерии получения оценки =
Реализация reliable протокола поверх UDP.  
+
* Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.  
Дедлайн
+
* Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
 
+
* Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.
Темы лабораторных работ
 
*STP+LAG
 
*RIP
 
*OSPF+BGP
 
*Security
 
*VLAN+QinQ
 

Текущая версия на 13:22, 3 декабря 2024

В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.

Общие сведения

  • Семестр: 2 (весенний) первый курс
  • Форма контроля:
  • Занятия начались с .......25
  • [https:// Продление дедлайнов]
  • Количество аудиторных часов: 24 часа
  • Лекции: 12 часов
  • Семинары: 12 час.
  • Самостоятельная работа: 30 часов
  • Подготовка к экзамену: 6 часов
  • Всего часов: 60, всего зач. ед.: 2
  • Количество контрольных работ, заданий: 4

Команда курса

  • ______, руководитель курса, лекции, семинарист
  • ______, семинарист
  • ______, семинарист

План курса

  • 1.Введение в курс.
  • Важность данных в машинном обучении.
  • Данные для разметки: оценка качества данных и методы кросс-валидации.
  • 2.Разметка с помощью краудсорсинга
  • Краудсорсинг и аутсорсинг.
  • Примеры краудсорсинговых платформ.
  • Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
  • Этап работы над проектом по разметке.
  • Разметка сложных проектов, задачи ранжирования и матчинга.
  • Упрощение и оптимизация разметки с помощью эвристик.
  • 3. Разметка с помощью больших языковых моделей
  • Введение.
  • Генерация данных для задач обработки естественного языка.
  • Генерация данных в задачах компьютерного зрения.
  • Кросс-валидация данных, работа с временными рядами
  • 4. Жизненный цикл данных в ML-системах
  • Жизненный цикл данных, концепция human-in-the-loop.
  • Хранение данных и признаков, концепция feature store.
  • Инструменты для версионирования данных.
  • 5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)

Цели и задачи

  • Собирать данные для своих задач, выстраивать правильную валидацию
  • Размечать данные с помощью краудсорсинговых платформ
  • Использовать большие языковые модели для разметки
  • Выстраивать разметку данных в реальных в ml-системах


Важные ссылки

https://www.manning.com/books/human-in-the-loop-machine-learning


Материалы

  • Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
  • https://kontur.ru/talk
  • https://stepik.org/


Критерии получения оценки

  • Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
  • Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
  • Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.