Сбор, подготовка и разметка данных весна 2025
В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
Содержание
Общие сведения
- Семестр: 2 (весенний) первый курс
- Форма контроля:
- Занятия начались с .......25
- [https:// Продление дедлайнов]
- Количество аудиторных часов: 24 часа
- Лекции: 12 часов
- Семинары: 12 час.
- Самостоятельная работа: 30 часов
- Подготовка к экзамену: 6 часов
- Всего часов: 60, всего зач. ед.: 2
- Количество контрольных работ, заданий: 4
Команда курса
- ______, руководитель курса, лекции, семинарист
- ______, семинарист
- ______, семинарист
План курса
- 1.Введение в курс.
- Важность данных в машинном обучении.
- Данные для разметки: оценка качества данных и методы кросс-валидации.
- 2.Разметка с помощью краудсорсинга
- Краудсорсинг и аутсорсинг.
- Примеры краудсорсинговых платформ.
- Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
- Этап работы над проектом по разметке.
- Разметка сложных проектов, задачи ранжирования и матчинга.
- Упрощение и оптимизация разметки с помощью эвристик.
- 3. Разметка с помощью больших языковых моделей
- Введение.
- Генерация данных для задач обработки естественного языка.
- Генерация данных в задачах компьютерного зрения.
- Кросс-валидация данных, работа с временными рядами
- 4. Жизненный цикл данных в ML-системах
- Жизненный цикл данных, концепция human-in-the-loop.
- Хранение данных и признаков, концепция feature store.
- Инструменты для версионирования данных.
- 5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)
Цели и задачи
- Собирать данные для своих задач, выстраивать правильную валидацию
- Размечать данные с помощью краудсорсинговых платформ
- Использовать большие языковые модели для разметки
- Выстраивать разметку данных в реальных в ml-системах
Важные ссылки
https://www.manning.com/books/human-in-the-loop-machine-learning
- Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
Материалы
- https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре
- https://tasks.yandex.ru/ сервис Яндекс.Задания
- Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
- https://kontur.ru/talk
- https://stepik.org/
Критерии получения оценки
- Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
- Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
- Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.