В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.

Общие сведения

Семестр: 2 (весенний) первый курс
Форма контроля:
Занятия начались с 18 февраля 2025
[https:// Продление дедлайнов]

Команда курса

______, руководитель курса, лекции, семинарист
______, семинарист
______, семинарист

План курса

1.Введение в курс.
Важность данных в машинном обучении.
Данные для разметки: оценка качества данных и методы кросс-валидации.
2.Разметка с помощью краудсорсинга
Краудсорсинг и аутсорсинг.
Примеры краудсорсинговых платформ.
Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
Этап работы над проектом по разметке.
Разметка сложных проектов, задачи ранжирования и матчинга.
Упрощение и оптимизация разметки с помощью эвристик.
3. Разметка с помощью больших языковых моделей
Введение.
Генерация данных для задач обработки естественного языка.
Генерация данных в задачах компьютерного зрения.
Кросс-валидация данных, работа с временными рядами
4. Жизненный цикл данных в ML-системах
Жизненный цикл данных, концепция human-in-the-loop.
Хранение данных и признаков, концепция feature store.
Инструменты для версионирования данных.
5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)

Цели и задачи

Собирать данные для своих задач, выстраивать правильную валидацию
Размечать данные с помощью краудсорсинговых платформ
Использовать большие языковые модели для разметки
Выстраивать разметку данных в реальных в ml-системах

Важные ссылки

https://www.oreilly.com/library/view/training-data-for/9781492094517/

https://www.manning.com/books/human-in-the-loop-machine-learning

Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705

Материалы

https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре
https://tasks.yandex.ru/ сервис Яндекс.Задания

Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
https://kontur.ru/talk
https://stepik.org/

Критерии получения оценки

Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.

Сбор, подготовка и разметка данных весна 2025

Содержание

Общие сведения

Команда курса

План курса

Цели и задачи

Важные ссылки

Материалы

Критерии получения оценки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты