Сбор, подготовка и разметка данных весна 2025

Материал из Public ATP Wiki
Версия от 13:22, 3 декабря 2024; Irinaiv (обсуждение | вклад)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.

Общие сведения

  • Семестр: 2 (весенний) первый курс
  • Форма контроля:
  • Занятия начались с .......25
  • [https:// Продление дедлайнов]
  • Количество аудиторных часов: 24 часа
  • Лекции: 12 часов
  • Семинары: 12 час.
  • Самостоятельная работа: 30 часов
  • Подготовка к экзамену: 6 часов
  • Всего часов: 60, всего зач. ед.: 2
  • Количество контрольных работ, заданий: 4

Команда курса

  • ______, руководитель курса, лекции, семинарист
  • ______, семинарист
  • ______, семинарист

План курса

  • 1.Введение в курс.
  • Важность данных в машинном обучении.
  • Данные для разметки: оценка качества данных и методы кросс-валидации.
  • 2.Разметка с помощью краудсорсинга
  • Краудсорсинг и аутсорсинг.
  • Примеры краудсорсинговых платформ.
  • Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
  • Этап работы над проектом по разметке.
  • Разметка сложных проектов, задачи ранжирования и матчинга.
  • Упрощение и оптимизация разметки с помощью эвристик.
  • 3. Разметка с помощью больших языковых моделей
  • Введение.
  • Генерация данных для задач обработки естественного языка.
  • Генерация данных в задачах компьютерного зрения.
  • Кросс-валидация данных, работа с временными рядами
  • 4. Жизненный цикл данных в ML-системах
  • Жизненный цикл данных, концепция human-in-the-loop.
  • Хранение данных и признаков, концепция feature store.
  • Инструменты для версионирования данных.
  • 5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)

Цели и задачи

  • Собирать данные для своих задач, выстраивать правильную валидацию
  • Размечать данные с помощью краудсорсинговых платформ
  • Использовать большие языковые модели для разметки
  • Выстраивать разметку данных в реальных в ml-системах


Важные ссылки

https://www.manning.com/books/human-in-the-loop-machine-learning


Материалы

  • Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
  • https://kontur.ru/talk
  • https://stepik.org/


Критерии получения оценки

  • Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
  • Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
  • Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.