Сбор, подготовка и разметка данных весна 2025 — различия между версиями

Материал из Public ATP Wiki
Перейти к: навигация, поиск
(Новая страница: «Test»)
 
 
(не показаны 2 промежуточные версии этого же участника)
Строка 1: Строка 1:
Test
+
В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
 +
 
 +
= Общие сведения =
 +
* Семестр: 2 (весенний) первый курс
 +
* Форма контроля:
 +
* Занятия начались с .......25
 +
* [https:// Продление дедлайнов]
 +
 
 +
* Количество аудиторных часов: 24 часа
 +
* Лекции: 12 часов
 +
* Семинары: 12 час.
 +
* Самостоятельная работа: 30 часов
 +
* Подготовка к экзамену: 6 часов
 +
* Всего часов: 60, всего зач. ед.: 2
 +
* Количество контрольных работ, заданий: 4
 +
 
 +
= Команда курса =
 +
* ______, руководитель курса, лекции, семинарист
 +
* ______, семинарист
 +
* ______, семинарист
 +
 
 +
= План курса =
 +
 
 +
* '''1.Введение в курс.'''
 +
* Важность данных в машинном обучении.
 +
* Данные для разметки: оценка качества данных и методы кросс-валидации.
 +
* '''2.Разметка с помощью краудсорсинга'''
 +
* Краудсорсинг и аутсорсинг.
 +
* Примеры краудсорсинговых платформ.
 +
* Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
 +
* Этап работы над проектом по разметке.
 +
* Разметка сложных проектов, задачи ранжирования и матчинга.
 +
* Упрощение и оптимизация разметки с помощью эвристик.
 +
* '''3. Разметка с помощью больших языковых моделей'''
 +
* Введение.
 +
* Генерация данных для задач обработки естественного языка.
 +
* Генерация данных в задачах компьютерного зрения.
 +
* Кросс-валидация данных, работа с временными рядами
 +
* '''4. Жизненный цикл данных в ML-системах'''
 +
* Жизненный цикл данных, концепция human-in-the-loop.
 +
* Хранение данных и признаков, концепция feature store.
 +
* Инструменты для версионирования данных.
 +
* '''5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)'''
 +
 
 +
= Цели и задачи =
 +
* Собирать данные для своих задач, выстраивать правильную валидацию
 +
* Размечать данные с помощью краудсорсинговых платформ
 +
* Использовать большие языковые модели для разметки
 +
* Выстраивать разметку данных в реальных в ml-системах
 +
 
 +
 
 +
= Важные ссылки =
 +
* https://www.oreilly.com/library/view/training-data-for/9781492094517/
 +
https://www.manning.com/books/human-in-the-loop-machine-learning
 +
* Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning.    * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
 +
 
 +
 
 +
= Материалы =
 +
* https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре
 +
* https://tasks.yandex.ru/ сервис Яндекс.Задания
 +
 
 +
* Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
 +
* https://kontur.ru/talk
 +
* https://stepik.org/
 +
 
 +
 
 +
= Критерии получения оценки =
 +
* Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
 +
* Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
 +
* Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.

Текущая версия на 13:22, 3 декабря 2024

В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.

Общие сведения

  • Семестр: 2 (весенний) первый курс
  • Форма контроля:
  • Занятия начались с .......25
  • [https:// Продление дедлайнов]
  • Количество аудиторных часов: 24 часа
  • Лекции: 12 часов
  • Семинары: 12 час.
  • Самостоятельная работа: 30 часов
  • Подготовка к экзамену: 6 часов
  • Всего часов: 60, всего зач. ед.: 2
  • Количество контрольных работ, заданий: 4

Команда курса

  • ______, руководитель курса, лекции, семинарист
  • ______, семинарист
  • ______, семинарист

План курса

  • 1.Введение в курс.
  • Важность данных в машинном обучении.
  • Данные для разметки: оценка качества данных и методы кросс-валидации.
  • 2.Разметка с помощью краудсорсинга
  • Краудсорсинг и аутсорсинг.
  • Примеры краудсорсинговых платформ.
  • Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
  • Этап работы над проектом по разметке.
  • Разметка сложных проектов, задачи ранжирования и матчинга.
  • Упрощение и оптимизация разметки с помощью эвристик.
  • 3. Разметка с помощью больших языковых моделей
  • Введение.
  • Генерация данных для задач обработки естественного языка.
  • Генерация данных в задачах компьютерного зрения.
  • Кросс-валидация данных, работа с временными рядами
  • 4. Жизненный цикл данных в ML-системах
  • Жизненный цикл данных, концепция human-in-the-loop.
  • Хранение данных и признаков, концепция feature store.
  • Инструменты для версионирования данных.
  • 5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)

Цели и задачи

  • Собирать данные для своих задач, выстраивать правильную валидацию
  • Размечать данные с помощью краудсорсинговых платформ
  • Использовать большие языковые модели для разметки
  • Выстраивать разметку данных в реальных в ml-системах


Важные ссылки

https://www.manning.com/books/human-in-the-loop-machine-learning


Материалы

  • Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
  • https://kontur.ru/talk
  • https://stepik.org/


Критерии получения оценки

  • Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
  • Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
  • Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.