Текущая версия на 20:16, 6 февраля 2025

В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.

Содержание

[убрать]

1 Общие сведения
2 Команда курса
3 План курса
4 Цели и задачи
5 Важные ссылки
6 Материалы
7 Критерии получения оценки

Общие сведения

Семестр: 2 (весенний) первый курс
Форма контроля:
Занятия начались с 18 февраля 2025
[https:// Продление дедлайнов]

Команда курса

______, руководитель курса, лекции, семинарист
______, семинарист
______, семинарист

План курса

1.Введение в курс.
Важность данных в машинном обучении.
Данные для разметки: оценка качества данных и методы кросс-валидации.
2.Разметка с помощью краудсорсинга
Краудсорсинг и аутсорсинг.
Примеры краудсорсинговых платформ.
Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
Этап работы над проектом по разметке.
Разметка сложных проектов, задачи ранжирования и матчинга.
Упрощение и оптимизация разметки с помощью эвристик.
3. Разметка с помощью больших языковых моделей
Введение.
Генерация данных для задач обработки естественного языка.
Генерация данных в задачах компьютерного зрения.
Кросс-валидация данных, работа с временными рядами
4. Жизненный цикл данных в ML-системах
Жизненный цикл данных, концепция human-in-the-loop.
Хранение данных и признаков, концепция feature store.
Инструменты для версионирования данных.
5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)

Цели и задачи

Собирать данные для своих задач, выстраивать правильную валидацию
Размечать данные с помощью краудсорсинговых платформ
Использовать большие языковые модели для разметки
Выстраивать разметку данных в реальных в ml-системах

Важные ссылки

https://www.oreilly.com/library/view/training-data-for/9781492094517/

https://www.manning.com/books/human-in-the-loop-machine-learning

Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705

Материалы

https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре
https://tasks.yandex.ru/ сервис Яндекс.Задания

Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
https://kontur.ru/talk
https://stepik.org/

Критерии получения оценки

Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.

@@ Строка 1: / Строка 1: @@
-Test
+В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
+= Общие сведения =
+* Семестр: 2 (весенний) первый курс
+* Форма контроля:
+* Занятия начались с 18 февраля 2025
+* [https:// Продление дедлайнов]
+= Команда курса =
+* ______, руководитель курса, лекции, семинарист
+* ______, семинарист
+* ______, семинарист
+= План курса =
+* '''1.Введение в курс.'''
+* Важность данных в машинном обучении.
+* Данные для разметки: оценка качества данных и методы кросс-валидации.
+* '''2.Разметка с помощью краудсорсинга'''
+* Краудсорсинг и аутсорсинг.
+* Примеры краудсорсинговых платформ.
+* Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
+* Этап работы над проектом по разметке.
+* Разметка сложных проектов, задачи ранжирования и матчинга.
+* Упрощение и оптимизация разметки с помощью эвристик.
+* '''3. Разметка с помощью больших языковых моделей'''
+* Введение.
+* Генерация данных для задач обработки естественного языка.
+* Генерация данных в задачах компьютерного зрения.
+* Кросс-валидация данных, работа с временными рядами
+* '''4. Жизненный цикл данных в ML-системах'''
+* Жизненный цикл данных, концепция human-in-the-loop.
+* Хранение данных и признаков, концепция feature store.
+* Инструменты для версионирования данных.
+* '''5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)'''
+= Цели и задачи =
+* Собирать данные для своих задач, выстраивать правильную валидацию
+* Размечать данные с помощью краудсорсинговых платформ
+* Использовать большие языковые модели для разметки
+* Выстраивать разметку данных в реальных в ml-системах
+= Важные ссылки =
+* https://www.oreilly.com/library/view/training-data-for/9781492094517/
+https://www.manning.com/books/human-in-the-loop-machine-learning
+* Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning.     * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
+= Материалы =
+* https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре
+* https://tasks.yandex.ru/ сервис Яндекс.Задания
+* Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
+* https://kontur.ru/talk
+* https://stepik.org/
+= Критерии получения оценки =
+* Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
+* Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
+* Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.

Сбор, подготовка и разметка данных весна 2025 — различия между версиями

Текущая версия на 20:16, 6 февраля 2025

Содержание

Общие сведения

Команда курса

План курса

Цели и задачи

Важные ссылки

Материалы

Критерии получения оценки

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты