Сбор, подготовка и разметка данных весна 2025 — различия между версиями
Irinaiv (обсуждение | вклад) |
Irinaiv (обсуждение | вклад) |
||
(не показана 1 промежуточная версия этого же участника) | |||
Строка 7: | Строка 7: | ||
* [https:// Продление дедлайнов] | * [https:// Продление дедлайнов] | ||
− | |||
− | |||
− | |||
− | |||
− | |||
− | |||
* Количество аудиторных часов: 24 часа | * Количество аудиторных часов: 24 часа | ||
* Лекции: 12 часов | * Лекции: 12 часов | ||
Строка 21: | Строка 15: | ||
* Количество контрольных работ, заданий: 4 | * Количество контрольных работ, заданий: 4 | ||
+ | = Команда курса = | ||
+ | * ______, руководитель курса, лекции, семинарист | ||
+ | * ______, семинарист | ||
+ | * ______, семинарист | ||
+ | = План курса = | ||
− | * | + | * '''1.Введение в курс.''' |
+ | * Важность данных в машинном обучении. | ||
+ | * Данные для разметки: оценка качества данных и методы кросс-валидации. | ||
+ | * '''2.Разметка с помощью краудсорсинга''' | ||
+ | * Краудсорсинг и аутсорсинг. | ||
+ | * Примеры краудсорсинговых платформ. | ||
+ | * Декомпозиция задач, контроль качества разметки, методы агрегации ответов. | ||
+ | * Этап работы над проектом по разметке. | ||
+ | * Разметка сложных проектов, задачи ранжирования и матчинга. | ||
+ | * Упрощение и оптимизация разметки с помощью эвристик. | ||
+ | * '''3. Разметка с помощью больших языковых моделей''' | ||
+ | * Введение. | ||
+ | * Генерация данных для задач обработки естественного языка. | ||
+ | * Генерация данных в задачах компьютерного зрения. | ||
+ | * Кросс-валидация данных, работа с временными рядами | ||
+ | * '''4. Жизненный цикл данных в ML-системах''' | ||
+ | * Жизненный цикл данных, концепция human-in-the-loop. | ||
+ | * Хранение данных и признаков, концепция feature store. | ||
+ | * Инструменты для версионирования данных. | ||
+ | * '''5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)''' | ||
− | = | + | = Цели и задачи = |
− | * | + | * Собирать данные для своих задач, выстраивать правильную валидацию |
− | * | + | * Размечать данные с помощью краудсорсинговых платформ |
− | * | + | * Использовать большие языковые модели для разметки |
− | * | + | * Выстраивать разметку данных в реальных в ml-системах |
− | |||
− | |||
− | |||
− | |||
− | = | + | = Важные ссылки = |
+ | * https://www.oreilly.com/library/view/training-data-for/9781492094517/ | ||
+ | https://www.manning.com/books/human-in-the-loop-machine-learning | ||
+ | * Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705 | ||
− | |||
− | + | = Материалы = | |
− | * | + | * https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре |
− | * | + | * https://tasks.yandex.ru/ сервис Яндекс.Задания |
− | |||
− | + | * Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости) | |
− | + | * https://kontur.ru/talk | |
+ | * https://stepik.org/ | ||
− | |||
− | |||
− | |||
− | + | = Критерии получения оценки = | |
− | + | * Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик. | |
− | + | * Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания. | |
− | + | * Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно. | |
− | |||
− | * | ||
− | * | ||
− | |||
− | |||
− |
Текущая версия на 13:22, 3 декабря 2024
В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
Содержание
Общие сведения
- Семестр: 2 (весенний) первый курс
- Форма контроля:
- Занятия начались с .......25
- [https:// Продление дедлайнов]
- Количество аудиторных часов: 24 часа
- Лекции: 12 часов
- Семинары: 12 час.
- Самостоятельная работа: 30 часов
- Подготовка к экзамену: 6 часов
- Всего часов: 60, всего зач. ед.: 2
- Количество контрольных работ, заданий: 4
Команда курса
- ______, руководитель курса, лекции, семинарист
- ______, семинарист
- ______, семинарист
План курса
- 1.Введение в курс.
- Важность данных в машинном обучении.
- Данные для разметки: оценка качества данных и методы кросс-валидации.
- 2.Разметка с помощью краудсорсинга
- Краудсорсинг и аутсорсинг.
- Примеры краудсорсинговых платформ.
- Декомпозиция задач, контроль качества разметки, методы агрегации ответов.
- Этап работы над проектом по разметке.
- Разметка сложных проектов, задачи ранжирования и матчинга.
- Упрощение и оптимизация разметки с помощью эвристик.
- 3. Разметка с помощью больших языковых моделей
- Введение.
- Генерация данных для задач обработки естественного языка.
- Генерация данных в задачах компьютерного зрения.
- Кросс-валидация данных, работа с временными рядами
- 4. Жизненный цикл данных в ML-системах
- Жизненный цикл данных, концепция human-in-the-loop.
- Хранение данных и признаков, концепция feature store.
- Инструменты для версионирования данных.
- 5.Описание материально-технической базы, необходимой для осуществления образовательного процесса по дисциплине (модулю)
Цели и задачи
- Собирать данные для своих задач, выстраивать правильную валидацию
- Размечать данные с помощью краудсорсинговых платформ
- Использовать большие языковые модели для разметки
- Выстраивать разметку данных в реальных в ml-системах
Важные ссылки
https://www.manning.com/books/human-in-the-loop-machine-learning
- Дополнительная литература: Christopher M. Bishop. (n.d.). Australian National University Pattern Recognition and Machine Learning. * Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.EBA0C705
Материалы
- https://habr.com/ru/articles/678524/ статья о разметке данных на Хабре
- https://tasks.yandex.ru/ сервис Яндекс.Задания
- Перечень информационных технологий, используемых при осуществлении образовательного процесса по дисциплине (модулю), включая перечень необходимого программного обеспечения и информационных справочных систем (при необходимости)
- https://kontur.ru/talk
- https://stepik.org/
Критерии получения оценки
- Тесты на знание теории. После каждого тематического блока студенты выполняют тестирование в форме закрытого теста (с вариантами ответа). Например, тест на тему “Сбор данных” на платформе Степик.
- Проекты. Каждый тематический блок сопровождается самостоятельной работой студента, выполняемой в формате проекта. Например, решение задачи разметки с использованием краудсорсинга на примере инструмента Яндекс. Задания.
- Кейс-стади. Решение и разбор реальных практических задач по работе с данными и реализации разметки. Например, переформулировка бизнес-задач на язык ML и обратно.