Сбор, подготовка и разметка данных весна 2025
В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
Содержание
Общие сведения
- Семестр: 2 (весенний) первый курс
- Форма контроля:
- Занятия начались с .......25
- [https:// Продление дедлайнов]
Команда курса
- ______, руководитель курса, лекции, семинарист
- ______, семинарист
- ______, семинарист
План курса
- Количество аудиторных часов: 24 часа
- Лекции: 12 часов
- Семинары: 12 час.
- Самостоятельная работа: 30 часов
- Подготовка к экзамену: 6 часов
- Всего часов: 60, всего зач. ед.: 2
- Количество контрольных работ, заданий: 4
Цели и задачи
- Собирать данные для своих задач, выстраивать правильную валидацию
- Размечать данные с помощью краудсорсинговых платформ
- Использовать большие языковые модели для разметки
- Выстраивать разметку данных в реальных в ml-системах
Важные ссылки
Материалы
- Видеозаписи занятий
- К каждой новой лекции по этой ссылке будут появляться слайды с новым материалом. Презентация курса
- Репозиторий курса
Критерии получения оценки
Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1.
- 3 балла - Теоретический зачет в конце семестра;
- 3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса);
- 5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса);
- 3 балла - Реализация атаки на протокол по выбору.
Домашние задания
На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ.
ДЗ 1 Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом. Дедлайн - зачетная неделя.
ДЗ 2 Реализация reliable протокола поверх UDP. Дедлайн
Темы лабораторных работ
- STP+LAG
- RIP
- OSPF+BGP
- Security
- VLAN+QinQ