Сбор, подготовка и разметка данных весна 2025 — различия между версиями
Irinaiv (обсуждение | вклад) |
Irinaiv (обсуждение | вклад) |
||
Строка 8: | Строка 8: | ||
= Команда курса = | = Команда курса = | ||
− | * | + | * ______, руководитель курса, лекции, семинарист |
− | * | + | * ______, семинарист |
− | * | + | * ______, семинарист |
= План курса = | = План курса = | ||
Строка 21: | Строка 21: | ||
* Количество контрольных работ, заданий: 4 | * Количество контрольных работ, заданий: 4 | ||
+ | = Цели и задачи = | ||
+ | * Собирать данные для своих задач, выстраивать правильную валидацию | ||
+ | * Размечать данные с помощью краудсорсинговых платформ | ||
+ | * Использовать большие языковые модели для разметки | ||
+ | * Выстраивать разметку данных в реальных в ml-системах | ||
Версия 13:01, 3 декабря 2024
В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
Содержание
Общие сведения
- Семестр: 2 (весенний) первый курс
- Форма контроля:
- Занятия начались с .......25
- [https:// Продление дедлайнов]
Команда курса
- ______, руководитель курса, лекции, семинарист
- ______, семинарист
- ______, семинарист
План курса
- Количество аудиторных часов: 24 часа
- Лекции: 12 часов
- Семинары: 12 час.
- Самостоятельная работа: 30 часов
- Подготовка к экзамену: 6 часов
- Всего часов: 60, всего зач. ед.: 2
- Количество контрольных работ, заданий: 4
Цели и задачи
- Собирать данные для своих задач, выстраивать правильную валидацию
- Размечать данные с помощью краудсорсинговых платформ
- Использовать большие языковые модели для разметки
- Выстраивать разметку данных в реальных в ml-системах
Важные ссылки
Материалы
- Видеозаписи занятий
- К каждой новой лекции по этой ссылке будут появляться слайды с новым материалом. Презентация курса
- Репозиторий курса
Критерии получения оценки
Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1.
- 3 балла - Теоретический зачет в конце семестра;
- 3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса);
- 5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса);
- 3 балла - Реализация атаки на протокол по выбору.
Домашние задания
На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ.
ДЗ 1 Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом. Дедлайн - зачетная неделя.
ДЗ 2 Реализация reliable протокола поверх UDP. Дедлайн
Темы лабораторных работ
- STP+LAG
- RIP
- OSPF+BGP
- Security
- VLAN+QinQ