Сбор, подготовка и разметка данных весна 2025 — различия между версиями
(Новая страница: «Test») |
Irinaiv (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
− | + | В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты. | |
+ | |||
+ | = Общие сведения = | ||
+ | * Семестр: 2 (весенний) первый курс | ||
+ | * Форма контроля: | ||
+ | * Занятия начались с .......25 | ||
+ | * [https:// Продление дедлайнов] | ||
+ | |||
+ | = Команда курса = | ||
+ | * Максим Кочуков, руководитель курса, лекции, семинарист | ||
+ | * Хайрулин Асхат, семинарист | ||
+ | * Егоров Владислав, семинарист | ||
+ | |||
+ | = План курса = | ||
+ | * Количество аудиторных часов: 24 часа | ||
+ | * Лекции: 12 часов | ||
+ | * Семинары: 12 час. | ||
+ | * Самостоятельная работа: 30 часов | ||
+ | * Подготовка к экзамену: 6 часов | ||
+ | * Всего часов: 60, всего зач. ед.: 2 | ||
+ | * Количество контрольных работ, заданий: 4 | ||
+ | |||
+ | |||
+ | |||
+ | * [https://docs.google.com/spreadsheets/d/e/2PACX-1vR_9oagb-IJAK0HBVzuf91Rbb-Dn7kBsg29-0L-6bmWqmsaMJ9qZ-o2r5MRt81oSngZzRDcNpt9kZ0t/pubhtml?gid=749127730&single=true План курса] | ||
+ | |||
+ | = Важные ссылки = | ||
+ | * [https://forms.gle/sxzPFnxnUADH22du6 Регистрация на курс] | ||
+ | * [https://t.me/+3rtAqGyQs-0xMDky Чат курса] | ||
+ | * [https://docs.google.com/spreadsheets/d/e/2PACX-1vR_9oagb-IJAK0HBVzuf91Rbb-Dn7kBsg29-0L-6bmWqmsaMJ9qZ-o2r5MRt81oSngZzRDcNpt9kZ0t/pubhtml?gid=1413543485&single=true Таблица с оценками] | ||
+ | * [https://forms.gle/yHeLgyXP3gJHiRG36 Форма на продление дедлайнов] | ||
+ | |||
+ | == Материалы == | ||
+ | * [https://drive.google.com/drive/folders/1lWAkkIUU2gPJugQqlAfx3r42S_ht8pZc?usp=sharing Видеозаписи занятий] | ||
+ | * К каждой новой лекции по этой ссылке будут появляться слайды с новым материалом. [https://docs.google.com/presentation/d/1gtvlrsw0HAHzEs_mK0bB2hejR0vweG9F99jXqT8QdjQ/edit#slide=id.g1f10e076f13_0_0 Презентация курса] | ||
+ | * [https://github.com/tna0y/course-networks Репозиторий курса] | ||
+ | |||
+ | = Критерии получения оценки = | ||
+ | |||
+ | Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1. | ||
+ | |||
+ | *3 балла - Теоретический зачет в конце семестра; | ||
+ | *3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса); | ||
+ | *5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса); | ||
+ | *3 балла - Реализация атаки на протокол по выбору. | ||
+ | |||
+ | == Домашние задания == | ||
+ | На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ. | ||
+ | |||
+ | ДЗ 1 | ||
+ | Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом. | ||
+ | Дедлайн - зачетная неделя. | ||
+ | |||
+ | ДЗ 2 | ||
+ | Реализация reliable протокола поверх UDP. | ||
+ | Дедлайн | ||
+ | |||
+ | Темы лабораторных работ | ||
+ | *STP+LAG | ||
+ | *RIP | ||
+ | *OSPF+BGP | ||
+ | *Security | ||
+ | *VLAN+QinQ |
Версия 12:57, 3 декабря 2024
В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
Содержание
Общие сведения
- Семестр: 2 (весенний) первый курс
- Форма контроля:
- Занятия начались с .......25
- [https:// Продление дедлайнов]
Команда курса
- Максим Кочуков, руководитель курса, лекции, семинарист
- Хайрулин Асхат, семинарист
- Егоров Владислав, семинарист
План курса
- Количество аудиторных часов: 24 часа
- Лекции: 12 часов
- Семинары: 12 час.
- Самостоятельная работа: 30 часов
- Подготовка к экзамену: 6 часов
- Всего часов: 60, всего зач. ед.: 2
- Количество контрольных работ, заданий: 4
Важные ссылки
Материалы
- Видеозаписи занятий
- К каждой новой лекции по этой ссылке будут появляться слайды с новым материалом. Презентация курса
- Репозиторий курса
Критерии получения оценки
Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1.
- 3 балла - Теоретический зачет в конце семестра;
- 3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса);
- 5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса);
- 3 балла - Реализация атаки на протокол по выбору.
Домашние задания
На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ.
ДЗ 1 Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом. Дедлайн - зачетная неделя.
ДЗ 2 Реализация reliable протокола поверх UDP. Дедлайн
Темы лабораторных работ
- STP+LAG
- RIP
- OSPF+BGP
- Security
- VLAN+QinQ