Сбор, подготовка и разметка данных весна 2025 — различия между версиями

Материал из Public ATP Wiki
Перейти к: навигация, поиск
(Новая страница: «Test»)
 
Строка 1: Строка 1:
Test
+
В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.
 +
 
 +
= Общие сведения =
 +
* Семестр: 2 (весенний) первый курс
 +
* Форма контроля:
 +
* Занятия начались с .......25
 +
* [https:// Продление дедлайнов]
 +
 
 +
= Команда курса =
 +
* Максим Кочуков, руководитель курса, лекции, семинарист
 +
* Хайрулин Асхат, семинарист
 +
* Егоров Владислав, семинарист
 +
 
 +
= План курса =
 +
* Количество аудиторных часов: 24 часа
 +
* Лекции: 12 часов
 +
* Семинары: 12 час.
 +
* Самостоятельная работа: 30 часов
 +
* Подготовка к экзамену: 6 часов
 +
* Всего часов: 60, всего зач. ед.: 2
 +
* Количество контрольных работ, заданий: 4
 +
 
 +
 
 +
 
 +
* [https://docs.google.com/spreadsheets/d/e/2PACX-1vR_9oagb-IJAK0HBVzuf91Rbb-Dn7kBsg29-0L-6bmWqmsaMJ9qZ-o2r5MRt81oSngZzRDcNpt9kZ0t/pubhtml?gid=749127730&single=true План курса]
 +
 
 +
= Важные ссылки =
 +
* [https://forms.gle/sxzPFnxnUADH22du6 Регистрация на курс]
 +
* [https://t.me/+3rtAqGyQs-0xMDky Чат курса]
 +
* [https://docs.google.com/spreadsheets/d/e/2PACX-1vR_9oagb-IJAK0HBVzuf91Rbb-Dn7kBsg29-0L-6bmWqmsaMJ9qZ-o2r5MRt81oSngZzRDcNpt9kZ0t/pubhtml?gid=1413543485&single=true Таблица с оценками]
 +
* [https://forms.gle/yHeLgyXP3gJHiRG36 Форма на продление дедлайнов]
 +
 
 +
== Материалы ==
 +
* [https://drive.google.com/drive/folders/1lWAkkIUU2gPJugQqlAfx3r42S_ht8pZc?usp=sharing Видеозаписи занятий]
 +
* К каждой новой лекции по этой ссылке будут появляться слайды с новым материалом. [https://docs.google.com/presentation/d/1gtvlrsw0HAHzEs_mK0bB2hejR0vweG9F99jXqT8QdjQ/edit#slide=id.g1f10e076f13_0_0 Презентация курса]
 +
* [https://github.com/tna0y/course-networks Репозиторий курса]
 +
 
 +
= Критерии получения оценки =
 +
 
 +
Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1.
 +
 
 +
*3 балла - Теоретический зачет в конце семестра;
 +
*3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса);
 +
*5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса);
 +
*3 балла - Реализация атаки на протокол по выбору.
 +
 
 +
== Домашние задания ==
 +
На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ.
 +
 
 +
ДЗ 1
 +
Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом.
 +
Дедлайн - зачетная неделя.
 +
 
 +
ДЗ 2
 +
Реализация reliable протокола поверх UDP.
 +
Дедлайн
 +
 
 +
Темы лабораторных работ
 +
*STP+LAG
 +
*RIP
 +
*OSPF+BGP
 +
*Security
 +
*VLAN+QinQ

Версия 12:57, 3 декабря 2024

В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.

Общие сведения

  • Семестр: 2 (весенний) первый курс
  • Форма контроля:
  • Занятия начались с .......25
  • [https:// Продление дедлайнов]

Команда курса

  • Максим Кочуков, руководитель курса, лекции, семинарист
  • Хайрулин Асхат, семинарист
  • Егоров Владислав, семинарист

План курса

  • Количество аудиторных часов: 24 часа
  • Лекции: 12 часов
  • Семинары: 12 час.
  • Самостоятельная работа: 30 часов
  • Подготовка к экзамену: 6 часов
  • Всего часов: 60, всего зач. ед.: 2
  • Количество контрольных работ, заданий: 4


Важные ссылки

Материалы

Критерии получения оценки

Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1.

  • 3 балла - Теоретический зачет в конце семестра;
  • 3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса);
  • 5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса);
  • 3 балла - Реализация атаки на протокол по выбору.

Домашние задания

На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ.

ДЗ 1 Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом. Дедлайн - зачетная неделя.

ДЗ 2 Реализация reliable протокола поверх UDP. Дедлайн

Темы лабораторных работ

  • STP+LAG
  • RIP
  • OSPF+BGP
  • Security
  • VLAN+QinQ