Сбор, подготовка и разметка данных весна 2025 — различия между версиями

Материал из Public ATP Wiki
Перейти к: навигация, поиск
Строка 8: Строка 8:
  
 
= Команда курса =
 
= Команда курса =
* Максим Кочуков, руководитель курса, лекции, семинарист  
+
* ______, руководитель курса, лекции, семинарист  
* Хайрулин Асхат, семинарист  
+
* ______, семинарист  
* Егоров Владислав, семинарист
+
* ______, семинарист
  
 
= План курса =
 
= План курса =
Строка 21: Строка 21:
 
* Количество контрольных работ, заданий: 4
 
* Количество контрольных работ, заданий: 4
  
 +
= Цели и задачи =
 +
* Собирать данные для своих задач, выстраивать правильную валидацию
 +
* Размечать данные с помощью краудсорсинговых платформ
 +
* Использовать большие языковые модели для разметки
 +
* Выстраивать разметку данных в реальных в ml-системах
  
  

Версия 13:01, 3 декабря 2024

В курсе рассматриваются методы и инструменты сбора данных для решения задач машинного обучения. Прежде всего рассматриваются способы сбора качественной разметки данных, покрываются такие темы как: использование краудсорсинг платформ, общедоступных данных из сети интернет, а также разметка с использованием больших языковых моделей. Покрываются различные домены данных: тексты, картинки, табличные данные. Отдельные лекции посвящены обсуждению валидации данных и рассмотрению пайплайнов разметки в реальных ML системах. Также рассматриваются инструменты для хранения и версионирования датасетов. После прослушивания курса студенты научатся самостоятельно находить данные для своих задач, выстраивать процессы разметки и валидации данных уменьшая при этом трудозатраты.

Общие сведения

  • Семестр: 2 (весенний) первый курс
  • Форма контроля:
  • Занятия начались с .......25
  • [https:// Продление дедлайнов]

Команда курса

  • ______, руководитель курса, лекции, семинарист
  • ______, семинарист
  • ______, семинарист

План курса

  • Количество аудиторных часов: 24 часа
  • Лекции: 12 часов
  • Семинары: 12 час.
  • Самостоятельная работа: 30 часов
  • Подготовка к экзамену: 6 часов
  • Всего часов: 60, всего зач. ед.: 2
  • Количество контрольных работ, заданий: 4

Цели и задачи

  • Собирать данные для своих задач, выстраивать правильную валидацию
  • Размечать данные с помощью краудсорсинговых платформ
  • Использовать большие языковые модели для разметки
  • Выстраивать разметку данных в реальных в ml-системах


Важные ссылки

Материалы

Критерии получения оценки

Максимум 14 баллов. Баллы переводятся в десятичную систему 1 к 1.

  • 3 балла - Теоретический зачет в конце семестра;
  • 3 балла - Проектирование и реализация своего reliable протокола поверх UDP (1 часть курса);
  • 5 баллов - Лабораторные работы в GNS3 по проектированию сетей (2 часть курса);
  • 3 балла - Реализация атаки на протокол по выбору.

Домашние задания

На курсе планируется 2 больших дз - реализация протокола, атака, 5 лабораторных работ.

ДЗ 1 Написание кода - демо любой атаки на протокол. Тему необходимо согласовать с семинаристом. Дедлайн - зачетная неделя.

ДЗ 2 Реализация reliable протокола поверх UDP. Дедлайн

Темы лабораторных работ

  • STP+LAG
  • RIP
  • OSPF+BGP
  • Security
  • VLAN+QinQ