← К программе курса 7 семестр

Машинное обучение для математиков

ML для математиков: обобщающая способность моделей, строгие метрики, оптимизация и интерпретация результатов.

Фокус
Строгая теория + вычислительная реализация
Формат
Лекции, практикум, контрольные задачи
Цель
Уровень: самостоятельное решение сложных профильных задач

1. Карта курса

  • Формализация задачи обучения и loss-функции.
  • Линейные, ядровые и ансамблевые методы.
  • Регуляризация, кросс-валидация, контроль переобучения.
  • Интерпретация ошибок и оценка надежности.
Рекомендуемый режим освоения: теория \(\rightarrow\) 2-3 задачи вручную \(\rightarrow\) вычислительная проверка \(\rightarrow\) короткий конспект ошибок.

1.1. Лекционный маршрут и выходные компетенции

  • Недели 1-3: постановка задачи, выбор метрики и чистый протокол разделения данных.
  • Недели 4-6: базовые модели и регуляризация.
  • Недели 7-10: оптимизация, кросс-валидация, контроль переобучения.
  • Недели 11-14: интерпретация, устойчивость к сдвигу распределения и репродуцируемость.

2. Теоретический каркас

ML-блок ориентирован на строгую постановку задачи обучения, выбор адекватной функции потерь, устойчивую процедуру оптимизации и корректную оценку качества. Для математиков критично понимать границы применимости модели.

Ядро ML-пайплайна: данные → признаки/репрезентация → модель → loss → оптимизация → валидация → интерпретация ошибок.
Практическое правило: качество на train не равно качеству на new data. Контроль обобщения обязателен на каждом этапе.

2.1. Строгий минимум раздела

  • Четко разделять целевую метрику предметной задачи и внутреннюю функцию потерь.
  • Поддерживать чистое разделение train/validation/test без утечек на всех этапах.
  • Контролировать bias-variance баланс через регуляризацию, сложность модели и объем данных.
  • Для итогового вывода давать доверительный интервал и анализ устойчивости к сдвигу данных.
Требование уровня "отлично": уметь не только выполнить вычисление, но и письменно обосновать корректность каждого шага с явным указанием условий применимости.

3. Ключевые формулы и зависимости

КонцептФормула / интерпретация
Эмпирический риск\(\hat R(f)=\frac1n\sum_{i=1}^n L(y_i,f(x_i))\)
Регуляризация\(\hat R(f)+\lambda\Omega(f)\)
Шаг оптимизации\(\theta_{k+1}=\theta_k-\eta\nabla_\theta J(\theta_k)\)
Обобщающая ошибка\(R(f)-\hat R(f)\)
Шаг градиента\(\theta_{k+1}=\theta_k-\eta\nabla J(\theta_k)\)

4. Методика решения типовых задач

  1. Строить baseline перед сложными моделями.
  2. Разделять train/validation/test без утечек информации.
  3. Контролировать дисбаланс классов и смещение выборки.
  4. Использовать регуляризацию и раннюю остановку.
  5. Сравнивать модели по нескольким метрикам, а не одной.
  6. Анализировать ошибки по подгруппам и сценариям использования.

4.1. Формат эталонного решения

  1. Сформировать baseline и протокол сравнения до сложных моделей.
  2. Выбрать loss и метрики в соответствии с целью прикладной задачи.
  3. Провести валидацию без утечек признаков и target leakage.
  4. Оценить калибровку вероятностей и стабильность модели на подгруппах.
  5. Зафиксировать конфигурацию эксперимента для полного воспроизведения.
Оформление полного решения: постановка \rightarrow выбор метода \rightarrow вычисления \rightarrow контроль ошибки \rightarrow интерпретация результата.

5. Разбор прикладного кейса

Кейс: выбор модели под ограничение интерпретируемости

Сравниваются логистическая регрессия и ансамбль деревьев по AUC/F1, затем добавляется критерий интерпретируемости и стабильности признаков, что меняет итоговый выбор модели для прикладной задачи.

Проверка результата: после вычислений обязательно фиксировать 1) численную стабильность, 2) чувствительность к параметрам, 3) интерпретацию в терминах исходной предметной задачи.

5.1. Углубление кейса

Глубокий ML-разбор включает не только метрики качества, но и диагностику структуры ошибок: какие группы объектов модель систематически путает и почему. Такой анализ повышает переносимость модели и снижает риск скрытого смещения.

  • Построить error breakdown по классам/сегментам.
  • Проверить калибровку вероятностных предсказаний.
  • Сравнить интерпретируемую и сильную black-box модель на одинаковом протоколе.

6. Типичные ошибки

  • Data leakage между train и test.
  • Слепой выбор метрики без связи с бизнес/научной задачей.
  • Переобучение из-за избыточной сложности модели.
  • Игнорирование доверительных интервалов качества.
  • Отсутствие воспроизводимости эксперимента.

6.1. Диагностика ошибок

  • Не подбирать гиперпараметры на test-выборке.
  • Проверять дисбаланс классов и не ограничиваться одной метрикой качества.
  • Контролировать drift признаков при переносе модели в новую среду.
  • Документировать ограничения интерпретации и безопасную область применения.

7. Практикум (3 уровня)

Уровень A: базовая техника

  • Решить 12-15 стандартных задач с полной записью решения.
  • Для каждой задачи указать примененный метод и почему он корректен.
  • Проверить 3 задачи альтернативным методом.

Уровень B: продвинутая отработка

  • Решить 8 задач с параметрами и анализом вырожденных случаев.
  • Оценить погрешность/устойчивость результата на вариациях входа.
  • Подготовить короткий отчёт с выводами (1-2 страницы).

Уровень C: мини-проект

  • Реализовать вычислительный прототип по теме курса.
  • Сравнить минимум 2 метода и обосновать выбор лучшего.
  • Подготовить репродуцируемый notebook с графиками и выводами.

8. Экзаменационный минимум и литература

Минимум к экзамену

  • Все базовые определения курса в строгой формулировке.
  • Ключевые теоремы/критерии и условия их применимости.
  • Алгоритм решения типовой задачи каждого раздела.
  • Умение объяснить источник ошибки и устойчивость метода.
  • Интерпретация результата в прикладном контексте.

Рекомендуемая литература

  • Bishop C. PRML; Hastie et al. ESL
  • Материалы семинаров и практикумов кафедры.
  • Набор задач повышенной сложности (подготовка к экзамену).

Тренажер билетов

  1. Сформулируйте задачу обучения, укажите loss и объясните связь с целевой метрикой.
  2. Разберите механизм переобучения и перечислите рабочие методы его контроля.
  3. Сравните модели по качеству, интерпретируемости и вычислительной стоимости.
  4. Покажите, как организовать воспроизводимый эксперимент и проверку обобщающей способности.

План повторения перед экзаменом

Эффективная подготовка строится циклом "теория \rightarrow задачи \rightarrow разбор ошибок". Для каждого раздела фиксируйте: формулировку ключевых определений, один эталонный алгоритм решения и типовую ловушку, которая чаще всего приводит к неверному ответу.

  • Сделать короткий one-page summary по каждому разделу с формулами и условиями применимости.
  • Решить минимум 2 задачи базового и 1 задачу повышенного уровня по каждому крупному блоку.
  • Провести устный прогон билета: формулировка теоремы, схема доказательства, прикладная интерпретация.