Математическая статистика
Статистический курс: оценивание параметров, доверительные интервалы, гипотезы и регрессионная интерпретация данных.
1. Карта курса
- Точечные оценки и их свойства.
- Доверительные интервалы для основных параметров.
- Проверка статистических гипотез.
- Базовая линейная регрессия и диагностика модели.
1.1. Лекционный маршрут и выходные компетенции
- Недели 1-3: аксиоматика, условные вероятности, формулы полной вероятности и Байеса.
- Недели 4-6: распределения, моменты, оценка хвостов и редких событий.
- Недели 7-10: предельные теоремы и статистические следствия на конечных выборках.
- Недели 11-14: прикладные вероятностные модели риска, надежности и очередей.
2. Теоретический каркас
Курсы вероятностного блока требуют точной работы с распределениями, моментами, условными конструкциями и предельными переходами. Главная инженерная цель — переход от стохастической модели к проверяемому численному выводу.
2.1. Строгий минимум раздела
- В каждой задаче явно задавать пространство вероятностей, сигма-алгебру и случайные величины.
- Перед применением предельных теорем проверять существование нужных моментов и независимость.
- Разделять теоретические гарантии и статистические приближения на конечной выборке.
- В ответе указывать интерпретацию результата через риск, вероятность редкого события и доверительный уровень.
3. Ключевые формулы и зависимости
| Концепт | Формула / интерпретация |
|---|---|
| Математическое ожидание | \(\mathbb E[X]\) |
| Дисперсия | \(\operatorname{Var}(X)=\mathbb E[X^2]-\mathbb E[X]^2\) |
| Условное ожидание | \(\mathbb E[X\mid\mathcal F]\) |
| Доверительный уровень | \(P(\theta\in I(X))=1-\alpha\) |
| Выборочные характеристики | \(\bar X=\frac1n\sum X_i,\quad S^2=\frac1{n-1}\sum (X_i-\bar X)^2\) |
| ДИ для среднего (норм.) | \(\bar X\pm t_{\alpha/2}\frac{S}{\sqrt n}\) |
| Критерий \(\chi^2\) | \(\sum\frac{(O_i-E_i)^2}{E_i}\) |
4. Методика решения типовых задач
- Четко задавать вероятностное пространство и предположения модели.
- Выбирать распределение по механизму генерации данных, а не по привычке.
- Разделять аналитическую оценку и вычислительный эксперимент.
- Проверять корректность асимптотических приближений на конечной выборке.
- Использовать диагностические графики и количественные критерии.
- Интерпретировать вывод через риск, доверие и стоимость ошибки.
4.1. Формат эталонного решения
- Определить случайные величины и параметры модели до вычислений.
- Проверить предпосылки: независимость, существование моментов, тип распределения.
- Построить аналитическую оценку и отдельно сделать численную верификацию.
- Добавить интервал неопределенности и чувствительность к параметрам.
- Сформулировать вывод через вероятность ошибки и практический риск.
5. Разбор прикладного кейса
Кейс: сравнение двух методик измерения
Формулируется гипотеза о равенстве средних, выбирается t-критерий, строится доверительный интервал разности и делается интерпретация эффекта с учетом мощности теста.
5.1. Углубление кейса
Продвинутый разбор строится вокруг выбора правильной вероятностной модели. Один и тот же набор данных можно описать разными распределениями, но только модель с проверенными предпосылками дает корректную оценку риска и надежности.
- Проверить чувствительность вывода к хвостам распределения.
- Сравнить точную формулу и асимптотическое приближение.
- Показать, как меняется вывод при изменении уровня доверия \\(1-\\alpha\\).
6. Типичные ошибки
- Смешение независимости и некоррелированности.
- Применение ЦПТ без контроля хвостов/моментов.
- Неправильная трактовка p-value как вероятности гипотезы.
- Игнорирование множественных проверок гипотез.
- Отсутствие проверки калибровки модели на hold-out данных.
6.1. Диагностика ошибок
- Не путать вероятность гипотезы с p-value статистического критерия.
- Не переносить асимптотический вывод на малую выборку без проверки.
- Проверять корректность обработки зависимых наблюдений.
- Явно указывать, на каком уровне доверия делается окончательный вывод.
7. Практикум (3 уровня)
Уровень A: базовая техника
- Решить 12-15 стандартных задач с полной записью решения.
- Для каждой задачи указать примененный метод и почему он корректен.
- Проверить 3 задачи альтернативным методом.
Уровень B: продвинутая отработка
- Решить 8 задач с параметрами и анализом вырожденных случаев.
- Оценить погрешность/устойчивость результата на вариациях входа.
- Подготовить короткий отчёт с выводами (1-2 страницы).
Уровень C: мини-проект
- Реализовать вычислительный прототип по теме курса.
- Сравнить минимум 2 метода и обосновать выбор лучшего.
- Подготовить репродуцируемый notebook с графиками и выводами.
8. Экзаменационный минимум и литература
Минимум к экзамену
- Все базовые определения курса в строгой формулировке.
- Ключевые теоремы/критерии и условия их применимости.
- Алгоритм решения типовой задачи каждого раздела.
- Умение объяснить источник ошибки и устойчивость метода.
- Интерпретация результата в прикладном контексте.
Рекомендуемая литература
- Боровков А.А. Математическая статистика; Casella, Berger. Statistical Inference
- Материалы семинаров и практикумов кафедры.
- Набор задач повышенной сложности (подготовка к экзамену).
Тренажер билетов
- Объясните различие между независимостью и некоррелированностью на примере.
- Докажите (или строго выведите) используемую формулу оценивания и её условия применимости.
- Разберите задачу на байесовское обновление с редким событием и интерпретируйте результат.
- Сравните две оценки параметра по смещению, дисперсии и среднеквадратичной ошибке.
План повторения перед экзаменом
Эффективная подготовка строится циклом "теория \rightarrow задачи \rightarrow разбор ошибок". Для каждого раздела фиксируйте: формулировку ключевых определений, один эталонный алгоритм решения и типовую ловушку, которая чаще всего приводит к неверному ответу.
- Сделать короткий one-page summary по каждому разделу с формулами и условиями применимости.
- Решить минимум 2 задачи базового и 1 задачу повышенного уровня по каждому крупному блоку.
- Провести устный прогон билета: формулировка теоремы, схема доказательства, прикладная интерпретация.