Сразу о границах. Корректная статистическая обработка повышает методологическое качество работы, но не управляет решением диссертационного совета и не гарантирует исхода защиты. Помощь, о которой имеет смысл говорить честно, — это методология, корректный выбор и проверка методов, а также воспроизводимый код и таблицы, которые можно перепроверить. Любые обещания «защиты без замечаний» — маркетинговый шум, а не научная работа. Этот же принцип лежит в основе нашей независимой проверки расчётов и моделей.
Шаг 1. От гипотезы к данным и дизайну
Статистика начинается до сбора данных. Из исследовательской гипотезы вытекает дизайн, а из дизайна — допустимый набор методов. Полезно зафиксировать три вещи заранее.
- Тип переменных и шкалы измерения. Номинальные, порядковые, интервальные и относительные шкалы задают, какие операции корректны. Среднее по порядковой шкале (например, баллам Лайкерта) интерпретируют осторожно; для номинальных признаков работают частоты и таблицы сопряжённости, а не средние.
- Структура наблюдений. Независимые группы, связанные (повторные) измерения, иерархия (студенты внутри групп, пациенты внутри клиник) — всё это меняет выбор теста. Связанные измерения требуют парных процедур, иерархия — смешанных моделей.
- Выборка и мощность. Размер выборки лучше планировать заранее через анализ мощности (power analysis)7: фиксируют уровень значимости α (часто 0,05), желаемую мощность (часто 0,8), ожидаемый размер эффекта — и получают необходимое n. Это снижает риск как ложноотрицательных выводов на малой выборке, так и избыточного сбора данных. Важно: расчёт мощности делают до исследования; «постериорная мощность», вычисленная по уже полученному p-значению, методологически некорректна и не несёт новой информации.
Шаг 2. Чистка и разведочный анализ
До любого теста данные нужно увидеть. Разведочный анализ (EDA) экономит больше времени, чем любой удачный выбор критерия, потому что выявляет проблемы, которые тест молча «проглотит» и выдаст красивое, но неверное число.
- Пропуски. Сначала описывают механизм пропусков (полностью случайные, случайные, неслучайные), потому что от него зависит допустимая стратегия. Простое удаление строк смещает выводы, если пропуски неслучайны; в таких случаях рассматривают импутацию, но честно отмечают её в ограничениях.
- Выбросы. Их не удаляют автоматически. Сначала проверяют, не ошибка ли это ввода; затем оценивают влияние на результат и при необходимости приводят анализ с выбросами и без них, чтобы показать устойчивость вывода.
- Распределения. Гистограммы, ящики с усами и QQ-графики показывают форму, асимметрию и тяжесть хвостов раньше, чем формальные тесты. Часто именно график, а не p-значение, подсказывает, параметрический путь уместен или непараметрический.
Шаг 3. Выбор теста под задачу и тип данных
Тест выбирают по трём осям: что сравниваем (средние, распределения, частоты, связь), сколько групп и независимы ли наблюдения. Внутри этого выбора проходит развилка параметрические против непараметрических методов. Параметрические тесты (t-тест, дисперсионный анализ ANOVA)1 опираются на допущения о распределении и при их выполнении мощнее. Непараметрические (Манна–Уитни3, Краскела–Уоллиса4) работают с порядковыми данными и устойчивее к нарушениям нормальности, но сравнивают скорее распределения/ранги, чем строго средние.
Прежде чем применять параметрический тест, проверяют его предпосылки. Два ключевых условия для t-теста и ANOVA:
- Нормальность. Чаще всего проверяют нормальность остатков (или значений внутри групп) тестом Шапиро–Уилка6. На больших выборках этот тест чувствителен к мельчайшим отклонениям, поэтому его читают вместе с QQ-графиком, а не как механический фильтр.
- Гомоскедастичность — равенство дисперсий между группами. Проверяют тестом Левена или Бартлетта. При нарушении переходят к версии без допущения равных дисперсий (поправка Уэлча2 для t-теста и ANOVA).
Если предпосылки нарушены и устранить это преобразованием не удаётся — это не тупик, а сигнал перейти к непараметрическому аналогу или к модели с подходящими допущениями. Соответствие задач и тестов сведено в таблицу ниже.
Задача → тип данных → тест → предпосылки
| Задача | Тип данных | Подходящий тест | Ключевые предпосылки |
|---|---|---|---|
| Сравнить средние двух независимых групп | Количественные | Независимый t-тест (Уэлча при неравных дисперсиях) | Нормальность в группах, независимость наблюдений |
| Сравнить два связанных измерения | Количественные, парные | Парный t-тест | Нормальность разностей |
| Сравнить две группы при нарушении нормальности | Порядковые / количественные | Критерий Манна–Уитни | Независимость; сопоставимая форма распределений |
| Сравнить средние трёх и более групп | Количественные | Однофакторный ANOVA + апостериорные сравнения | Нормальность, гомоскедастичность, независимость |
| То же при нарушении предпосылок ANOVA | Порядковые / количественные | Критерий Краскела–Уоллиса | Независимость; сопоставимая форма распределений |
| Проверить связь двух категориальных признаков | Номинальные / частоты | Критерий хи-квадрат5 (точный Фишера на малых частотах) | Независимость, достаточные ожидаемые частоты |
| Оценить связь двух количественных переменных | Количественные | Корреляция Пирсона (Спирмена при нелинейности/рангах) | Линейность и нормальность для Пирсона |
Шаг 4. Регрессия и моделирование, когда это нужно
Сравнение групп отвечает на вопрос «различаются ли», но диссертация часто требует большего: оценить вклад нескольких факторов одновременно, удержать постоянными ковариаты, описать форму зависимости. Здесь подключают регрессию. Линейная регрессия подходит для количественного отклика, логистическая — для бинарного исхода, модели со смешанными эффектами — для иерархических и повторных измерений.
У регрессии свои предпосылки, которые проверяют по остаткам: линейность, независимость и нормальность остатков, постоянство их дисперсии. Отдельно проверяют мультиколлинеарность предикторов (например, через VIF) — она не смещает прогноз, но делает коэффициенты неустойчивыми и затрудняет их интерпретацию. Для экономических и финансовых данных действует ещё ряд специфических требований (стационарность, автокорреляция), которые мы разбираем отдельно — этому будет посвящена статья об эконометрике в диссертации.
Шаг 5. Множественные сравнения и поправки
Это одна из самых частых тихих ошибок диссертаций. Если в работе проверяется много гипотез на уровне значимости α = 0,05, вероятность получить хотя бы один ложный значимый результат быстро растёт с числом тестов. При 20 независимых проверках ожидаемое число ложных «открытий» по чистой случайности — около одного, даже если реального эффекта нет нигде.
Поэтому при множественных сравнениях вводят поправку. Два базовых подхода:
- Поправка Бонферрони8 контролирует вероятность хотя бы одной ошибки первого рода (FWER): порог значимости делят на число тестов. Метод строгий и консервативный, при большом числе сравнений сильно теряет мощность.
- Контроль FDR (процедура Бенджамини–Хохберга9) ограничивает не вероятность любой ошибки, а ожидаемую долю ложных открытий среди отвергнутых гипотез. Это более мягкий и обычно более уместный выбор там, где проверяется много гипотез (например, при скрининге множества признаков).
Какой контроль уместен — зависит от цены ошибки в конкретном исследовании; но молчаливое игнорирование множественности — это методологический дефект, который рецензенту легко заметить.
Шаг 6. Интерпретация: эффект, а не только p-value
P-значение отвечает на узкий вопрос: насколько данные совместимы с нулевой гипотезой. Оно не измеряет величину эффекта и не равно вероятности того, что гипотеза верна10. На большой выборке статистически значимым становится и практически ничтожное различие. Поэтому корректный вывод опирается на три вещи вместе.
- Размер эффекта.11 Стандартизованные меры делают результат сопоставимым: d Коэна7 для разницы средних, η² (эта-квадрат) для доли объяснённой дисперсии в ANOVA, коэффициент корреляции или отношение шансов в своих контекстах. Именно размер эффекта говорит, велико ли различие содержательно.
- Доверительные интервалы. Интервал показывает не только точечную оценку, но и её неопределённость, и часто информативнее одиночного p. Узкий интервал вокруг малого эффекта — это другой вывод, чем широкий интервал, захватывающий и ноль, и крупный эффект.
- Содержательная интерпретация. Статистическая значимость и практическая значимость — разные вещи. Вывод формулируют в терминах изучаемой области, а не только в терминах «значимо / незначимо».
Шаг 7. Воспроизводимость и оформление таблиц
Статистическая часть тем сильнее, чем легче её перепроверить. Практический минимум: анализ выполнен скриптом (а не вручную в интерфейсе), зафиксирована версия окружения и зерно генератора случайных чисел, а каждое число в тексте прослеживается до строки кода. Это позволяет и автору, и рецензенту воспроизвести результат.
В таблицах принято приводить не голые p-значения, а описательные статистики (среднее и разброс или медиану и квартили в зависимости от распределения), размер выборки по группам, значение критерия с числом степеней свободы, p и размер эффекта с доверительным интервалом. Такой формат делает результат самодостаточным и проверяемым — ровно то, чего ждёт строгая рецензия.
Воспроизводимый код: предпосылки и выбор теста
Ниже исполнимый пример на Python12: данные генерируются кодом, проверяются предпосылки и по их результату выбирается параметрический или непараметрический тест. Числа в примере синтетические и условные — на реальных данных результаты будут другими, а ветка выбора может оказаться иной.
# Синтетический пример: данные генерируются для воспроизводимости.
# Числа условны и не отражают реальных результатов исследования.
import numpy as np
from scipy import stats
rng = np.random.default_rng(42)
# Две независимые группы (условный пример: контроль и воздействие).
group_a = rng.normal(100, 15, 40)
group_b = rng.normal(108, 15, 40)
# 1. Проверка предпосылок параметрического теста.
# Нормальность в каждой группе (Шапиро-Уилка, H0: нормальность).
sw_a = stats.shapiro(group_a).pvalue
sw_b = stats.shapiro(group_b).pvalue
# Равенство дисперсий (Левен, H0: дисперсии равны).
levene_p = stats.levene(group_a, group_b).pvalue
normal = sw_a > 0.05 and sw_b > 0.05
equal_var = levene_p > 0.05
# 2. Выбор теста по результату проверки предпосылок.
if normal:
# equal_var=False -> поправка Уэлча при неравных дисперсиях.
stat, p = stats.ttest_ind(group_a, group_b, equal_var=equal_var)
test = "t-тест (Уэлча)" if not equal_var else "t-тест"
else:
# Нормальность нарушена -> непараметрический аналог.
stat, p = stats.mannwhitneyu(group_a, group_b, alternative="two-sided")
test = "критерий Манна-Уитни"
# 3. Размер эффекта (d Коэна по объединённому стандартному отклонению).
def cohens_d(x, y):
nx, ny = len(x), len(y)
pooled = np.sqrt(((nx - 1) * x.var(ddof=1) + (ny - 1) * y.var(ddof=1)) / (nx + ny - 2))
return (x.mean() - y.mean()) / pooled
print("тест:", test)
print("p-value:", round(p, 4))
print("d Коэна:", round(cohens_d(group_a, group_b), 3))
Тот же приём масштабируется на три и более групп: вместо t-теста и Манна–Уитни
ветвление ведёт к ANOVA или критерию Краскела–Уоллиса, а при множестве сравнений
добавляется поправка. Для регрессии и моделей с предпосылками по остаткам удобнее
statsmodels, дающий готовую сводку коэффициентов,
доверительных интервалов и диагностических тестов.
Что именно можно обещать честно
Корректная методология — необходимое, но не достаточное условие качества работы, и она не контролирует решение совета. Поэтому формат честной помощи ограничен областью, где специалист действительно отвечает за результат: постановка анализа под дизайн исследования, корректный выбор и проверка методов, воспроизводимый код и понятные таблицы, а также независимая проверка ваших расчётов и модели до того, как они попадут в текст. Этим занимается направление эконометрики и статистики для исследований в StatGazer. Никаких гарантий «защиты без замечаний» — только методологическая прочность, которую можно перепроверить.
Практический порядок работы
- Связать гипотезу с дизайном: тип переменных и шкалы, структура наблюдений, мощность и объём выборки — заранее.
- Провести чистку и разведочный анализ: пропуски, выбросы, форма распределений.
- Выбрать тест под задачу и тип данных; проверить его предпосылки (Шапиро–Уилк, гомоскедастичность).
- Где нужна оценка вклада факторов — перейти к регрессии и проверить её остатки.
- Учесть множественность сравнений (Бонферрони или FDR) — выбрать контроль осознанно.
- Отчитаться эффектом и доверительным интервалом, а не одним p-значением.
- Сделать анализ воспроизводимым и оформить таблицы так, чтобы их можно было перепроверить.
Если нужна такая статистическая часть — с корректным выбором методов, проверкой предпосылок, воспроизводимым кодом и таблицами под требования рецензии — это формат, в котором мы работаем в StatGazer.
Источники
Первоисточники методов, упомянутых в статье. Номера-сноски в тексте ссылаются на этот список.
- Student [Gosset, W. S.] (1908). The Probable Error of a Mean. Biometrika, 6(1), 1–25. doi:10.1093/biomet/6.1.1. — t-распределение и t-тест Стьюдента.
- Welch, B. L. (1947). The Generalization of ‘Student’s’ Problem when Several Different Population Variances are Involved. Biometrika, 34(1–2), 28–35. doi:10.1093/biomet/34.1-2.28. — поправка Уэлча при неравных дисперсиях.
- Mann, H. B., & Whitney, D. R. (1947). On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. The Annals of Mathematical Statistics, 18(1), 50–60. doi:10.1214/aoms/1177730491. — U-критерий Манна–Уитни (непараметрика).
- Kruskal, W. H., & Wallis, W. A. (1952). Use of Ranks in One-Criterion Variance Analysis. Journal of the American Statistical Association, 47(260), 583–621. doi:10.1080/01621459.1952.10483441. — критерий Краскела–Уоллиса.
- Pearson, K. (1900). On the criterion that a given system of deviations… is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine, Ser. 5, 50(302), 157–175. doi:10.1080/14786440009463897. — критерий согласия хи-квадрат.
- Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3–4), 591–611. doi:10.1093/biomet/52.3-4.591. — тест Шапиро–Уилка на нормальность.
- Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Routledge. doi:10.4324/9780203771587. — анализ мощности и размер эффекта (d Коэна).
- Dunn, O. J. (1961). Multiple Comparisons Among Means. Journal of the American Statistical Association, 56(293), 52–64. doi:10.1080/01621459.1961.10482090. — поправка Бонферрони (контроль FWER).
- Benjamini, Y., & Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B, 57(1), 289–300. doi:10.1111/j.2517-6161.1995.tb02031.x. — контроль доли ложных открытий (FDR).
- Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133. doi:10.1080/00031305.2016.1154108. — официальная позиция ASA по интерпретации p-значений.
- Sullivan, G. M., & Feinn, R. (2012). Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education, 4(3), 279–282. doi:10.4300/JGME-D-12-00156.1. — зачем нужен размер эффекта, а не только p.
- Virtanen, P., Gommers, R., Oliphant, T. E., et al. (2020). SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, 17(3), 261–272. doi:10.1038/s41592-019-0686-2. — SciPy — статистический инструментарий из примера кода.