Статистическая обработка данных для диссертации: пошаговый план

Сразу о границах. Корректная статистическая обработка повышает методологическое качество работы, но не управляет решением диссертационного совета и не гарантирует исхода защиты. Помощь, о которой имеет смысл говорить честно, — это методология, корректный выбор и проверка методов, а также воспроизводимый код и таблицы, которые можно перепроверить. Любые обещания «защиты без замечаний» — маркетинговый шум, а не научная работа. Этот же принцип лежит в основе нашей независимой проверки расчётов и моделей.

Главное: порядок шагов важнее набора тестов. Сначала — дизайн и тип данных, затем чистка и разведочный анализ, и только потом выбор теста под задачу с проверкой его предпосылок, поправками на множественность и оценкой размера эффекта.

Шаг 1. От гипотезы к данным и дизайну

Статистика начинается до сбора данных. Из исследовательской гипотезы вытекает дизайн, а из дизайна — допустимый набор методов. Полезно зафиксировать три вещи заранее.

Тип переменных и шкалы измерения. Номинальные, порядковые, интервальные и относительные шкалы задают, какие операции корректны. Среднее по порядковой шкале (например, баллам Лайкерта) интерпретируют осторожно; для номинальных признаков работают частоты и таблицы сопряжённости, а не средние.
Структура наблюдений. Независимые группы, связанные (повторные) измерения, иерархия (студенты внутри групп, пациенты внутри клиник) — всё это меняет выбор теста. Связанные измерения требуют парных процедур, иерархия — смешанных моделей.
Выборка и мощность. Размер выборки лучше планировать заранее через анализ мощности (power analysis)⁷: фиксируют уровень значимости α (часто 0,05), желаемую мощность (часто 0,8), ожидаемый размер эффекта — и получают необходимое n. Это снижает риск как ложноотрицательных выводов на малой выборке, так и избыточного сбора данных. Важно: расчёт мощности делают до исследования; «постериорная мощность», вычисленная по уже полученному p-значению, методологически некорректна и не несёт новой информации.

Рис. 1. Анализ мощности. Мощность двухвыборочного t-теста (α = 0.05) по размеру выборки на группу для трёх размеров эффекта. Большой эффект (d = 0.8) достигает мощности 0.8 уже при n ≈ 25 на группу, средний (0.5) — при n ≈ 64, а малый (0.2) требует около 393 — поэтому объём выборки планируют заранее. Расчёт по нормальному приближению; для наглядности.

Шаг 2. Чистка и разведочный анализ

До любого теста данные нужно увидеть. Разведочный анализ (EDA) экономит больше времени, чем любой удачный выбор критерия, потому что выявляет проблемы, которые тест молча «проглотит» и выдаст красивое, но неверное число.

Пропуски. Сначала описывают механизм пропусков (полностью случайные, случайные, неслучайные), потому что от него зависит допустимая стратегия. Простое удаление строк смещает выводы, если пропуски неслучайны; в таких случаях рассматривают импутацию, но честно отмечают её в ограничениях.
Выбросы. Их не удаляют автоматически. Сначала проверяют, не ошибка ли это ввода; затем оценивают влияние на результат и при необходимости приводят анализ с выбросами и без них, чтобы показать устойчивость вывода.
Распределения. Гистограммы, ящики с усами и QQ-графики показывают форму, асимметрию и тяжесть хвостов раньше, чем формальные тесты. Часто именно график, а не p-значение, подсказывает, параметрический путь уместен или непараметрический.

Шаг 3. Выбор теста под задачу и тип данных

Тест выбирают по трём осям: что сравниваем (средние, распределения, частоты, связь), сколько групп и независимы ли наблюдения. Внутри этого выбора проходит развилка параметрические против непараметрических методов. Параметрические тесты (t-тест, дисперсионный анализ ANOVA)¹ опираются на допущения о распределении и при их выполнении мощнее. Непараметрические (Манна–Уитни³, Краскела–Уоллиса⁴) работают с порядковыми данными и устойчивее к нарушениям нормальности, но сравнивают скорее распределения/ранги, чем строго средние.

Прежде чем применять параметрический тест, проверяют его предпосылки. Два ключевых условия для t-теста и ANOVA:

Нормальность. Чаще всего проверяют нормальность остатков (или значений внутри групп) тестом Шапиро–Уилка⁶. На больших выборках этот тест чувствителен к мельчайшим отклонениям, поэтому его читают вместе с QQ-графиком, а не как механический фильтр.
Гомоскедастичность — равенство дисперсий между группами. Проверяют тестом Левена или Бартлетта. При нарушении переходят к версии без допущения равных дисперсий (поправка Уэлча² для t-теста и ANOVA).

Если предпосылки нарушены и устранить это преобразованием не удаётся — это не тупик, а сигнал перейти к непараметрическому аналогу или к модели с подходящими допущениями. Соответствие задач и тестов сведено в таблицу ниже.

Задача → тип данных → тест → предпосылки

Задача	Тип данных	Подходящий тест	Ключевые предпосылки
Сравнить средние двух независимых групп	Количественные	Независимый t-тест (Уэлча при неравных дисперсиях)	Нормальность в группах, независимость наблюдений
Сравнить два связанных измерения	Количественные, парные	Парный t-тест	Нормальность разностей
Сравнить две группы при нарушении нормальности	Порядковые / количественные	Критерий Манна–Уитни	Независимость; сопоставимая форма распределений
Сравнить средние трёх и более групп	Количественные	Однофакторный ANOVA + апостериорные сравнения	Нормальность, гомоскедастичность, независимость
То же при нарушении предпосылок ANOVA	Порядковые / количественные	Критерий Краскела–Уоллиса	Независимость; сопоставимая форма распределений
Проверить связь двух категориальных признаков	Номинальные / частоты	Критерий хи-квадрат⁵ (точный Фишера на малых частотах)	Независимость, достаточные ожидаемые частоты
Оценить связь двух количественных переменных	Количественные	Корреляция Пирсона (Спирмена при нелинейности/рангах)	Линейность и нормальность для Пирсона

Шаг 4. Регрессия и моделирование, когда это нужно

Сравнение групп отвечает на вопрос «различаются ли», но диссертация часто требует большего: оценить вклад нескольких факторов одновременно, удержать постоянными ковариаты, описать форму зависимости. Здесь подключают регрессию. Линейная регрессия подходит для количественного отклика, логистическая — для бинарного исхода, модели со смешанными эффектами — для иерархических и повторных измерений.

У регрессии свои предпосылки, которые проверяют по остаткам: линейность, независимость и нормальность остатков, постоянство их дисперсии. Отдельно проверяют мультиколлинеарность предикторов (например, через VIF) — она не смещает прогноз, но делает коэффициенты неустойчивыми и затрудняет их интерпретацию. Для экономических и финансовых данных действует ещё ряд специфических требований (стационарность, автокорреляция), которые мы разбираем отдельно — этому будет посвящена статья об эконометрике в диссертации.

Шаг 5. Множественные сравнения и поправки

Это одна из самых частых тихих ошибок диссертаций. Если в работе проверяется много гипотез на уровне значимости α = 0,05, вероятность получить хотя бы один ложный значимый результат быстро растёт с числом тестов. При 20 независимых проверках ожидаемое число ложных «открытий» по чистой случайности — около одного, даже если реального эффекта нет нигде.

Рис. 2. Множественные сравнения. Вероятность получить хотя бы один ложный значимый результат растёт с числом независимых тестов: при 20 проверках на уровне α = 5% она уже ≈ 64%. Поправка Бонферрони удерживает эту вероятность около 5% ценой мощности. Точная формула 1−(1−α)ᵐ; для наглядности.

Поэтому при множественных сравнениях вводят поправку. Два базовых подхода:

Поправка Бонферрони⁸ контролирует вероятность хотя бы одной ошибки первого рода (FWER): порог значимости делят на число тестов. Метод строгий и консервативный, при большом числе сравнений сильно теряет мощность.
Контроль FDR (процедура Бенджамини–Хохберга⁹) ограничивает не вероятность любой ошибки, а ожидаемую долю ложных открытий среди отвергнутых гипотез. Это более мягкий и обычно более уместный выбор там, где проверяется много гипотез (например, при скрининге множества признаков).

Какой контроль уместен — зависит от цены ошибки в конкретном исследовании; но молчаливое игнорирование множественности — это методологический дефект, который рецензенту легко заметить.

Шаг 6. Интерпретация: эффект, а не только p-value

P-значение отвечает на узкий вопрос: насколько данные совместимы с нулевой гипотезой. Оно не измеряет величину эффекта и не равно вероятности того, что гипотеза верна¹⁰. На большой выборке статистически значимым становится и практически ничтожное различие. Поэтому корректный вывод опирается на три вещи вместе.

Рис. 3. Значимость ≠ величина эффекта. При фиксированном малом размере эффекта (d = 0.2) p-значение падает с ростом выборки и при n ≈ 192 на группу пересекает порог 0.05 — различие становится «значимым», оставаясь содержательно малым. Поэтому вывод опирается на размер эффекта и доверительный интервал, а не только на p. Аналитический расчёт; для наглядности.

Размер эффекта.¹¹ Стандартизованные меры делают результат сопоставимым: d Коэна⁷ для разницы средних, η² (эта-квадрат) для доли объяснённой дисперсии в ANOVA, коэффициент корреляции или отношение шансов в своих контекстах. Именно размер эффекта говорит, велико ли различие содержательно.
Доверительные интервалы. Интервал показывает не только точечную оценку, но и её неопределённость, и часто информативнее одиночного p. Узкий интервал вокруг малого эффекта — это другой вывод, чем широкий интервал, захватывающий и ноль, и крупный эффект.
Содержательная интерпретация. Статистическая значимость и практическая значимость — разные вещи. Вывод формулируют в терминах изучаемой области, а не только в терминах «значимо / незначимо».

Шаг 7. Воспроизводимость и оформление таблиц

Статистическая часть тем сильнее, чем легче её перепроверить. Практический минимум: анализ выполнен скриптом (а не вручную в интерфейсе), зафиксирована версия окружения и зерно генератора случайных чисел, а каждое число в тексте прослеживается до строки кода. Это позволяет и автору, и рецензенту воспроизвести результат.

В таблицах принято приводить не голые p-значения, а описательные статистики (среднее и разброс или медиану и квартили в зависимости от распределения), размер выборки по группам, значение критерия с числом степеней свободы, p и размер эффекта с доверительным интервалом. Такой формат делает результат самодостаточным и проверяемым — ровно то, чего ждёт строгая рецензия.

Воспроизводимый код: предпосылки и выбор теста

Ниже исполнимый пример на Python¹²: данные генерируются кодом, проверяются предпосылки и по их результату выбирается параметрический или непараметрический тест. Числа в примере синтетические и условные — на реальных данных результаты будут другими, а ветка выбора может оказаться иной.

# Синтетический пример: данные генерируются для воспроизводимости.
# Числа условны и не отражают реальных результатов исследования.
import numpy as np
from scipy import stats

rng = np.random.default_rng(42)

# Две независимые группы (условный пример: контроль и воздействие).
group_a = rng.normal(100, 15, 40)
group_b = rng.normal(108, 15, 40)

# 1. Проверка предпосылок параметрического теста.
# Нормальность в каждой группе (Шапиро-Уилка, H0: нормальность).
sw_a = stats.shapiro(group_a).pvalue
sw_b = stats.shapiro(group_b).pvalue

# Равенство дисперсий (Левен, H0: дисперсии равны).
levene_p = stats.levene(group_a, group_b).pvalue

normal = sw_a > 0.05 and sw_b > 0.05
equal_var = levene_p > 0.05

# 2. Выбор теста по результату проверки предпосылок.
if normal:
    # equal_var=False -> поправка Уэлча при неравных дисперсиях.
    stat, p = stats.ttest_ind(group_a, group_b, equal_var=equal_var)
    test = "t-тест (Уэлча)" if not equal_var else "t-тест"
else:
    # Нормальность нарушена -> непараметрический аналог.
    stat, p = stats.mannwhitneyu(group_a, group_b, alternative="two-sided")
    test = "критерий Манна-Уитни"

# 3. Размер эффекта (d Коэна по объединённому стандартному отклонению).
def cohens_d(x, y):
    nx, ny = len(x), len(y)
    pooled = np.sqrt(((nx - 1) * x.var(ddof=1) + (ny - 1) * y.var(ddof=1)) / (nx + ny - 2))
    return (x.mean() - y.mean()) / pooled

print("тест:", test)
print("p-value:", round(p, 4))
print("d Коэна:", round(cohens_d(group_a, group_b), 3))

Тот же приём масштабируется на три и более групп: вместо t-теста и Манна–Уитни ветвление ведёт к ANOVA или критерию Краскела–Уоллиса, а при множестве сравнений добавляется поправка. Для регрессии и моделей с предпосылками по остаткам удобнее statsmodels, дающий готовую сводку коэффициентов, доверительных интервалов и диагностических тестов.

Что именно можно обещать честно

Корректная методология — необходимое, но не достаточное условие качества работы, и она не контролирует решение совета. Поэтому формат честной помощи ограничен областью, где специалист действительно отвечает за результат: постановка анализа под дизайн исследования, корректный выбор и проверка методов, воспроизводимый код и понятные таблицы, а также независимая проверка ваших расчётов и модели до того, как они попадут в текст. Этим занимается направление эконометрики и статистики для исследований в StatGazer. Никаких гарантий «защиты без замечаний» — только методологическая прочность, которую можно перепроверить.

Практический порядок работы

Связать гипотезу с дизайном: тип переменных и шкалы, структура наблюдений, мощность и объём выборки — заранее.
Провести чистку и разведочный анализ: пропуски, выбросы, форма распределений.
Выбрать тест под задачу и тип данных; проверить его предпосылки (Шапиро–Уилк, гомоскедастичность).
Где нужна оценка вклада факторов — перейти к регрессии и проверить её остатки.
Учесть множественность сравнений (Бонферрони или FDR) — выбрать контроль осознанно.
Отчитаться эффектом и доверительным интервалом, а не одним p-значением.
Сделать анализ воспроизводимым и оформить таблицы так, чтобы их можно было перепроверить.

Если нужна такая статистическая часть — с корректным выбором методов, проверкой предпосылок, воспроизводимым кодом и таблицами под требования рецензии — это формат, в котором мы работаем в StatGazer.

Источники

Первоисточники методов, упомянутых в статье. Номера-сноски в тексте ссылаются на этот список.

Student [Gosset, W. S.] (1908). The Probable Error of a Mean. Biometrika, 6(1), 1–25. doi:10.1093/biomet/6.1.1. — t-распределение и t-тест Стьюдента.
Welch, B. L. (1947). The Generalization of ‘Student’s’ Problem when Several Different Population Variances are Involved. Biometrika, 34(1–2), 28–35. doi:10.1093/biomet/34.1-2.28. — поправка Уэлча при неравных дисперсиях.
Mann, H. B., & Whitney, D. R. (1947). On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. The Annals of Mathematical Statistics, 18(1), 50–60. doi:10.1214/aoms/1177730491. — U-критерий Манна–Уитни (непараметрика).
Kruskal, W. H., & Wallis, W. A. (1952). Use of Ranks in One-Criterion Variance Analysis. Journal of the American Statistical Association, 47(260), 583–621. doi:10.1080/01621459.1952.10483441. — критерий Краскела–Уоллиса.
Pearson, K. (1900). On the criterion that a given system of deviations… is such that it can be reasonably supposed to have arisen from random sampling. Philosophical Magazine, Ser. 5, 50(302), 157–175. doi:10.1080/14786440009463897. — критерий согласия хи-квадрат.
Shapiro, S. S., & Wilk, M. B. (1965). An analysis of variance test for normality (complete samples). Biometrika, 52(3–4), 591–611. doi:10.1093/biomet/52.3-4.591. — тест Шапиро–Уилка на нормальность.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (2nd ed.). Routledge. doi:10.4324/9780203771587. — анализ мощности и размер эффекта (d Коэна).
Dunn, O. J. (1961). Multiple Comparisons Among Means. Journal of the American Statistical Association, 56(293), 52–64. doi:10.1080/01621459.1961.10482090. — поправка Бонферрони (контроль FWER).
Benjamini, Y., & Hochberg, Y. (1995). Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of the Royal Statistical Society: Series B, 57(1), 289–300. doi:10.1111/j.2517-6161.1995.tb02031.x. — контроль доли ложных открытий (FDR).
Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133. doi:10.1080/00031305.2016.1154108. — официальная позиция ASA по интерпретации p-значений.
Sullivan, G. M., & Feinn, R. (2012). Using Effect Size—or Why the P Value Is Not Enough. Journal of Graduate Medical Education, 4(3), 279–282. doi:10.4300/JGME-D-12-00156.1. — зачем нужен размер эффекта, а не только p.
Virtanen, P., Gommers, R., Oliphant, T. E., et al. (2020). SciPy 1.0: Fundamental Algorithms for Scientific Computing in Python. Nature Methods, 17(3), 261–272. doi:10.1038/s41592-019-0686-2. — SciPy — статистический инструментарий из примера кода.