Как проверить нормальность распределения: способы и FAQ
Зачем проверять нормальность и как это сделать: критерии Шапиро-Уилка и Колмогорова-Смирнова, гистограмма и Q-Q plot, чтение p-значения, Excel/SPSS/jamovi, ошибки и FAQ.
Прежде чем выбрать критерий для сравнения групп, нужно ответить на один вопрос: нормально ли распределены ваши данные? От этого зависит, можно ли брать параметрические методы (Стьюдент, ANOVA, Пирсон) или придётся переходить на непараметрические.
Разберём, чем проверяют нормальность, как правильно прочитать результат и что делать, если распределение оказалось ненормальным. Без формул, с готовыми шагами.
В двух словах
- Основной способ — критерий Шапиро-Уилка (калькулятор). Особенно хорош для малых и средних выборок (n < 50).
- Для больших выборок применяют критерий Колмогорова-Смирнова (калькулятор) с поправкой Лиллиефорса.
- Дополнительно смотрят глазами: гистограмму (форма колокола) и график квантиль-квантиль (Q-Q plot — точки вдоль прямой).
Главное правило, которое чаще всего путают: p > 0,05 → распределение нормальное, p < 0,05 → ненормальное. Почему именно так — объясним ниже.
Зачем проверять нормальность
Нормальность — это не самоцель, а развилка для выбора метода. Многие критерии предполагают, что данные подчиняются нормальному (гауссову) распределению, и без этого их выводы некорректны.
- Параметрические критерии (Стьюдент, ANOVA, корреляция Пирсона) работают со средними значениями и требуют нормальности.
- Если нормальности нет — берут непараметрические (ранговые) методы: Манна-Уитни, Вилкоксон, Спирмен, Краскел-Уоллис. Они работают с порядком значений и нормальности не требуют.
Подробнее об этой паре — в статье «Параметрические и непараметрические критерии».
Проверка нормальности — это шаг до выбора критерия, а не после. Сначала смотрите на распределение, потом решаете, параметрический метод или ранговый.
Способы проверки
Способов три, и лучше комбинировать формальный критерий с визуальной проверкой.
Критерий Шапиро-Уилка
Это основной тест на нормальность для студенческих работ. Он чувствителен и хорошо работает на малых и средних выборках (примерно n < 50). Большинство научных руководителей ожидают увидеть именно его.
Считать вручную почти невозможно — используйте калькулятор Шапиро-Уилка: вставляете значения, получаете статистику W и p-значение.
Критерий Колмогорова-Смирнова
Подходит для больших выборок. В чистом виде он сравнивает ваше распределение с эталонным, поэтому для проверки нормальности применяют его вариант с поправкой Лиллиефорса (он учитывает, что среднее и дисперсию вы оценили по самой выборке).
Посчитать можно в калькуляторе Колмогорова-Смирнова.
Визуальная проверка: гистограмма и Q-Q plot
Графики не дают p-значения, но помогают понять характер отклонения — особенно когда формальный критерий «капризничает».
- Гистограмма. У нормального распределения она похожа на колокол: симметричный горб в центре, плавно спадающий к краям. Перекос вправо/влево или два горба — признак ненормальности.
- График квантиль-квантиль (Q-Q plot). Точки сравниваются с прямой линией. Если данные нормальны, точки ложатся вдоль прямой. Систематические «провалы» по краям (хвостам) выдают отклонение.
Как прочитать результат
Здесь — ключевой и самый «коварный» момент. У критериев нормальности нулевая гипотеза H0 — «распределение нормальное». Критерий пытается её опровергнуть. Поэтому логика обратная привычной:
- p > 0,05 → оснований отвергнуть H0 нет → распределение можно считать НОРМАЛЬНЫМ;
- p < 0,05 → H0 отвергаем → распределение НЕнормальное.
Самая частая ошибка: «p маленькое — значит, всё хорошо, данные нормальны». Наоборот! Маленькое p говорит, что распределение отклоняется от нормального. Для нормальности вам нужно большое p (> 0,05).
Таблица 1 — Как читать p-значение теста на нормальность
| p-значение | Вывод о распределении | Что делать |
|---|---|---|
| p > 0,05 | нормальное (H0 не отвергаем) | можно параметрические методы: Стьюдент, ANOVA, Пирсон |
| p < 0,05 | ненормальное (H0 отвергаем) | непараметрические: Манна-Уитни, Вилкоксон, Спирмен |
Подробнее о самом показателе — в статье «Что такое p-значение».
Что делать, если распределение ненормальное
Ненормальность — не тупик. Есть два рабочих пути.
- Перейти на непараметрические методы. Самый простой и честный вариант: вместо Стьюдента — Манна-Уитни (для двух групп) или Вилкоксон (для замеров «до/после»). Они корректны и не требуют нормальности. Какой именно выбрать — см. «Стьюдент или Манна-Уитни», «Стьюдент или Вилкоксон» и «ANOVA или Краскел-Уоллис».
- Преобразовать данные. Иногда распределение «выправляется» преобразованием — например, логарифмированием при правостороннем перекосе. После преобразования нормальность проверяют заново. Этот путь сложнее и его нужно обосновать, поэтому для студенческих работ чаще выбирают первый.
Как проверить в Excel, SPSS и jamovi
Где бы вы ни считали, ищите в выдаче p-значение (Sig.) и применяйте к нему правило из таблицы 1.
- В Excel / Эксель. Готового теста Шапиро-Уилка в Excel нет. Реально доступны: построить гистограмму (вкладка «Вставка» → диаграмма) для визуальной оценки и посчитать асимметрию (
СКОС) и эксцесс (ЭКСЦЕСС) — у нормального распределения они близки к нулю. Для строгого вывода надёжнее воспользоваться онлайн-калькулятором Шапиро-Уилка. - В SPSS. Analyze → Descriptive Statistics → Explore → Plots → галочка «Normality plots with tests». В таблице «Tests of Normality» вы получите сразу два теста: Shapiro-Wilk и Kolmogorov-Smirnov (с поправкой Лиллиефорса). Смотрите столбец Sig.
- В jamovi. При сравнении групп (например, T-Tests) есть опция «Normality test (Shapiro-Wilk)» и Q-Q plot прямо в настройках анализа — удобно для дипломов.
Не обязательно ставить тяжёлый софт. Если нужен только вывод о нормальности — вставьте данные в калькулятор Шапиро-Уилка или Колмогорова-Смирнова и сразу получите p-значение и готовую формулировку.
Частые ошибки
- Перепутать направление вывода. p < 0,05 — это НЕ норма, а отклонение от неё. Для нормальности нужно p > 0,05.
- Слепо верить критерию на большой выборке. При больших n тесты «придираются» к малейшим отклонениям и почти всегда дают p < 0,05. Здесь полезно смотреть и на графики — если гистограмма колоколом и точки на Q-Q plot вдоль прямой, отклонение может быть несущественным.
- Проверять не то, что нужно. Для парного Стьюдента важна нормальность разностей «после − до», а не исходных значений. Для независимых групп нормальность проверяют в каждой группе отдельно.
- Делать вывод по одному графику без критерия. Гистограмма субъективна — подкрепляйте её формальным тестом.
Частые вопросы
Какой критерий нормальности выбрать — Шапиро-Уилка или Колмогорова-Смирнова?
Для большинства студенческих выборок (десятки наблюдений) берите Шапиро-Уилка — он мощнее на малых и средних n. Колмогорова-Смирнова (с поправкой Лиллиефорса) уместен на больших выборках.
p получилось ровно 0,05 — это нормально или нет?
Граница условна. Принято: p > 0,05 — считаем нормальным. Ровно 0,05 — пограничный случай: посмотрите на гистограмму и Q-Q plot и при сомнениях выберите более безопасный непараметрический метод.
Нужно ли проверять нормальность для непараметрических критериев?
Нет. Манна-Уитни, Вилкоксон, Спирмен, Краскел-Уоллис работают с рангами и нормальности не требуют — для них проверка не нужна.
Можно ли судить о нормальности только по гистограмме?
Как ориентир — да, но для диплома лучше подкрепить формальным критерием. Гистограмма показывает форму, а критерий даёт численный p-значение для вывода.
У меня большая выборка, а тест говорит «ненормально» — что делать?
На больших n это типично: критерий реагирует на крошечные отклонения. Посмотрите гистограмму и Q-Q plot — если визуально всё похоже на норму, отклонение может быть несущественным для параметрического метода.
Что писать в дипломе про проверку нормальности?
Например: «Проверка нормальности распределения по критерию Шапиро-Уилка показала, что данные распределены нормально (W = 0,96; p = 0,21 > 0,05), что позволило применить параметрический критерий Стьюдента».
Короткий алгоритм
- Прогоните критерий — для малых/средних выборок Шапиро-Уилка, для больших Колмогорова-Смирнова.
- Посмотрите p-значение. p > 0,05 → нормальное; p < 0,05 → ненормальное.
- Подкрепите глазами — гистограмма (колокол?) и Q-Q plot (точки вдоль прямой?).
- Выберите метод. Нормально → параметрические; ненормально → непараметрические или преобразование данных.
Запомните одно: p > 0,05 → нормально → параметрика; p < 0,05 → ненормально → непараметрика. Шапиро-Уилка для малых выборок, Колмогорова-Смирнова — для больших, графики — для подстраховки.
Что ещё почитать
- Как выбрать статистический критерий для диплома — общая схема выбора метода.
- Параметрические и непараметрические критерии — зачем вообще нужна нормальность.
- Что такое p-значение простыми словами — как правильно читать результат.
- Как описать выборку в дипломе — что приводить при нормальных и ненормальных данных.
- Калькулятор Шапиро-Уилка и Колмогорова-Смирнова — проверить нормальность онлайн.
Не уверены в выводе — загляните в базу методов или закажите консультацию: эксперт проверит нормальность и подберёт корректный критерий.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию