Основы12 июня 2026·10 мин чтения

Статистическая мощность и как её повысить

Что такое мощность критерия простыми словами, как она связана с размером выборки и эффекта, почему маленькая выборка «не видит» эффект — с примерами и FAQ.

Вы провели исследование, посчитали критерий — а он показал p > 0,05. «Различий нет», пишете вы в дипломе. Но что, если различия на самом деле есть, а ваш тест их просто не заметил?

Именно за это отвечает статистическая мощность. Это способность вашего исследования увидеть эффект, когда он реально существует. И чаще всего «не увидели» — значит, не хватило мощности.

В двух словах

Мощность — это вероятность найти эффект, если он действительно есть. Обозначается как 1 − β. Хорошая планка — 0,8 (80%).
Мощность тем выше, чем больше выборка, чем сильнее эффект и чем мягче порог значимости.
Маленькая выборка — главная причина «пустых» результатов: эффект есть, а критерий молчит.

Самый практичный вывод: мощность закладывается до сбора данных, через размер выборки. Прикинуть нужное число людей поможет статья «Сколько респондентов нужно для диплома», а оценить силу эффекта — «Размер эффекта d Коэна».

Что такое мощность простыми словами

Представьте, что критерий — это металлоискатель, а эффект (различие, связь) — монетка в песке.

Мощность — это шанс, что прибор пискнет на монетку, которая там действительно лежит. Слабый прибор пройдёт прямо над ней и промолчит — монетка есть, а сигнала нет.

Формально мощность — это вероятность отклонить нулевую гипотезу H₀ («эффекта нет»), когда верна альтернативная H₁ («эффект есть»). Про сами гипотезы — в статье «Гипотеза исследования: H0 и H1».

Пример. Новая методика тренировки реально повышает выносливость. Если у вашего теста мощность 0,8 — в 80 случаях из 100 он покажет значимый результат. А при мощности 0,4 вы «поймаете» эффект меньше чем в половине попыток, остальное — мимо.

Важно: мощность — это про ненулевой эффект. Если различий нет вообще, то и находить нечего: высокий p-уровень в этом случае правильный ответ, а не провал.

Мощность и ошибка второго рода

Здесь всё держится на двух ошибках, которые может совершить статистика. Подробный разбор — в статье «Ошибки первого и второго рода», а коротко так.

Ошибка I рода (α). Вы «нашли» эффект, которого нет. Ложная тревога. Обычно α = 0,05.
Ошибка II рода (β). Эффект есть, а вы его пропустили. Прибор промолчал над монеткой.

Мощность = 1 − β. То есть это просто «обратная сторона» ошибки II рода: чем реже вы пропускаете реальный эффект, тем мощнее тест.

Если β = 0,2 (пропускаем эффект в 20% случаев), то мощность = 1 − 0,2 = 0,8. Это и есть общепринятый минимум: исследование должно ловить реальный эффект минимум в 4 случаях из 5.

Важно

p > 0,05 не доказывает, что эффекта нет. Это значит лишь «данных не хватило, чтобы его подтвердить». При низкой мощности отрицательный результат почти ничего не говорит — возможно, вы просто прошли мимо монетки.

От чего зависит мощность

На мощность влияют четыре «ручки». Три из них вы можете крутить, четвёртая — это сам эффект в природе.

Размер выборки (n). Главный рычаг. Больше людей — точнее оценка, легче отличить сигнал от шума.
Размер эффекта. Насколько сильно отличаются группы или насколько тесна связь. Крупный эффект видно и на маленькой выборке, слабый — только на большой.
Уровень значимости (α). Чем он мягче (например, 0,05 вместо 0,01), тем легче «дотянуться» до значимости — но тем выше риск ложной тревоги.
Разброс данных. Чем меньше разброс внутри групп, тем чётче виден эффект. Аккуратные замеры и однородная выборка работают на вас.

Эти четыре величины связаны жёстко: зафиксируйте любые три — четвёртая определится сама. На этом и строится расчёт нужной выборки.

Совет

Самый честный способ поднять мощность — увеличить выборку и снизить разброс (точные измерения, чёткая инструкция испытуемым). Это работает всегда, в отличие от «подкручивания» порога значимости.

Почему на маленькой выборке легко «не увидеть» эффект

Это ключевая мысль всей статьи, поэтому разберём на числах.

На маленькой выборке оценка среднего «гуляет»: добавили или убрали пару человек — и картина поплыла. Статистике трудно понять, где реальное различие, а где случайные колебания. Поэтому критерий перестраховывается и выдаёт p > 0,05.

Покажем, как мощность растёт с размером выборки при одном и том же среднем эффекте (d Коэна около 0,5 — это умеренный эффект). Цифры в таблице 1 — типовые ориентиры для сравнения двух групп критерием Стьюдента.

Таблица 1 — Как мощность растёт с размером выборки при умеренном эффекте (d ≈ 0,5; α = 0,05)

Человек в каждой группе	Примерная мощность	Что это значит
10	≈ 0,18	эффект найдём лишь в 1 случае из 5
20	≈ 0,33	находим примерно в трети случаев
30	≈ 0,48	почти «монетка»: поймаем или нет
50	≈ 0,70	уже неплохо, но ниже нормы
64	≈ 0,80	целевая мощность достигнута

Из таблицы 1 видно главное: при умеренном эффекте 10 человек на группу — это почти гарантированный «пустой» результат, даже если эффект реален. А чтобы выйти на честные 80%, нужно около 64 человек в каждой группе.

Ту же закономерность удобно представить графиком.

Рисунок 1 — Чем больше выборка, тем выше мощность (умеренный эффект, α = 0,05)

Кривая круто растёт на маленьких выборках и полого — на больших. Поэтому переход от 10 к 30 людям даёт огромный прирост, а от 200 к 220 — почти ничего.

Как повысить мощность

Если расчёт показал, что мощности мало, у вас есть несколько рабочих ходов — от самых надёжных к компромиссным.

Наберите больше участников. Самый прямой и честный способ. Удвоение выборки заметно поднимает мощность, особенно если людей было мало.
Снизьте разброс данных. Точные приборы, единая инструкция, одинаковые условия замера, отсев явных выбросов по протоколу — всё это «очищает» сигнал.
Используйте дизайн «до/после» на одних и тех же людях. Связанные выборки (парный критерий Стьюдента или Вилкоксона) обычно мощнее, чем сравнение двух разных групп, — каждый человек служит сам себе контролем.
Берите более мощный критерий под свои данные. Для нормальных числовых данных параметрический тест чуть мощнее непараметрического. Как выбрать — в статье «Параметрические и непараметрические критерии».
Не дробите гипотезы без нужды. Много мелких сравнений и поправки на множественность (Бонферрони) ужесточают порог и съедают мощность.

Пример. Сравниваете эффект программы у мужчин и женщин по отдельности — в каждой подгруппе людей вдвое меньше, и мощность падает. Часто честнее проверить эффект на всей выборке сразу, а деление по полу оставить как дополнительный анализ.

Осторожно

Нельзя поднимать мощность, добирая людей до тех пор, пока p не станет < 0,05. Это подгонка результата: вы искусственно раздуваете ошибку I рода. Размер выборки планируют заранее и фиксируют до сбора данных.

Что писать в дипломе

Мощность чаще всего упоминают в двух местах: при обосновании выборки и при разборе отрицательного результата.

Если планировали выборку заранее (идеальный случай):

«Для выявления эффекта среднего размера (d = 0,5) при α = 0,05 и заданной мощности 0,8 требуется не менее 64 человек в каждой группе».

Если получили p > 0,05 — не пишите «эффекта нет». Корректнее так:

«Статистически значимых различий не выявлено (t = 1,4; p = 0,17). Учитывая ограниченный объём выборки (n = 18), нельзя исключить, что эффект не был обнаружен из-за недостаточной мощности исследования».

Если эффект найден — мощность можно даже не упоминать: значимый результат уже говорит, что мощности хватило.

Вывод

Запомните одну формулировку на все случаи: «отсутствие значимости — это не доказательство отсутствия эффекта». Эта фраза спасёт вас от самой грубой ошибки в выводах.

Полезно вместе с p-значением приводить размер эффекта (d Коэна) — он показывает практическую силу различия независимо от мощности и объёма.

Частые ошибки

Трактовать p > 0,05 как «доказано, что эффекта нет». На самом деле это «не хватило данных подтвердить эффект».
Планировать выборку «на глаз». 10–15 человек на группу для умеренного эффекта — почти гарантированный пустой результат.
Добирать участников, пока не появится значимость. Это подгонка, которая ломает достоверность всего исследования.
Дробить выборку на десяток подгрупп. В каждой остаётся мало людей, мощность падает, а поправки на множественность добивают её окончательно.
Сообщать только p, без размера эффекта. Тогда невозможно понять, эффект слабый или его просто не разглядели.

Частые вопросы

Какая мощность считается нормальной?

Стандарт — 0,8 (80%). Это значит, что реальный эффект исследование поймает в 4 случаях из 5. Иногда для важных решений берут 0,9, но для студенческой работы 0,8 — хороший ориентир.

Можно ли посчитать мощность уже после сбора данных?

Технически да, но «посчитанная задним числом» мощность мало что добавляет: она почти зеркалит ваше p-значение. Гораздо полезнее до исследования прикинуть нужную выборку — см. «Сколько респондентов нужно для диплома».

Что важнее для мощности — размер выборки или размер эффекта?

Размер эффекта задан природой, его вы не меняете. А вот выборку контролируете вы — это ваш главный рычаг. Если ожидаемый эффект слабый, единственный выход — набрать больше людей.

У меня маленькая выборка и p > 0,05. Что делать?

Не объявляйте, что различий нет. Честно укажите, что выборка мала и мощности могло не хватить, приведите размер эффекта и, если возможно, обсудите результат как «тенденцию». Подробнее об аккуратных выводах — в статье «Как описать результаты статистики».

Параметрические критерии мощнее непараметрических?

При нормальных числовых данных — да, немного. Но если данные не нормальны или это баллы анкеты, непараметрический критерий и корректнее, и на практике мощнее. Помогает «Как выбрать статистический критерий».

Короткий алгоритм

До сбора данных прикиньте ожидаемый размер эффекта (по литературе или d Коэна).
Задайте α = 0,05 и целевую мощность 0,8.
Рассчитайте нужный объём выборки — ориентиры в «Сколько респондентов нужно».
Соберите данные, не добирая людей под желаемый p.
Если результат значим — отлично. Если нет — не пишите «эффекта нет», а отметьте ограничение по мощности и приведите размер эффекта.

Что ещё почитать

Ошибки первого и второго рода — фундамент, на котором стоит мощность.
Размер эффекта d Коэна — как измерить силу эффекта.
Сколько респондентов нужно для диплома — расчёт выборки на практике.
Что такое p-значение простыми словами — как правильно читать результат.

Не уверены, хватает ли вам мощности и людей, — загляните в базу методов или закажите консультацию: эксперт рассчитает выборку и подберёт критерий под ваше исследование.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.

Заказать консультацию