Статистическая мощность и как её повысить
Что такое мощность критерия простыми словами, как она связана с размером выборки и эффекта, почему маленькая выборка «не видит» эффект — с примерами и FAQ.
Вы провели исследование, посчитали критерий — а он показал p > 0,05. «Различий нет», пишете вы в дипломе. Но что, если различия на самом деле есть, а ваш тест их просто не заметил?
Именно за это отвечает статистическая мощность. Это способность вашего исследования увидеть эффект, когда он реально существует. И чаще всего «не увидели» — значит, не хватило мощности.
В двух словах
- Мощность — это вероятность найти эффект, если он действительно есть. Обозначается как 1 − β. Хорошая планка — 0,8 (80%).
- Мощность тем выше, чем больше выборка, чем сильнее эффект и чем мягче порог значимости.
- Маленькая выборка — главная причина «пустых» результатов: эффект есть, а критерий молчит.
Самый практичный вывод: мощность закладывается до сбора данных, через размер выборки. Прикинуть нужное число людей поможет статья «Сколько респондентов нужно для диплома», а оценить силу эффекта — «Размер эффекта d Коэна».
Что такое мощность простыми словами
Представьте, что критерий — это металлоискатель, а эффект (различие, связь) — монетка в песке.
Мощность — это шанс, что прибор пискнет на монетку, которая там действительно лежит. Слабый прибор пройдёт прямо над ней и промолчит — монетка есть, а сигнала нет.
Формально мощность — это вероятность отклонить нулевую гипотезу H₀ («эффекта нет»), когда верна альтернативная H₁ («эффект есть»). Про сами гипотезы — в статье «Гипотеза исследования: H0 и H1».
Пример. Новая методика тренировки реально повышает выносливость. Если у вашего теста мощность 0,8 — в 80 случаях из 100 он покажет значимый результат. А при мощности 0,4 вы «поймаете» эффект меньше чем в половине попыток, остальное — мимо.
Важно: мощность — это про ненулевой эффект. Если различий нет вообще, то и находить нечего: высокий p-уровень в этом случае правильный ответ, а не провал.
Мощность и ошибка второго рода
Здесь всё держится на двух ошибках, которые может совершить статистика. Подробный разбор — в статье «Ошибки первого и второго рода», а коротко так.
- Ошибка I рода (α). Вы «нашли» эффект, которого нет. Ложная тревога. Обычно α = 0,05.
- Ошибка II рода (β). Эффект есть, а вы его пропустили. Прибор промолчал над монеткой.
Мощность = 1 − β. То есть это просто «обратная сторона» ошибки II рода: чем реже вы пропускаете реальный эффект, тем мощнее тест.
Если β = 0,2 (пропускаем эффект в 20% случаев), то мощность = 1 − 0,2 = 0,8. Это и есть общепринятый минимум: исследование должно ловить реальный эффект минимум в 4 случаях из 5.
p > 0,05 не доказывает, что эффекта нет. Это значит лишь «данных не хватило, чтобы его подтвердить». При низкой мощности отрицательный результат почти ничего не говорит — возможно, вы просто прошли мимо монетки.
От чего зависит мощность
На мощность влияют четыре «ручки». Три из них вы можете крутить, четвёртая — это сам эффект в природе.
- Размер выборки (n). Главный рычаг. Больше людей — точнее оценка, легче отличить сигнал от шума.
- Размер эффекта. Насколько сильно отличаются группы или насколько тесна связь. Крупный эффект видно и на маленькой выборке, слабый — только на большой.
- Уровень значимости (α). Чем он мягче (например, 0,05 вместо 0,01), тем легче «дотянуться» до значимости — но тем выше риск ложной тревоги.
- Разброс данных. Чем меньше разброс внутри групп, тем чётче виден эффект. Аккуратные замеры и однородная выборка работают на вас.
Эти четыре величины связаны жёстко: зафиксируйте любые три — четвёртая определится сама. На этом и строится расчёт нужной выборки.
Самый честный способ поднять мощность — увеличить выборку и снизить разброс (точные измерения, чёткая инструкция испытуемым). Это работает всегда, в отличие от «подкручивания» порога значимости.
Почему на маленькой выборке легко «не увидеть» эффект
Это ключевая мысль всей статьи, поэтому разберём на числах.
На маленькой выборке оценка среднего «гуляет»: добавили или убрали пару человек — и картина поплыла. Статистике трудно понять, где реальное различие, а где случайные колебания. Поэтому критерий перестраховывается и выдаёт p > 0,05.
Покажем, как мощность растёт с размером выборки при одном и том же среднем эффекте (d Коэна около 0,5 — это умеренный эффект). Цифры в таблице 1 — типовые ориентиры для сравнения двух групп критерием Стьюдента.
Таблица 1 — Как мощность растёт с размером выборки при умеренном эффекте (d ≈ 0,5; α = 0,05)
| Человек в каждой группе | Примерная мощность | Что это значит |
|---|---|---|
| 10 | ≈ 0,18 | эффект найдём лишь в 1 случае из 5 |
| 20 | ≈ 0,33 | находим примерно в трети случаев |
| 30 | ≈ 0,48 | почти «монетка»: поймаем или нет |
| 50 | ≈ 0,70 | уже неплохо, но ниже нормы |
| 64 | ≈ 0,80 | целевая мощность достигнута |
Из таблицы 1 видно главное: при умеренном эффекте 10 человек на группу — это почти гарантированный «пустой» результат, даже если эффект реален. А чтобы выйти на честные 80%, нужно около 64 человек в каждой группе.
Ту же закономерность удобно представить графиком.
Кривая круто растёт на маленьких выборках и полого — на больших. Поэтому переход от 10 к 30 людям даёт огромный прирост, а от 200 к 220 — почти ничего.
Как повысить мощность
Если расчёт показал, что мощности мало, у вас есть несколько рабочих ходов — от самых надёжных к компромиссным.
- Наберите больше участников. Самый прямой и честный способ. Удвоение выборки заметно поднимает мощность, особенно если людей было мало.
- Снизьте разброс данных. Точные приборы, единая инструкция, одинаковые условия замера, отсев явных выбросов по протоколу — всё это «очищает» сигнал.
- Используйте дизайн «до/после» на одних и тех же людях. Связанные выборки (парный критерий Стьюдента или Вилкоксона) обычно мощнее, чем сравнение двух разных групп, — каждый человек служит сам себе контролем.
- Берите более мощный критерий под свои данные. Для нормальных числовых данных параметрический тест чуть мощнее непараметрического. Как выбрать — в статье «Параметрические и непараметрические критерии».
- Не дробите гипотезы без нужды. Много мелких сравнений и поправки на множественность (Бонферрони) ужесточают порог и съедают мощность.
Пример. Сравниваете эффект программы у мужчин и женщин по отдельности — в каждой подгруппе людей вдвое меньше, и мощность падает. Часто честнее проверить эффект на всей выборке сразу, а деление по полу оставить как дополнительный анализ.
Нельзя поднимать мощность, добирая людей до тех пор, пока p не станет < 0,05. Это подгонка результата: вы искусственно раздуваете ошибку I рода. Размер выборки планируют заранее и фиксируют до сбора данных.
Что писать в дипломе
Мощность чаще всего упоминают в двух местах: при обосновании выборки и при разборе отрицательного результата.
Если планировали выборку заранее (идеальный случай):
«Для выявления эффекта среднего размера (d = 0,5) при α = 0,05 и заданной мощности 0,8 требуется не менее 64 человек в каждой группе».
Если получили p > 0,05 — не пишите «эффекта нет». Корректнее так:
«Статистически значимых различий не выявлено (t = 1,4; p = 0,17). Учитывая ограниченный объём выборки (n = 18), нельзя исключить, что эффект не был обнаружен из-за недостаточной мощности исследования».
Если эффект найден — мощность можно даже не упоминать: значимый результат уже говорит, что мощности хватило.
Запомните одну формулировку на все случаи: «отсутствие значимости — это не доказательство отсутствия эффекта». Эта фраза спасёт вас от самой грубой ошибки в выводах.
Полезно вместе с p-значением приводить размер эффекта (d Коэна) — он показывает практическую силу различия независимо от мощности и объёма.
Частые ошибки
- Трактовать p > 0,05 как «доказано, что эффекта нет». На самом деле это «не хватило данных подтвердить эффект».
- Планировать выборку «на глаз». 10–15 человек на группу для умеренного эффекта — почти гарантированный пустой результат.
- Добирать участников, пока не появится значимость. Это подгонка, которая ломает достоверность всего исследования.
- Дробить выборку на десяток подгрупп. В каждой остаётся мало людей, мощность падает, а поправки на множественность добивают её окончательно.
- Сообщать только p, без размера эффекта. Тогда невозможно понять, эффект слабый или его просто не разглядели.
Частые вопросы
Какая мощность считается нормальной?
Стандарт — 0,8 (80%). Это значит, что реальный эффект исследование поймает в 4 случаях из 5. Иногда для важных решений берут 0,9, но для студенческой работы 0,8 — хороший ориентир.
Можно ли посчитать мощность уже после сбора данных?
Технически да, но «посчитанная задним числом» мощность мало что добавляет: она почти зеркалит ваше p-значение. Гораздо полезнее до исследования прикинуть нужную выборку — см. «Сколько респондентов нужно для диплома».
Что важнее для мощности — размер выборки или размер эффекта?
Размер эффекта задан природой, его вы не меняете. А вот выборку контролируете вы — это ваш главный рычаг. Если ожидаемый эффект слабый, единственный выход — набрать больше людей.
У меня маленькая выборка и p > 0,05. Что делать?
Не объявляйте, что различий нет. Честно укажите, что выборка мала и мощности могло не хватить, приведите размер эффекта и, если возможно, обсудите результат как «тенденцию». Подробнее об аккуратных выводах — в статье «Как описать результаты статистики».
Параметрические критерии мощнее непараметрических?
При нормальных числовых данных — да, немного. Но если данные не нормальны или это баллы анкеты, непараметрический критерий и корректнее, и на практике мощнее. Помогает «Как выбрать статистический критерий».
Короткий алгоритм
- До сбора данных прикиньте ожидаемый размер эффекта (по литературе или d Коэна).
- Задайте α = 0,05 и целевую мощность 0,8.
- Рассчитайте нужный объём выборки — ориентиры в «Сколько респондентов нужно».
- Соберите данные, не добирая людей под желаемый p.
- Если результат значим — отлично. Если нет — не пишите «эффекта нет», а отметьте ограничение по мощности и приведите размер эффекта.
Что ещё почитать
- Ошибки первого и второго рода — фундамент, на котором стоит мощность.
- Размер эффекта d Коэна — как измерить силу эффекта.
- Сколько респондентов нужно для диплома — расчёт выборки на практике.
- Что такое p-значение простыми словами — как правильно читать результат.
Не уверены, хватает ли вам мощности и людей, — загляните в базу методов или закажите консультацию: эксперт рассчитает выборку и подберёт критерий под ваше исследование.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию