Множественные сравнения и поправка Бонферрони простыми словами
Почему много тестов подряд раздувают шанс случайной «находки» и как поправка Бонферрони (α/k) это лечит. Разбираем на числовых примерах, с таблицей и FAQ.
Вы сравнили не две группы, а сразу несколько — или прогнали один тест по десятку шкал анкеты. И где-то выскочило заветное «p < 0,05». Вопрос: это реальная находка или просто повезло?
Чем больше тестов вы делаете подряд, тем выше шанс, что хотя бы один «значимый» результат окажется случайным. Эта ловушка называется проблемой множественных сравнений, и чаще всего её лечат поправкой Бонферрони. Разберём, как это работает и когда нужно.
В двух словах
- Проблема. Каждый тест с α = 0,05 может ошибочно «найти» эффект в 5% случаев. Делаете много тестов — ошибки накапливаются, и ложная находка почти гарантирована.
- Поправка Бонферрони. Делим уровень значимости на число сравнений: новый порог = α / k. Теперь значимым считается только p меньше этого строгого порога.
- Когда нужна. Чаще всего — для попарных сравнений после значимого критерия Краскела-Уоллиса или дисперсионного анализа ANOVA, а также когда вы проверяете сразу много шкал или гипотез.
Это прямое продолжение темы ошибок I рода — если вы её ещё не читали, загляните в статью «Ошибки I и II рода».
Откуда берётся проблема
Когда вы ставите порог p < 0,05, вы заранее соглашаетесь: в 5% случаев тест объявит различие там, где его на самом деле нет. Это ошибка I рода — ложная тревога. Для одного теста 5% — приемлемый риск.
Но риск считается на каждый тест отдельно. Сделали два теста — у каждого свои 5%. Десять тестов — десять попыток случайно «попасть». И вероятность, что хотя бы одна из них сработает вхолостую, быстро растёт.
Посчитаем честно. Если все гипотезы на самом деле пустые (различий нет), вероятность, что ни один из k тестов не даст ложной тревоги, равна 0,95 в степени k. Значит, вероятность хотя бы одной ошибки — это единица минус 0,95^k.
Пример. Вы сравниваете 4 группы попарно — это 6 пар. Вероятность хотя бы одной ложной находки: 1 − 0,95⁶ ≈ 0,26. То есть в каждом четвёртом таком исследовании вы «найдёте» различие, которого нет.
А теперь любимый учебный пример. Представьте, что вы прогнали 20 тестов на данных, где эффектов нет вообще. В среднем 20 × 0,05 = 1 тест покажет «p < 0,05» просто по случайности. Один ложный результат на двадцатку — почти наверняка.
Это и есть главная ловушка дипломных расчётов: студент гоняет один критерий по всем шкалам опросника, радостно находит «значимую» шкалу и строит на ней выводы. А найденное различие — статистический шум.
Как накапливается риск
Чтобы увидеть масштаб, посмотрите, как растёт вероятность хотя бы одной ложной тревоги с числом тестов (при α = 0,05 и реально пустых гипотезах). Цифры — в таблице 1.
Таблица 1 — Вероятность хотя бы одной ложной находки при k независимых тестах (α = 0,05)
| Число тестов k | Формула 1 − 0,95^k | Вероятность ложной тревоги |
|---|---|---|
| 1 | 1 − 0,95¹ | 5% |
| 3 | 1 − 0,95³ | 14% |
| 5 | 1 − 0,95⁵ | 23% |
| 10 | 1 − 0,95¹⁰ | 40% |
| 20 | 1 − 0,95²⁰ | 64% |
Вывод словами: уже при 10 тестах шанс случайно «найти» несуществующий эффект — около 40%, а при 20 — почти две трети. Поэтому серию сравнений нельзя оценивать по тому же порогу 0,05, что и одиночный тест.
Что такое поправка Бонферрони
Идея простая до неприличия: если вы делаете k сравнений и хотите, чтобы суммарный риск ложной тревоги остался на уровне 0,05, сделайте каждый отдельный тест строже. Поделите уровень значимости на число сравнений.
Новый порог = α / k.
То есть значимым теперь считается не любое p < 0,05, а только p меньше нового, ужесточённого порога. Сравнений много — порог жёстче, случайному результату труднее «проскочить».
Пример. Вы делаете 5 попарных сравнений после ANOVA. Бонферрони: 0,05 / 5 = 0,01. Значит, пару считаем различающейся, только если её p < 0,01. Результат с p = 0,03 при одиночном тесте был бы «значимым», а здесь — нет.
Есть и эквивалентный способ, который иногда удобнее: не трогать порог, а умножить каждое p на k и сравнивать уже с обычными 0,05. Результат тот же. Например, p = 0,008 при 5 сравнениях превращается в 0,008 × 5 = 0,04 — всё ещё значимо.
k — это число сравнений (тестов), а не число групп. Для 4 групп попарных сравнений будет 6 (каждая с каждой), для 5 групп — 10. Считайте именно пары, иначе поправка получится неверной.
Когда поправка действительно нужна
Поправка Бонферрони — не украшение к каждому расчёту. Она нужна там, где вы делаете серию проверок и хотите контролировать общий риск ошибки. Типичные ситуации:
- Постхок после Краскела-Уоллиса или ANOVA. Сам критерий Краскела-Уоллиса или ANOVA говорит только «различия где-то есть». Чтобы узнать, между какими именно группами, вы делаете попарные сравнения — и вот их-то и поправляют.
- Много шкал одного опросника. Прогоняете один критерий по 8 шкалам — это 8 тестов, риск накопился.
- Несколько гипотез в одной работе. Проверяете сразу пачку независимых предположений на одних данных.
Важный порядок действий: сначала смотрите на общий критерий (Краскел-Уоллис, ANOVA, критерий Фридмана). Если он не значим — попарные сравнения вообще не делают, и поправка не нужна. Лезть в пары имеет смысл, только когда общий тест показал, что различия есть.
А если у вас всего одно запланированное сравнение двух групп — никакой поправки не требуется. Один тест — один порог 0,05.
Числовой пример от начала до конца
Допустим, вы сравниваете уровень тревожности в трёх группах студентов (по шкале Спилбергера-Ханина): первокурсники, второкурсники, третьекурсники. Данные — баллы, поэтому берёте Краскела-Уоллиса.
Шаг 1. Общий критерий дал p = 0,02 < 0,05 — различия между курсами есть. Идём искать, где именно.
Шаг 2. Три группы — значит, 3 пары: 1–2, 1–3, 2–3. Считаем для каждой пары Манна-Уитни и получаем три p-значения.
Шаг 3. Применяем Бонферрони: порог = 0,05 / 3 ≈ 0,017. Сравниваем каждое p с ним. Что получилось — в таблице 2.
Таблица 2 — Попарные сравнения курсов с поправкой Бонферрони (k = 3)
| Пара групп | p без поправки | Порог α/k = 0,017 | Вывод |
|---|---|---|---|
| 1 курс — 2 курс | 0,041 | 0,017 | различий нет (0,041 > 0,017) |
| 1 курс — 3 курс | 0,004 | 0,017 | различие значимо (0,004 < 0,017) |
| 2 курс — 3 курс | 0,210 | 0,017 | различий нет |
Вывод словами: без поправки пара «1–2 курс» (p = 0,041) выглядела бы значимой, но после Бонферрони она не проходит строгий порог. Реально различаются только первокурсники и третьекурсники.
Не хотите считать поправку руками? Найдите самый строгий порог α/k один раз и просто сравнивайте с ним все свои p-значения. Сами p при этом не меняются — меняется только планка, выше которой результат считается случайным.
Минусы: за строгость приходится платить
У Бонферрони есть обратная сторона. Делая порог жёстче, вы снижаете риск ложной тревоги (ошибки I рода), но одновременно повышаете риск пропустить реальный эффект — это ошибка II рода, и мощность теста падает.
Чем больше сравнений, тем суровее порог. При 20 тестах он становится 0,05 / 20 = 0,0025 — поймать настоящее, но скромное различие под такой планкой почти невозможно.
Поэтому Бонферрони называют консервативной поправкой: она перестраховывается. Для 3–6 сравнений это нормально и общепринято. Но если сравнений десятки, существуют более мягкие методы (Холма, Бенджамини-Хохберга) — в дипломе их обычно достаточно упомянуть, а считать по-прежнему через простой Бонферрони.
Баланс такой: мало сравнений (3–6) — смело берите Бонферрони, он прост и понятен комиссии. Очень много сравнений — поправка станет слишком жёсткой, и честнее сократить число гипотез заранее, чем потом тонуть в строгом пороге.
Что писать в дипломе
Главное — показать, что вы знаете про накопление ошибки и учли его. Готовые формулировки:
- «При попарном сравнении групп применялась поправка Бонферрони: уровень значимости делился на число сравнений (α/k = 0,05/3 ≈ 0,017)».
- «Различия между группами оценивались критерием Краскела-Уоллиса (H = 7,8; p = 0,02); апостериорные попарные сравнения проводились по критерию Манна-Уитни с поправкой Бонферрони».
- «С учётом поправки на множественные сравнения статистически значимым считалось p < 0,017».
В таблице результатов удобно привести и исходное p, и поправленный порог (как в таблице 2) — тогда комиссии сразу видно, что находки не случайны.
Частые ошибки
- Гонять критерий по всем шкалам и не поправлять порог. Классика: 10 шкал, «нашли» одну значимую и забыли, что это могла быть случайность. Нужна поправка.
- Делить α на число групп, а не на число сравнений. Для 4 групп пар не 4, а 6. Считайте именно пары.
- Делать попарные сравнения при незначимом общем тесте. Если Краскел-Уоллис или ANOVA не показали различий, в пары лезть не нужно.
- Применять Бонферрони к единственному запланированному сравнению. Один тест поправлять не надо — порог остаётся 0,05.
- Молча применить поправку и не написать об этом. Обязательно укажите метод и итоговый порог в тексте работы.
Частые вопросы
Зачем вообще делить альфу — разве 0,05 не достаточно?
0,05 — это риск ошибки на один тест. Когда тестов много, их риски складываются, и суммарная вероятность ложной находки сильно превышает 5%. Деление возвращает общий риск к исходному уровню.
Бонферрони нужен всегда после ANOVA или Краскела-Уоллиса?
Только если общий критерий оказался значимым и вы делаете попарные сравнения. Если общий тест не значим, постхок-сравнения не проводят и поправка не требуется.
На сколько делить, если сравниваю 4 группы?
На число пар, а не групп. Для 4 групп это 6 пар (каждая с каждой), поэтому порог = 0,05 / 6 ≈ 0,008.
Поправка меняет сами p-значения?
В классическом варианте — нет, меняется только порог, с которым вы их сравниваете (α/k). Эквивалентный способ — умножить каждое p на k и сравнивать с 0,05; результат одинаковый.
Чем плох слишком строгий порог?
Падает мощность: становится легко пропустить реальное различие (ошибка II рода). Поэтому при большом числе сравнений Бонферрони бывает чрезмерно консервативным — см. «Ошибки I и II рода».
А что вообще такое это p-значение?
Это вероятность получить такие (или ещё более выраженные) различия, если на самом деле их нет. Подробно и на пальцах — в статье «Что такое p-значение».
Короткий алгоритм
- Сначала общий тест: Краскел-Уоллис или ANOVA. Не значим — стоп, попарных сравнений нет.
- Значим — делаете попарные сравнения и считаете их число k (для 3 групп — 3 пары, для 4 — 6).
- Новый порог = 0,05 / k. Значимыми считаете только пары с p меньше этого порога. Метод и порог укажите в дипломе.
Что ещё почитать
- Ошибки I и II рода и мощность критерия — что за ошибки накапливаются и чем платим за строгий порог.
- Что такое p-значение простыми словами — как читать результат любого теста.
- Калькулятор критерия Краскела-Уоллиса — общий тест для нескольких групп.
- Дисперсионный анализ ANOVA — параметрический аналог для сравнения многих групп.
- Гипотеза исследования: H₀ и H₁ — что именно вы проверяете каждым тестом.
Не уверены, нужна ли поправка и как её оформить — загляните в базу методов или закажите консультацию: эксперт подберёт критерий, посчитает постхок и оформит таблицы под ключ.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию