Достоверность сдвига «до/после»: как доказать изменения
Как статистически доказать, что показатель изменился после тренинга или коррекции: критерий Вилкоксона и критерий знаков, логика T эмп ≤ T крит, примеры и FAQ.
Вы провели тренинг, коррекционную программу или цикл занятий, замерили показатель до и после — и видите, что цифры изменились. Но руководитель спросит: «А это точно ваша заслуга, а не случайность?» Просто написать «стало лучше» нельзя — нужно доказать сдвиг статистически.
Для этого есть специальные критерии для связанных выборок. Разберёмся, что такое связанные выборки, чем критерий Вилкоксона отличается от критерия знаков, как читать результат и что делать, если сдвига не оказалось.
В двух словах
- Связанные выборки — это когда вы измеряете одних и тех же людей дважды: до воздействия и после. Каждому «до» соответствует своё «после».
- Критерий Вилкоксона (T-критерий) учитывает не только направление сдвига, но и его величину. Это основной инструмент для баллов анкет и оценок.
- Критерий знаков (G-критерий) смотрит только на направление: где улучшилось, где ухудшилось — а на сколько именно, ему всё равно. Он проще, но слабее.
- Главное правило вывода: T эмп ≤ T крит → сдвиг достоверен. У этих критериев логика «перевёрнутая» относительно привычного Стьюдента.
Если данные числовые и их разности распределены нормально, вместо Вилкоксона можно взять парный критерий Стьюдента — об этом выборе мы писали в статье «Стьюдент или Вилкоксон».
Что значит «доказать сдвиг»
Любой замер «гуляет». Если попросить человека дважды заполнить анкету тревожности с интервалом в неделю, баллы немного разойдутся даже без всякого тренинга — настроение, погода, усталость. Это случайные колебания.
Задача статистики — отделить реальный эффект воздействия от такого случайного «дрожания». Критерий берёт ваши пары «до/после» и отвечает на один вопрос: «Сдвиг настолько устойчив и согласован, что объяснить его случайностью уже нельзя?»
Формально критерий проверяет нулевую гипотезу H₀ «сдвига нет, изменения случайны». Если он её отвергает — значит, изменения системные. Подробнее про H₀ и H₁ — в статье «Гипотеза исследования».
Результат описывают через p-значение: вероятность получить такой сдвиг чисто случайно. Если p < 0,05 — случайность маловероятна, сдвиг признаём достоверным. Что это за число — подробно в материале «Что такое p-value».
Когда брать критерий Вилкоксона
Это ваш выбор по умолчанию для замеров «до/после» в психодиагностике. Берите его, если:
- Данные — баллы, оценки, ранги. Шкалы тревожности, депрессии, самооценки, мотивации — всё это балльные методики.
- Важна величина сдвига. У кого-то тревожность упала на 2 балла, у кого-то на 15 — Вилкоксон это учитывает, взвешивая большие сдвиги сильнее.
- Распределение разностей не нормальное или выборка маленькая, и проверить нормальность толком нельзя.
Пример. У 12 студентов по шкале Спилбергера-Ханина замерили ситуативную тревожность до и после курса релаксации. Это баллы, и сдвиги разной величины → берём Вилкоксон.
Сомневаетесь между Вилкоксоном и критерием знаков? Почти всегда берите Вилкоксона. Он использует больше информации (величину сдвигов), а значит чаще «увидит» реальный эффект. Критерий знаков — запасной вариант, когда величину измерить нельзя.
Когда брать критерий знаков
Критерий знаков проще и грубее. Он подходит, когда:
- Вы можете сказать только «лучше / хуже», но не на сколько. Например, эксперт оценивает «улучшилось состояние или нет» без точной шкалы.
- Шкала очень грубая или измерить величину сдвига честно не получается.
- Вам нужна быстрая прикидка направления изменений как дополнение к основному анализу.
Пример. Психолог по каждому из 15 детей отметил, стал ли ребёнок увереннее на занятиях: «да» или «нет», без баллов. Величины сдвига нет — есть только направление → подходит критерий знаков.
Минус очевиден: критерий знаков «закрывает глаза» на размер изменений. Если у девяти человек тревожность рухнула на 20 баллов, а у одного выросла на 1 балл — для критерия знаков это просто «9 минусов и 1 плюс», ровно как если бы все сдвиги были по чуть-чуть. Поэтому он находит эффект реже.
Запомните ключевую мысль: Вилкоксон учитывает направление + величину сдвига, а критерий знаков — только направление. Чем больше информации использует критерий, тем он чувствительнее. Поэтому Вилкоксон — основной инструмент, а знаков — вспомогательный.
Как читать результат: логика T эмп и T крит
У критерия Вилкоксона и критерия знаков логика вывода непривычная — её часто путают. Запомните одно правило:
Сдвиг достоверен, когда эмпирическое значение МЕНЬШЕ или РАВНО критическому: T эмп ≤ T крит.
Это противоположно тому, как работает критерий Стьюдента (там значимость наступает, когда t эмп больше t крит). Почему так? В критерии Вилкоксона T — это сумма рангов «нетипичных», редких сдвигов (тех, что идут против общего направления). Если эффект сильный, таких «возражений» мало, и сумма T получается маленькой. Маленькое T = согласованный сдвиг = достоверно.
Самая частая ошибка с Вилкоксоном и знаками — сравнить значения «не в ту сторону» и сделать обратный вывод. Всегда проверяйте: достоверность есть при T эмп ≤ T крит. Если T эмп получилось больше критического — сдвиг не доказан.
Хорошая новость: наш калькулятор Вилкоксона сразу выдаёт и T эмп, и p-значение, и готовый вывод — считать вручную и лезть в таблицы критических значений не придётся.
Разбираем на примере: тревожность до и после тренинга
Возьмём типовую задачу из психологического диплома. Восемь участников (n = 8) прошли антистресс-тренинг. До и после замерили ситуативную тревожность по шкале Спилбергера-Ханина в баллах. Чем выше балл — тем сильнее тревога, поэтому ждём снижения.
Таблица 1 — Ситуативная тревожность участников до и после тренинга (n = 8)
| Участник | До | После | Сдвиг (после − до) |
|---|---|---|---|
| 1 | 52 | 40 | −12 |
| 2 | 48 | 45 | −3 |
| 3 | 55 | 38 | −17 |
| 4 | 44 | 46 | +2 |
| 5 | 50 | 41 | −9 |
| 6 | 58 | 47 | −11 |
| 7 | 46 | 39 | −7 |
| 8 | 53 | 44 | −9 |
Что мы видим из таблицы 1: у семи человек тревожность снизилась (сдвиг со знаком «минус»), и только у одного слегка выросла (+2). Сдвиги в основном крупные — это уже наводит на мысль об эффекте.
Загоняем эти восемь пар в калькулятор Вилкоксона. Он ранжирует сдвиги по модулю, складывает ранги «нетипичных» (положительных) сдвигов и получает T эмп = 3. Критическое значение для n = 8 при p ≤ 0,05 равно T крит = 3. Поскольку 3 ≤ 3, условие выполнено — сдвиг достоверен.
Вывод словами: «Уровень ситуативной тревожности после тренинга статистически значимо снизился (T = 3 ≤ T₍₀,₀₅₎ = 3; p ≤ 0,05)». Эффект на диаграмме (рисунок 1) виден и наглядно: медиана упала с 51 до 42 баллов.
Связка для диплома такая: таблица с парами «до/после» и сдвигами → расчёт T эмп → сравнение с T крит → диаграмма медиан «до/после» → вывод с числами и p-значением. Этого достаточно, чтобы изменения считались доказанными.
Если сдвига нет — как написать честно
Бывает, что критерий не подтверждает сдвиг: T эмп > T крит, p > 0,05. Это не провал работы и не повод подтасовывать числа. Это полноценный научный результат.
Пример. У 10 школьников замерили учебную мотивацию по методике Лускановой до и после месяца занятий. Получили T эмп = 22 при T крит = 8. Так как 22 > 8, сдвиг не доказан.
В дипломе это формулируют спокойно и по делу: «Статистически значимых изменений учебной мотивации после программы не выявлено (T = 22 > T₍₀,₀₅₎ = 8; p > 0,05)». Дальше — обсуждение возможных причин: короткий срок, мало участников, мотивация и так была высокой («эффект потолка»), нужна более длительная программа.
Отсутствие значимого сдвига — частая и нормальная ситуация, особенно на маленьких выборках. Помните про ошибки первого и второго рода: на 8–10 испытуемых критерий может «не заметить» даже реальный, но слабый эффект. Честно описанный отрицательный результат с грамотным обсуждением ценится выше, чем натянутые цифры.
Что писать в дипломе
Готовые формулировки, которые можно адаптировать под свои числа:
- «Для оценки достоверности сдвига показателя применялся T-критерий Вилкоксона для связанных выборок».
- «Сдвиг ситуативной тревожности после тренинга статистически значим (T = 3; p ≤ 0,05); медиана снизилась с 51 до 42 баллов».
- «Достоверных изменений показателя не обнаружено (T = 22 > T₍₀,₀₅₎ = 8; p > 0,05)».
- Если применяли критерий знаков: «По критерию знаков преобладание положительных сдвигов статистически значимо (G = 1; p ≤ 0,05)».
Всегда указывайте: какой критерий, его значение (T или G), число пар n и p-значение. Для Вилкоксона рядом приводят медианы «до» и «после» (а не средние — методика балльная). О том, как грамотно оформить такую таблицу и подпись к рисунку, есть отдельный разбор «Как оформить таблицы и рисунки в дипломе».
Частые ошибки
- Перепутать направление вывода. Для Вилкоксона и знаков значимость при T эмп ≤ T крит, а не наоборот. Это противоположно Стьюденту.
- Брать критерий знаков, когда есть баллы. Раз величину сдвига можно измерить — используйте Вилкоксона, он мощнее.
- Применять критерий для связанных выборок к разным группам. Если сравниваете контрольную и экспериментальную группы из разных людей — это Манна-Уитни, а не Вилкоксон.
- Учитывать пары с нулевым сдвигом. Если «до» и «после» совпали, такая пара из расчёта Вилкоксона исключается, а n уменьшается.
- Считать средние вместо медиан. Для балльных порядковых данных корректнее медиана.
Частые вопросы
Чем критерий Вилкоксона лучше критерия знаков?
Он использует величину сдвигов, а не только их знак. Поэтому при тех же данных Вилкоксон чувствительнее: он чаще обнаружит реальный эффект, особенно когда сдвиги разные по силе. Критерий знаков игнорирует величину, оттого «слепее».
Сколько человек нужно для критерия Вилкоксона?
Формально он работает уже от 5–6 пар, но чем больше, тем надёжнее. На совсем малых выборках (5–8 человек) критерий способен пропустить слабый эффект — учитывайте это при обсуждении результатов.
Что делать, если у части людей «до» и «после» совпали?
Пары с нулевым сдвигом из расчёта Вилкоксона исключают, а число n соответственно уменьшается. Если совпадений слишком много, эффекта, скорее всего, нет.
А если измерений три и больше (начало, середина, конец)?
Вилкоксон сравнивает ровно два замера. Для трёх и более связанных измерений берут критерий Фридмана — об этом выборе мы писали в статье «Фридман или Вилкоксон».
Можно ли использовать Вилкоксона для числовых данных, например времени или давления?
Да, можно, и результат будет корректным. Но если разности «после − до» распределены нормально, парный критерий Стьюдента для таких данных чуть мощнее. Как выбрать — в статье «Стьюдент или Вилкоксон».
Короткий алгоритм
- Убедитесь, что выборки связанные — это одни и те же люди, измеренные дважды. Если группы разные — вам нужен Манна-Уитни.
- Посчитайте сдвиги «после − до» по каждому человеку.
- Выберите критерий. Есть величина сдвигов (баллы) → Вилкоксон. Только направление «лучше/хуже» → критерий знаков.
- Получите T эмп и p-значение в калькуляторе.
- Сделайте вывод: T эмп ≤ T крит (p ≤ 0,05) → сдвиг достоверен. Иначе — изменения не доказаны, и это тоже честный результат.
- Оформите таблицу «до/после», диаграмму медиан и вывод с числами.
Что ещё почитать
- Руководство по критерию Вилкоксона — пошаговый разбор расчёта с нуля.
- Ошибки первого и второго рода — почему маленькая выборка может «не заметить» сдвиг.
- Стьюдент или Вилкоксон — что выбрать для числовых данных «до/после».
- Что такое p-value простыми словами — как читать результат.
- Калькулятор Вилкоксона и калькулятор критерия знаков — посчитать онлайн.
Не уверены, какой критерий взять и как описать вывод — загляните в базу методик или закажите консультацию: эксперт подберёт критерий, посчитает сдвиг и поможет с формулировками.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию