Корреляция Пирсона или Спирмена: что выбрать
Разбираем, когда брать коэффициент корреляции Пирсона, а когда — Спирмена: тип данных, нормальность, выбросы. С примером, схемой выбора и FAQ.
Вы хотите доказать, что два признака связаны: чем выше тревожность, тем ниже успеваемость; чем больше стаж, тем выше показатель. Для этого считают корреляцию — и сразу встаёт вопрос: брать коэффициент Пирсона или Спирмена?
Оба показывают силу и направление связи и дают число от −1 до +1. Но подходят они для разных данных, и перепутать их — частая ошибка в дипломе. Разберём, как выбрать правильно.
В двух словах
- Корреляция Пирсона (r) — параметрическая. Для числовых данных, измеряет линейную связь, требует близости к нормальному распределению и боится выбросов.
- Корреляция Спирмена (ρ) — ранговая, непараметрическая. Для баллов, рангов или ненормальных числовых данных, измеряет монотонную связь и устойчива к выбросам.
Спирмен — это непараметрический «аналог» Пирсона. О самой разнице параметрических и непараметрических методов — в статье «Параметрические и непараметрические критерии».
Любой коэффициент корреляции лежит в диапазоне от −1 до +1. Знак показывает направление связи (плюс — растут вместе, минус — один растёт, другой падает), а модуль — её силу. Ноль означает, что линейной (для Пирсона) или монотонной (для Спирмена) связи нет.
Когда брать Пирсона
Все условия должны выполняться вместе:
- Оба признака — числовые измерения (рост, баллы IQ, время, процент).
- Связь между ними похожа на линейную (точки на графике ложатся вдоль прямой).
- Данные распределены близко к нормальному — проверьте критерием Шапиро-Уилка (p > 0,05 — нормальное).
- В данных нет грубых выбросов.
Пример. У 40 студентов замерили рост и вес. Обе величины — числовые, нормальные, связь линейная → корреляция Пирсона.
Когда брать Спирмена
Берите его, если верно хотя бы одно:
- данные — баллы анкет, ранги, оценки (порядковая шкала);
- числовые данные распределены ненормально (перекос, выбросы);
- связь монотонная, но нелинейная (один признак растёт вместе с другим, но не по прямой);
- выборка маленькая, и нормальность не подтверждается.
Пример. Связь между баллом по шкале тревожности и местом в рейтинге успеваемости. Это баллы и ранги → корреляция Спирмена.
Сомневаетесь, какая корреляция в Эксель — Спирмена или Пирсона — нужна для балльной анкеты? Берите Спирмена: он корректен и для нормальных числовых данных тоже, а Пирсон к баллам и рангам неприменим.
Чем отличаются по сути
- Пирсон работает с самими числами и измеряет, насколько хорошо точки ложатся на прямую линию. Один выброс резко тянет коэффициент за собой — результат может «поплыть».
- Спирмен заменяет значения их рангами (местами по возрастанию) и измеряет, насколько согласованно растут эти ранги. Поэтому он видит любую монотонную связь и почти не реагирует на выбросы.
Простая логика: Пирсон ищет прямую линию по числам, Спирмен — общий порядок по рангам.
Корреляция — это не причинно-следственная связь. Даже сильная и значимая корреляция не доказывает, что один признак вызывает другой: оба могут зависеть от третьего фактора. В выводах пишите «связаны», а не «влияет».
Что писать в дипломе
После расчёта смотрят на два числа: сам коэффициент (r или ρ) и p-значение (подробнее в статье «Что такое p-значение»).
- Сила связи оценивается по модулю коэффициента — обычно по шкале Чеддока (см. таблицу 1).
- Значимость — по p: при p < 0,05 связь статистически значима, иначе её считают случайной.
Таблица 1 — Шкала Чеддока: сила связи по модулю коэффициента корреляции
| Модуль |r| (или |ρ|) | Сила связи |
|---|---|
| до 0,3 | слабая |
| 0,3–0,5 | умеренная |
| 0,5–0,7 | заметная |
| 0,7–0,9 | высокая |
| свыше 0,9 | очень высокая |
Примеры формулировок:
- «Выявлена заметная прямая связь между показателями (r = 0,62; p < 0,05)».
- «Связь обратная и высокая (ρ = −0,74; p < 0,01)».
- «Статистически значимой связи не обнаружено (r = 0,12; p = 0,43)».
В тексте обязательно указывайте сам коэффициент (r — для Пирсона, ρ — для Спирмена), его значение, объём выборки и p-значение. Без p вывод «признаки связаны» не считается доказанным.
Пример таблицы результатов
На таблицу в тексте ссылаются прямо: «Результаты корреляционного анализа представлены в таблице 2».
Таблица 2 — Корреляция показателей с успеваемостью (n = 35)
| Пара признаков | Метод | Коэффициент | p | Вывод |
|---|---|---|---|---|
| Рост — вес | Пирсон r | 0,68 | < 0,05 | заметная прямая связь |
| Тревожность — балл | Спирмен ρ | −0,52 | < 0,05 | заметная обратная связь |
| Стаж — балл | Спирмен ρ | 0,14 | 0,42 | связь не значима |
Вывод словами: «Рост и вес связаны заметной прямой связью (r = 0,68; p < 0,05); тревожность и успеваемость — заметной обратной (ρ = −0,52; p < 0,05); связь стажа и балла не подтвердилась (ρ = 0,14; p > 0,05)».
Частые ошибки
- Считать Пирсона по баллам анкеты. Баллы — порядковая шкала, корректнее Спирмен.
- Не проверять нормальность перед Пирсоном. Без проверки Шапиро-Уилком применять Пирсон рискованно.
- Игнорировать выбросы. Один аномальный респондент способен «сделать» или «убить» корреляцию Пирсона.
- Путать силу и значимость. Маленькое p при слабом r означает, что слабая связь реальна, но она всё равно слабая.
- Делать вывод «влияет» вместо «связан». Корреляция не доказывает причину.
Частые вопросы
Чем отличается коэффициент корреляции Пирсона от Спирмена?
Пирсон считается по самим числовым значениям и ловит линейную связь, требуя нормальности. Спирмен считается по рангам, ловит любую монотонную связь и не требует нормальности. Для баллов и ненормальных данных нужен Спирмен.
Можно ли применить Спирмена к нормальным числовым данным?
Да, он останется корректным, хотя при идеально линейной и нормальной связи Пирсон чуть точнее. А вот Пирсон к баллам и рангам неприменим — поэтому при сомнениях безопаснее Спирмен.
Какая корреляция в Эксель — Спирмена или Пирсона?
Встроенная функция КОРРЕЛ (CORREL) в Excel считает именно Пирсона. Для Спирмена готовой функции нет: значения сначала переводят в ранги (функция РАНГ), а уже потом применяют КОРРЕЛ к рангам. Проще посчитать в онлайн-калькуляторе Спирмена.
Что такое корреляция Кендалла и когда она нужна?
Коэффициент Кендалла (τ) — ещё одна ранговая мера, альтернатива Спирмену. Её предпочитают на малых выборках и когда в данных много совпадающих рангов (связок): там она ведёт себя устойчивее.
Что значит отрицательная корреляция?
Знак минус означает обратную связь: чем больше один признак, тем меньше другой. Например, чем выше тревожность, тем ниже балл. Сила при этом оценивается по модулю — по той же шкале Чеддока.
Корреляция значима, но слабая — что писать?
Так и пишите: связь статистически значима, но по силе слабая (например, r = 0,22; p < 0,05). Значимость говорит лишь о том, что связь не случайна, а не о том, что она сильная.
Короткий алгоритм
- Оба признака числовые и нормальные (проверка Шапиро-Уилком)? Если нет — берите Спирмена.
- Связь похожа на линейную и нет грубых выбросов? → корреляция Пирсона.
- Иначе (баллы, ранги, ненормальность, выбросы, монотонная нелинейная связь) → корреляция Спирмена (на малых выборках или при множестве связок — Кендалл).
Короче: числа + нормальность + линейная связь → Пирсон; баллы, ранги, ненормальность или выбросы → Спирмен. Силу оценивайте по шкале Чеддока, значимость — по p < 0,05.
Что ещё почитать
- Как выбрать статистический критерий для диплома — общая схема выбора метода.
- Параметрические и непараметрические критерии — в чём принципиальная разница.
- Как проверить нормальность распределения — нужна ли вам вообще нормальность.
- Что такое p-значение простыми словами — как читать результат.
- Размер эффекта (d Коэна, r) — сам коэффициент корреляции и есть размер эффекта.
- Калькулятор корреляции Пирсона и калькулятор корреляции Спирмена — посчитать онлайн.
Не уверены в выборе — посмотрите базу методов или закажите консультацию: эксперт подберёт коэффициент и посчитает за вас.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию