Корреляция Пирсона: полное руководство с формулой и примером
Что показывает коэффициент корреляции Пирсона, его значения и шкала Чеддока, формула, условия применения, критические значения, разбор примера с расчётом и FAQ.
Корреляция Пирсона — самый частый способ доказать в дипломе, что две числовые переменные связаны: чем выше одна, тем выше (или ниже) другая. Например, связь стажа и зарплаты или тревожности и успеваемости.
В этом руководстве разберём всё по порядку: что показывает коэффициент корреляции Пирсона, его формула и значения, условия применения, шкала тесноты связи, критические значения, разбор примера с расчётом и частые вопросы.
Если нужно просто посчитать — воспользуйтесь онлайн-калькулятором корреляции Пирсона. А здесь — теория, чтобы уверенно защититься.
🧮Онлайн-калькулятор корреляции ПирсонаПосчитайте свои данные за пару минут — нажмите, чтобы открыть→
Что показывает корреляция Пирсона
Коэффициент корреляции Пирсона (обозначается r) измеряет тесноту и направление линейной связи двух числовых переменных. Простыми словами, он отвечает на вопрос: «Меняются ли две величины согласованно — и насколько сильно?»
Значение r всегда лежит в диапазоне от −1 до +1:
- r = 0 — линейной связи нет;
- r = +1 — строгая прямая связь (растёт x — строго растёт y);
- r = −1 — строгая обратная связь (растёт x — строго убывает y).
Знак r показывает направление связи, а его модуль |r| — её силу.
Корреляция Пирсона — это про линейную связь двух числовых переменных. Если хотя бы одна переменная порядковая (ранги, баллы шкалы) или связь нелинейная — берут корреляцию Спирмена.
Формула корреляции Пирсона
Считать вручную не обязательно — всё делает калькулятор. Но для понимания и для защиты полезно знать суть.
Коэффициент корреляции Пирсона — это отношение совместной изменчивости (ковариации) к произведению разбросов каждой переменной:
Σ(xᵢ − x̄)(yᵢ − ȳ)
r = ─────────────────────────────
√( Σ(xᵢ − x̄)² · Σ(yᵢ − ȳ)² )
где xᵢ, yᵢ — значения переменных, x̄ и ȳ — их средние. В числителе — сумма произведений отклонений от средних; в знаменателе — нормировка на разбросы, благодаря которой r всегда укладывается в диапазон от −1 до +1.
Числитель отвечает за знак: если бо́льшие x чаще идут с бо́льшими y — произведения отклонений положительны и r > 0; если бо́льшие x идут с меньшими y — r < 0.
Условия применения коэффициента корреляции Пирсона
Метод параметрический, поэтому у него есть требования к данным:
- Обе переменные числовые (интервальные или относительные): рост, баллы теста, время, деньги.
- Распределения близки к нормальному — проверяют критерием Шапиро-Уилка.
- Связь линейная — на диаграмме рассеяния точки тянутся вдоль прямой, а не по дуге.
- Нет грубых выбросов — один аномальный объект способен сильно исказить r.
Если распределение далеко от нормального, данные порядковые или на графике видна нелинейность — Пирсон даст искажённую оценку. В таком случае используйте непараметрический аналог — корреляцию Спирмена. Что выбрать в спорном случае — в статье «Корреляция Пирсона или Спирмена».
Почему важна нормальность и где граница между параметрикой и непараметрикой — в статье «Параметрические и непараметрические критерии».
Как выглядит связь на графике
Лучший способ понять корреляцию — посмотреть на диаграмму рассеяния: каждая точка — это один объект с координатами (x, y).
Чем плотнее точки прижаты к прямой — тем ближе |r| к единице. Если облако точек бесформенно — r около нуля.
Шкала Чеддока: какие значения сильные
Сам по себе r — число; чтобы описать связь словами, его силу оценивают по шкале Чеддока (по модулю |r|, знак отвечает только за направление).
Таблица 1 — Шкала Чеддока: сила линейной связи по значению \|r\|
| Значение |r| | Теснота связи |
|---|---|
| до 0,3 | слабая |
| 0,3 – 0,5 | умеренная |
| 0,5 – 0,7 | заметная |
| 0,7 – 0,9 | высокая |
| свыше 0,9 | очень высокая |
Например, r = −0,82 описывают как «высокую обратную связь», а r = 0,24 — как «слабую прямую».
Значимость: критические значения корреляции Пирсона
Даже большой r на малой выборке может оказаться случайным. Поэтому проверяют значимость: сравнивают эмпирический |r| с критическим значением по таблице. Число степеней свободы df = n − 2, где n — количество пар.
Связь значима, когда |r| ≥ r крит (или, что то же самое, p < 0,05).
Таблица 2 — Критические значения коэффициента корреляции Пирсона (фрагмент)
| df = n − 2 | r крит (p ≤ 0,05) | r крит (p ≤ 0,01) |
|---|---|---|
| 4 | 0,811 | 0,917 |
| 5 | 0,754 | 0,874 |
| 6 | 0,707 | 0,834 |
| 8 | 0,632 | 0,765 |
| 10 | 0,576 | 0,708 |
| 15 | 0,482 | 0,606 |
| 20 | 0,423 | 0,537 |
Видно: чем больше выборка, тем меньший r уже считается значимым. Полная таблица встроена в калькулятор корреляции Пирсона — он сам берёт нужное значение по вашему n и выдаёт p.
Коэффициент детерминации r²
Если возвести r в квадрат, получится коэффициент детерминации r². Он показывает долю дисперсии одной переменной, объяснённую её линейной связью с другой.
Например, при r = 0,8 получаем r² = 0,64 — то есть около 64 % разброса y объясняется связью с x, а оставшиеся 36 % — другими факторами. Это удобный способ перевести абстрактный r в понятный процент.
Разбор примера с расчётом
Проверим, связан ли стаж работы (лет) с производительностью (усл. ед.) у 7 сотрудников.
Таблица 3 — Расчёт коэффициента корреляции Пирсона (n = 7)
| № | x (стаж) | y (произв.) | x − x̄ | y − ȳ | (x−x̄)(y−ȳ) | (x−x̄)² | (y−ȳ)² |
|---|---|---|---|---|---|---|---|
| 1 | 1 | 12 | −4 | −12 | 48 | 16 | 144 |
| 2 | 2 | 18 | −3 | −6 | 18 | 9 | 36 |
| 3 | 3 | 20 | −2 | −4 | 8 | 4 | 16 |
| 4 | 5 | 24 | 0 | 0 | 0 | 0 | 0 |
| 5 | 6 | 28 | 1 | 4 | 4 | 1 | 16 |
| 6 | 8 | 30 | 3 | 6 | 18 | 9 | 36 |
| 7 | 10 | 36 | 5 | 12 | 60 | 25 | 144 |
| Σ | 35 | 168 | 0 | 0 | 156 | 64 | 392 |
Средние: x̄ = 35 / 7 = 5; ȳ = 168 / 7 = 24. Подставляем суммы в формулу:
r = 156 / √(64 · 392) = 156 / √25088 = 156 / 158,4 ≈ 0,985
Оценка силы. |r| = 0,985 > 0,9 — по шкале Чеддока это очень высокая прямая связь.
Значимость. df = n − 2 = 5; r крит (p ≤ 0,05) = 0,754. Сравниваем: 0,985 > 0,754 → связь значима (и даже при p ≤ 0,01: 0,985 > 0,874).
Детерминация. r² = 0,985² ≈ 0,97 — около 97 % разброса производительности объясняется стажем.
Те же шаги повторяет калькулятор корреляции Пирсона: вводите два столбца — получаете r, r², критическое значение, p и готовый вывод. Это и есть «корреляция Пирсона онлайн».
Вывод для диплома: «Между стажем и производительностью выявлена статистически значимая очень высокая прямая корреляция (r = 0,985; n = 7; p < 0,01): с ростом стажа производительность закономерно возрастает».
Главная ловушка: корреляция ≠ причинность
Высокий r означает только, что переменные меняются согласованно. Он не доказывает, что одна вызывает другую.
Корреляция не равна причинности. Связь может объясняться третьим, скрытым фактором или быть случайным совпадением. В дипломе пишите «связаны», «сопряжены», а не «влияет» или «вызывает», если у вас не эксперимент.
Классический пример: летом одновременно растут и продажи мороженого, и число солнечных ожогов. Корреляция высокая, но причина у обоих — жара, а не мороженое.
Корреляция Пирсона в Excel и SPSS
- В Excel корреляцию Пирсона считает функция
=КОРРЕЛ(массив1; массив2)(англ.CORREL) либо=ПИРСОН(...). Для значимости и r² удобнее «Анализ данных» → «Корреляция». - В SPSS: «Анализ» → «Корреляции» → «Парные», метод — Пирсона. Программа выдаст r и p (двузвёздочная пометка — p < 0,01).
- Онлайн проще всего: калькулятор сам посчитает r, r², подберёт критическое значение по n и оформит вывод.
Частые ошибки
- Применять Пирсона к порядковым данным. Для рангов и шкальных баллов берут Спирмена.
- Не проверять нормальность. Перед Пирсоном прогоните данные через Шапиро-Уилка.
- Игнорировать выбросы. Один аномальный объект способен «нарисовать» или разрушить связь — посмотрите на диаграмму рассеяния.
- Путать корреляцию с причиной. r не доказывает, что x влияет на y.
- Делать выводы по r без проверки значимости. Сравнивайте |r| с критическим значением (df = n − 2).
Частые вопросы
Что показывает корреляция Пирсона простыми словами?
Насколько тесно и в какую сторону связаны две числовые величины: чем ближе r к ±1, тем сильнее связь; знак показывает её направление.
Какие значения коэффициента считаются сильными?
По шкале Чеддока: до 0,3 — слабая связь, 0,3–0,5 — умеренная, 0,5–0,7 — заметная, 0,7–0,9 — высокая, свыше 0,9 — очень высокая. Оценивают по модулю |r|.
Чем корреляция Пирсона отличается от корреляции Спирмена?
Пирсон работает с числовыми нормально распределёнными данными и измеряет линейную связь. Спирмен — непараметрический, по рангам, подходит для порядковых данных и нелинейных монотонных связей. Подробнее — в статье «Корреляция Пирсона или Спирмена».
Что такое коэффициент детерминации?
Это r². Он показывает долю дисперсии одной переменной, объяснённую её связью с другой. При r = 0,7 коэффициент детерминации r² = 0,49 — связью объясняется около 49 % разброса.
Сколько нужно наблюдений?
Формально минимум 5–6 пар, но при малой выборке даже большой r может быть незначимым. Чем больше n, тем надёжнее вывод и тем меньший r уже значим. Что вообще означает p — в статье «Что такое p-значение».
Что ещё почитать
- Корреляция Спирмена: руководство — ранговый аналог для порядковых и ненормальных данных.
- Пирсон или Спирмен — что выбрать — какой коэффициент взять в вашем случае.
- Линейная регрессия: руководство — как от связи перейти к уравнению и прогнозу.
- Как проверить нормальность распределения — условие применения Пирсона.
Итог
Коэффициент корреляции Пирсона r измеряет тесноту и направление линейной связи двух числовых переменных, лежит в диапазоне от −1 до +1. Силу оценивают по шкале Чеддока, значимость — сравнением с критическим значением (df = n − 2, p < 0,05), а долю объяснённой дисперсии — через r². Помните: корреляция не равна причинности, а при ненормальных или порядковых данных нужен Спирмен.
Посчитать свои данные за пару минут можно в калькуляторе корреляции Пирсона — он сам найдёт r, r², подберёт критическое значение и оформит вывод. Выбрать подходящий метод поможет база методов, а собрать всю статистику под ключ — консультация эксперта.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию