StatBlank
Руководства12 июня 2026·11 мин чтения

Множественная регрессия простыми словами с примером

Как предсказать Y сразу по нескольким X: коэффициенты, R², какие факторы значимы и что такое мультиколлинеарность. Когда брать в диплом — с примерами и FAQ.

Парная регрессия предсказывает результат по одному фактору — например, балл на экзамене по числу часов подготовки. Но в жизни на результат влияет сразу много вещей: и часы, и сон, и мотивация, и базовые знания.

Множественная регрессия как раз про это: она предсказывает Y по нескольким X одновременно и показывает, какой фактор действительно важен, а какой только притворяется.

В двух словах

Множественная линейная регрессия строит уравнение, в котором результат Y зависит сразу от нескольких предикторов: ŷ = a + b₁·x₁ + b₂·x₂ + … + bₖ·xₖ. Она и прогнозирует значение Y, и оценивает вклад каждого фактора по отдельности.

  • Каждый bᵢ — на сколько изменится Y при росте этого X на 1, если остальные факторы держать неизменными.
  • — какую долю разброса Y объясняет вся модель целиком.
  • Значимость (p-value) у каждого фактора — показывает, какие предикторы реально работают.

Если фактор всего один — вам нужна обычная парная регрессия. Прежде чем строить модель, тесноту связей удобно прикинуть через корреляцию Пирсона.

Заметка

Множественная регрессия — параметрический метод для числовых данных. Если вы пока не уверены, нужна ли вообще регрессия или хватит корреляции, загляните в статью «Корреляция или регрессия: что выбрать».

Зачем нужно несколько предикторов

Представьте, что вы изучаете успеваемость студентов. Если взять только часы подготовки, картина выйдет неполной: два студента готовились одинаково, а баллы разные. Почему? Потому что в дело вмешались другие факторы.

Множественная регрессия позволяет учесть их все сразу и ответить на два вопроса:

  • Прогноз. Какой балл ожидать у студента с такими-то часами, сном и мотивацией?
  • Вклад каждого фактора. Что важнее для результата — часы или мотивация? А может, сон вообще ни при чём?

Пример. Тренер хочет предсказать результат в прыжке в длину. Он берёт три фактора: рост спортсмена, силу ног (по прыжковым тестам) и стаж тренировок. Модель покажет, как каждый из них влияет на дальность прыжка и насколько точен общий прогноз.

Ключевая идея — слова «при прочих равных». Коэффициент при «часах» показывает влияние именно часов, как будто сон и мотивация у всех одинаковые. Модель сама «вычищает» наложение факторов друг на друга.

Как читать уравнение и коэффициенты

Допустим, для успеваемости получилось такое уравнение:

ŷ = 30 + 4·(часы) + 2·(сон) + 5·(мотивация)

Расшифровываем по частям:

  • a = 30 — свободный член: гипотетический балл, когда все факторы равны нулю. Часто он не имеет житейского смысла (студент с нулём часов и нулевым сном), и это нормально — он нужен для расчёта, а не для интерпретации.
  • b₁ = 4 — каждый дополнительный час подготовки добавляет 4 балла, если сон и мотивация не меняются.
  • b₂ = 2 — каждый лишний час сна даёт 2 балла при прочих равных.
  • b₃ = 5 — рост мотивации на единицу шкалы прибавляет 5 баллов.

Пример. Студент готовился 5 часов, спал 8 часов, мотивация — 6 баллов. Подставляем: ŷ = 30 + 4·5 + 2·8 + 5·6 = 30 + 20 + 16 + 30 = 96 баллов. Это и есть прогноз модели.

Знак коэффициента важен: плюс — фактор повышает Y, минус — понижает. Если бы перед «тревожностью» стоял коэффициент −3, это значило бы, что рост тревожности на единицу снижает результат на 3 балла.

Осторожно

Нельзя сравнивать факторы «в лоб» по величине b. Часы и мотивация измерены в разных единицах, поэтому 4 у часов и 5 у мотивации — несравнимы. Чтобы понять, какой фактор сильнее, смотрят на стандартизованные коэффициенты (бета, β): они приведены к общей шкале, и чем больше |β|, тем весомее фактор.

Что такое R² и насколько модель хороша

R² (коэффициент детерминации) показывает, какую долю разброса Y объясняет ваша модель. Он меняется от 0 до 1 (или от 0 до 100%).

  • R² = 0,70 — модель объясняет 70% различий в баллах, остальные 30% приходятся на факторы, которые вы не учли, и на случайность.
  • Чем R² ближе к 1, тем точнее прогноз.

Есть тонкость: обычный R² всегда растёт, стоит добавить новый фактор — даже совершенно бесполезный. Поэтому в множественной регрессии честнее смотреть на скорректированный R² (adjusted R²): он штрафует за лишние предикторы и не растёт от «мусорных» переменных.

Совет

Если при добавлении фактора обычный R² чуть подрос, а скорректированный R² упал — этот фактор лишний, он только засоряет модель. Ориентируйтесь именно на скорректированный R².

Всю модель целиком проверяют критерием Фишера (F): его p-значение отвечает на вопрос «модель в принципе работает или это набор случайностей?». Если p < 0,05 — модель значима, ей можно доверять.

Какие переменные значимы

Вот здесь множественная регрессия и раскрывается. У каждого фактора есть своё p-значение, которое говорит, реально ли он влияет на Y или попал в модель случайно.

  • p < 0,05 у фактора — он значим, вносит реальный вклад.
  • p > 0,05 — фактор незначим: его влияние неотличимо от случайного, и его обычно убирают из модели.

Пример. В модели успеваемости получилось: часы — p = 0,003, мотивация — p = 0,01, а сон — p = 0,42. Значит, часы и мотивация работают, а сон статистически ни на что не влияет — его можно исключить и пересчитать модель без него.

Это нормальная практика: построили модель → нашли незначимые факторы → убрали их → пересчитали. В итоге остаются только те предикторы, которые действительно объясняют результат.

Как читать p-значение и не путать его с «важностью» эффекта, подробно разобрано в статье «Что такое p-value простыми словами».

Мультиколлинеарность простыми словами

Самая частая засада множественной регрессии — мультиколлинеарность. Звучит страшно, а смысл простой: это когда два или несколько ваших X сильно связаны между собой и фактически дублируют друг друга.

Пример. Вы предсказываете зарплату по двум факторам: «стаж в годах» и «стаж в месяцах». Но это одно и то же, просто в разных единицах! Модель не может понять, какому из них приписать влияние, и её коэффициенты «сходят с ума»: становятся огромными, меняют знак, p-значения скачут.

Почему это вредно: при мультиколлинеарности коэффициенты становятся неустойчивыми и бессмысленными. Прогноз в целом может быть неплох, но интерпретировать «вклад каждого фактора» уже нельзя — а в дипломе обычно нужно именно это.

Как её заметить и победить:

  • Посмотрите корреляции между X. Если два предиктора коррелируют очень сильно (|r| выше ~0,8 по корреляции Пирсона) — это сигнал.
  • Уберите один из дублирующих факторов или объедините их в один показатель.
  • Признаки в результатах: неправдоподобно большие коэффициенты и знаки «наоборот» (фактор, который должен повышать Y, вдруг с минусом).

Главный вывод: не добавляйте в модель всё подряд «на всякий случай». Чем больше похожих факторов, тем выше риск мультиколлинеарности и тем труднее объяснить результат. Лучше 3–4 осмысленных предиктора, чем 10 пересекающихся.

Когда использовать в дипломе

Множественная регрессия уместна, когда все условия выполняются вместе:

  1. Y — числовая переменная (балл, время, дальность, процент), которую вы хотите предсказать или объяснить.
  2. Несколько числовых X (факторов, предикторов), которые могут на неё влиять.
  3. Связи между факторами и результатом примерно линейные, а наблюдений достаточно (грубое правило — хотя бы 10–15 человек на каждый фактор в модели).

Типичные сюжеты для диплома:

  • Психология. Что влияет на уровень выгорания: стаж, нагрузка, копинг-стратегии? Какой фактор главный?
  • Спорт. Предсказать результат на дистанции по показателям функциональных проб и антропометрии.
  • Педагогика. Какие факторы (посещаемость, мотивация, исходный уровень) сильнее всего объясняют итоговый балл.
Важно

Если факторов несколько, но они категориальные (пол, группа, наличие признака), а не числовые — чаще берут не регрессию, а дисперсионный анализ ANOVA. Регрессия любит числовые предикторы.

Что писать в дипломе

После расчёта в работе приводят уравнение, R² и значимость. Готовые формулировки:

  • «Построена множественная линейная регрессия зависимости успеваемости от трёх факторов. Модель значима (F = 18,4; p < 0,001) и объясняет 68% разброса результата (R² = 0,68; скорр. R² = 0,65)».
  • «Значимый вклад вносят часы подготовки (β = 0,52; p = 0,003) и мотивация (β = 0,38; p = 0,01); влияние продолжительности сна статистически незначимо (p = 0,42) и из модели исключено».
  • «Полученное уравнение позволяет прогнозировать итоговый балл: ŷ = 30 + 4·X₁ + 5·X₃».

Результаты удобно свести в таблицу — на неё ссылаются прямо в тексте: «Параметры модели представлены в таблице 1».

Таблица 1 — Параметры множественной регрессии успеваемости (n = 60; R² = 0,68)

Фактор Коэффициент b Бета (β) p-значение Вклад
Часы подготовки 4,0 0,52 0,003 значим
Мотивация 5,0 0,38 0,01 значим
Продолжительность сна 2,0 0,09 0,42 незначим

После таблицы — короткий вывод словами: «Наибольший вклад в успеваемость вносят часы подготовки (β = 0,52), на втором месте — мотивация. Сон значимого влияния не показал».

вклад, β 0,52 Часы 0,38 Мотивация 0,09 Сон
Рисунок 1 — Вклад факторов в успеваемость (стандартизованные коэффициенты β)

Минимум, который ждут в дипломе: уравнение, F и p всей модели, R² (лучше скорректированный) и таблица с коэффициентами и p-значением по каждому фактору. Без этого вывод «фактор влияет» не доказан.

Частые ошибки

  • Сравнивать факторы по «сырым» коэффициентам b. Они в разных единицах. Сравнивают по бета-коэффициентам (β).
  • Гнаться за высоким R², добавляя всё подряд. Обычный R² всегда растёт; смотрите на скорректированный и на значимость каждого фактора.
  • Игнорировать мультиколлинеарность. Два дублирующих фактора ломают коэффициенты — проверьте корреляции между X заранее.
  • Оставлять незначимые факторы в финальной модели. Если p > 0,05 — фактор обычно убирают и модель пересчитывают.
  • Применять регрессию к баллам анкеты как к точному Y. Для порядковых данных и нелинейных связей корректнее ранговая корреляция Спирмена.

Частые вопросы

Чем множественная регрессия отличается от парной?

В парной — один фактор X, в множественной — несколько. Главный бонус множественной: каждый коэффициент показывает влияние своего фактора при прочих равных, то есть с поправкой на остальные. Это ближе к реальной жизни, где на результат влияет много всего.

Сколько факторов можно взять?

Сколько угодно по математике, но на практике ограничивает размер выборки. Грубое правило — не меньше 10–15 наблюдений на каждый фактор. Если у вас 30 человек, больше 2–3 предикторов брать рискованно: модель «переобучится» и прогноз будет ненадёжным. Подробнее о размере выборки — в статье «Сколько респондентов нужно для диплома».

Что лучше — R² или скорректированный R²?

Для множественной регрессии — скорректированный. Обычный R² механически растёт от каждого нового фактора, даже бесполезного, а скорректированный учитывает число предикторов и не вводит в заблуждение.

Как понять, какой фактор самый важный?

По стандартизованным коэффициентам бета (β): чем больше модуль |β|, тем сильнее фактор влияет на результат. По обычным b сравнивать нельзя — они в разных единицах измерения.

А если связь нелинейная?

Линейная множественная регрессия предполагает прямые зависимости. Если связь явно изогнута (например, результат сначала растёт, потом падает), линейная модель её недооценит. Тогда либо преобразуют переменные, либо используют нелинейные модели — это уже выходит за рамки типового диплома.

Короткий алгоритм

  1. Определите Y (что предсказываем) и числовые X (факторы). Все должны быть числовыми и осмысленными.
  2. Проверьте связи между X через корреляцию Пирсона — нет ли дублирующих факторов (мультиколлинеарности).
  3. Постройте модель — для одного фактора подойдёт калькулятор регрессии; для нескольких факторов расчёт обычно делают в SPSS (SPSS онлайн).
  4. Проверьте модель целиком: F и его p < 0,05, посмотрите скорректированный R².
  5. Найдите незначимые факторы (p > 0,05), уберите их и пересчитайте.
  6. Опишите результат: уравнение, R², таблица коэффициентов с β и p, вывод словами.

Что ещё почитать

Не уверены, какие факторы брать и как посчитать модель, — загляните в базу методов или закажите консультацию: эксперт подберёт предикторы и построит регрессию за вас.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.

Заказать консультацию