StatBlank
Руководства12 июня 2026·10 мин чтения

Логистическая регрессия простыми словами

Как предсказать исход «да/нет» по нескольким факторам, что такое отношение шансов и когда нельзя брать обычную регрессию. С примерами и FAQ.

Иногда в дипломе нужно не «измерить, насколько изменился балл», а ответить на вопрос «да или нет»: поступит абитуриент или нет, выгорит сотрудник или нет, бросит спортсмен секцию или останется. Исход тут всего двух видов, и зависит он сразу от нескольких факторов.

Для таких задач есть свой инструмент — логистическая регрессия. Она предсказывает вероятность события «да» по набору предикторов и заодно показывает, какой фактор и насколько эту вероятность поднимает.

В двух словах

  • Логистическая регрессия нужна, когда зависимая переменная бинарная — принимает два значения: есть событие или нет, успех или неудача, «1» или «0».
  • Она оценивает вероятность исхода «да» по одному или нескольким предикторам (возраст, балл теста, пол, стаж — что угодно).
  • Главный результат для диплома — отношение шансов (odds ratio, OR): во сколько раз меняется шанс события при росте предиктора на единицу.

Если же ваш отклик — это число на непрерывной шкале (вес, время, балл от 0 до 100), то вам нужна не логистическая, а обычная линейная регрессия. Чем регрессия вообще отличается от корреляции — в статье «Корреляция или регрессия».

Зачем вообще отдельный метод

Казалось бы, можно закодировать «да» как 1, «нет» как 0 и протянуть линейную регрессию. Но так делать нельзя, и вот почему.

Линейная регрессия рисует прямую и спокойно выдаёт значения вроде −0,3 или 1,7. А вероятность не может быть меньше 0 или больше 1 — такие предсказания бессмысленны.

Логистическая регрессия решает это хитро: вместо прямой она использует S-образную кривую (её называют логистической). Кривая плавно поднимается от 0 к 1 и никогда за эти границы не выходит. Поэтому любой ответ модели — это честная вероятность от 0 до 100%.

Пример. Предсказываем, сдаст ли студент зачёт, по числу прорешанных задач. При 2 задачах модель даёт вероятность сдачи 15%, при 10 задачах — 88%. Прямой такие края не описать, а S-кривой — легко.

1 0 значение предиктора вероятность «да»
Рисунок 1 — Логистическая кривая: предсказание всегда лежит между 0 и 1

Что такое отношение шансов простыми словами

Самое пугающее слово в этой теме — отношение шансов (odds ratio). На деле всё бытовое.

Сначала про «шанс» (odds). Это отношение «сколько раз событие случится» к «сколько раз не случится». Если из 10 студентов зачёт сдают 8, а не сдают 2, то шанс сдачи равен 8 к 2, то есть 4. Не путайте с вероятностью: вероятность тут 8 из 10, то есть 0,8, а шанс — «успехов вчетверо больше, чем неудач». Логистическая регрессия внутри работает именно с шансами, поэтому и результат выражает через них.

Теперь отношение шансов — это во сколько раз меняется шанс события, если предиктор вырос на одну единицу.

  • OR > 1 — фактор повышает шанс события. OR = 1,5 значит «шанс вырос в полтора раза».
  • OR < 1 — фактор снижает шанс. OR = 0,7 значит «шанс упал на 30%».
  • OR = 1 — фактор на исход не влияет.

Пример. Изучаем эмоциональное выгорание у педагогов. Для предиктора «стаж» получили OR = 1,12. Значит, каждый дополнительный год стажа повышает шанс выгорания примерно на 12%. А для предиктора «уровень соцподдержки» вышло OR = 0,6 — чем выше поддержка, тем шанс выгорания ниже.

Совет

В дипломе всегда переводите OR на человеческий язык в скобках. Не «OR = 2,0», а «OR = 2,0, то есть шанс события удваивается». Научный руководитель и комиссия скажут спасибо — цифра сразу обретает смысл.

Когда брать логистическую регрессию

Берите её, если все три пункта про вас:

  1. Отклик бинарный. Зависимая переменная — это «да/нет», «есть/нет признака», «группа A / группа B». Например: поступил, выгорел, прошёл норматив, рецидив.
  2. Есть предикторы. Один или несколько факторов, которыми вы хотите этот исход объяснить. Они могут быть и числами (возраст, балл), и категориями (пол, наличие травмы).
  3. Цель — объяснить или предсказать. Вам важно не просто «связаны ли», а насколько каждый фактор двигает шанс события.
Осторожно

Если зависимая переменная имеет три и более не упорядоченных исхода (например, «выбрал гуманитарный / технический / творческий профиль»), обычная логистическая регрессия не подходит — нужна её многоклассовая версия. Для диплома такие модели берут редко: чаще исход сводят к двум вариантам.

Когда логистическая НЕ нужна

Чтобы не запутаться, держите рядом и обратную подсказку — когда метод брать НЕ стоит:

Простое правило: хи-квадрат отвечает «связь есть?», а логистическая регрессия — «насколько и в какую сторону каждый фактор двигает шанс?».

Как читать результаты

Когда модель посчитана, в дипломе обычно опираются на три вещи.

  • Отношение шансов (OR) по каждому предиктору — главная цифра, её мы разобрали выше.
  • p-значение для каждого предиктора — значим ли его вклад. Если p < 0,05, фактор влияет на исход не случайно. Подробнее — в статье «Что такое p-значение».
  • Доверительный интервал для OR — диапазон, в котором лежит истинное отношение шансов. Если интервал не накрывает 1, влияние значимо. Что это вообще такое — в статье «Доверительный интервал».

Покажем на сводной таблице. Допустим, мы предсказываем вероятность отчисления первокурсника по трём факторам.

Таблица 1 — Результаты логистической регрессии: предикторы риска отчисления (n = 120)

Предиктор OR 95% ДИ p Вывод
Балл ЕГЭ (на каждые 10 баллов) 0,72 0,58–0,90 0,004 выше балл — ниже риск
Пропуски занятий (на 10%) 1,45 1,18–1,79 0,001 больше пропусков — выше риск
Участие в кружках (да/нет) 0,80 0,49–1,31 0,38 влияние незначимо

Из таблицы 1 видно: значимы первые два фактора. Каждые лишние 10% пропусков повышают шанс отчисления почти в полтора раза (OR = 1,45; p = 0,001), а каждые 10 баллов ЕГЭ его снижают (OR = 0,72). Участие в кружках в этой выборке на исход значимо не повлияло: доверительный интервал OR накрывает 1, а p > 0,05.

Важно

Главный ориентир значимости — связка из двух условий: p < 0,05 и доверительный интервал OR не включает 1. Если интервал перешагивает через единицу, фактор считается незначимым, даже если сама точка OR выглядит «красиво».

Что писать в дипломе

Готовые формулировки, которые можно адаптировать под свои данные:

  • «Для предсказания бинарного исхода (отчислен / не отчислен) построена модель логистической регрессии с тремя предикторами».
  • «Значимыми предикторами риска отчисления оказались балл ЕГЭ (OR = 0,72; 95% ДИ 0,58–0,90; p = 0,004) и доля пропущенных занятий (OR = 1,45; 95% ДИ 1,18–1,79; p = 0,001)».
  • «Каждые дополнительные 10% пропусков повышают шанс отчисления в 1,45 раза при прочих равных условиях».
  • «Участие в кружках значимого вклада в модель не внесло (OR = 0,80; p = 0,38), поэтому из итоговой интерпретации исключено».

В методическом разделе обязательно укажите: тип зависимой переменной (бинарная), список предикторов и объём выборки. По объёму — общая прикидка в статье «Сколько респондентов нужно для диплома».

Частые ошибки

  • Брать линейную регрессию для исхода «да/нет». Она выдаст вероятности вне диапазона 0–1 — это методическая ошибка.
  • Путать OR с вероятностью. OR = 2 не значит «вероятность 200%». Это удвоение шанса, а не вероятности.
  • Игнорировать доверительный интервал. Без него по одной точке OR нельзя судить о значимости.
  • Кормить модель слишком многими предикторами при маленькой выборке. Грубый ориентир — не меньше ~10 наблюдений редкого исхода на каждый предиктор, иначе результат неустойчив.
  • Сравнивать OR разных предикторов «в лоб». Они измерены в разных единицах (баллы, проценты, годы), поэтому «у кого OR больше — тот важнее» не работает.

Частые вопросы

Чем логистическая регрессия отличается от хи-квадрата?

Хи-квадрат проверяет, есть ли связь между двумя категориальными признаками, и отвечает «да/нет». Логистическая регрессия идёт дальше: она учитывает сразу несколько предикторов и для каждого показывает силу и направление влияния через OR. Если фактор один и он категориальный — часто хватает хи-квадрата.

Сколько предикторов можно включить?

Технически — сколько угодно, но на практике их число ограничено объёмом выборки. Чем меньше людей и чем реже встречается исход «да», тем меньше предикторов стоит брать. Для студенческого диплома обычно достаточно двух-четырёх осмысленных факторов.

Предикторы обязательно должны быть числами?

Нет. Они могут быть и категориями: пол, наличие травмы, экспериментальная группа. Категориальный предиктор кодируют как 0/1, и его OR показывает, во сколько раз отличается шанс события у одной категории по сравнению с другой (базовой).

Что показывает «направление» коэффициента?

Знак коэффициента (до перевода в OR) говорит, в какую сторону фактор двигает исход. Положительный коэффициент даёт OR > 1 (повышает шанс), отрицательный — OR < 1 (понижает). На практике удобнее сразу смотреть на OR относительно единицы.

Логистическая регрессия — это про корреляцию?

Нет, это именно регрессия: она моделирует влияние предикторов на исход, а не просто измеряет тесноту связи. Разницу между этими подходами разбирает статья «Корреляция или регрессия».

Короткий алгоритм

  1. Проверьте отклик. Он бинарный («да/нет»)? Если да — ваш метод логистическая регрессия. Если это число — берите линейную.
  2. Соберите предикторы. Отберите 2–4 осмысленных фактора; их можно кодировать числами и категориями.
  3. Постройте модель и выпишите по каждому предиктору три значения: OR, доверительный интервал, p.
  4. Отметьте значимые предикторы: p < 0,05 и ДИ не накрывает 1.
  5. Переведите OR словами («шанс выше в 1,5 раза» / «ниже на 30%») и сделайте вывод.
Вывод

Коротко: исход «да/нет» → логистическая регрессия; её результат — это отношение шансов OR. OR > 1 повышает шанс события, OR < 1 — снижает, а значимость подтверждают p < 0,05 и доверительный интервал, не задевающий единицу.

Что ещё почитать

Не уверены, какой метод подходит под ваши данные — загляните в базу методов или закажите консультацию: эксперт подберёт модель и посчитает за вас.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.

Заказать консультацию