Логистическая регрессия простыми словами
Как предсказать исход «да/нет» по нескольким факторам, что такое отношение шансов и когда нельзя брать обычную регрессию. С примерами и FAQ.
Иногда в дипломе нужно не «измерить, насколько изменился балл», а ответить на вопрос «да или нет»: поступит абитуриент или нет, выгорит сотрудник или нет, бросит спортсмен секцию или останется. Исход тут всего двух видов, и зависит он сразу от нескольких факторов.
Для таких задач есть свой инструмент — логистическая регрессия. Она предсказывает вероятность события «да» по набору предикторов и заодно показывает, какой фактор и насколько эту вероятность поднимает.
В двух словах
- Логистическая регрессия нужна, когда зависимая переменная бинарная — принимает два значения: есть событие или нет, успех или неудача, «1» или «0».
- Она оценивает вероятность исхода «да» по одному или нескольким предикторам (возраст, балл теста, пол, стаж — что угодно).
- Главный результат для диплома — отношение шансов (odds ratio, OR): во сколько раз меняется шанс события при росте предиктора на единицу.
Если же ваш отклик — это число на непрерывной шкале (вес, время, балл от 0 до 100), то вам нужна не логистическая, а обычная линейная регрессия. Чем регрессия вообще отличается от корреляции — в статье «Корреляция или регрессия».
Зачем вообще отдельный метод
Казалось бы, можно закодировать «да» как 1, «нет» как 0 и протянуть линейную регрессию. Но так делать нельзя, и вот почему.
Линейная регрессия рисует прямую и спокойно выдаёт значения вроде −0,3 или 1,7. А вероятность не может быть меньше 0 или больше 1 — такие предсказания бессмысленны.
Логистическая регрессия решает это хитро: вместо прямой она использует S-образную кривую (её называют логистической). Кривая плавно поднимается от 0 к 1 и никогда за эти границы не выходит. Поэтому любой ответ модели — это честная вероятность от 0 до 100%.
Пример. Предсказываем, сдаст ли студент зачёт, по числу прорешанных задач. При 2 задачах модель даёт вероятность сдачи 15%, при 10 задачах — 88%. Прямой такие края не описать, а S-кривой — легко.
Что такое отношение шансов простыми словами
Самое пугающее слово в этой теме — отношение шансов (odds ratio). На деле всё бытовое.
Сначала про «шанс» (odds). Это отношение «сколько раз событие случится» к «сколько раз не случится». Если из 10 студентов зачёт сдают 8, а не сдают 2, то шанс сдачи равен 8 к 2, то есть 4. Не путайте с вероятностью: вероятность тут 8 из 10, то есть 0,8, а шанс — «успехов вчетверо больше, чем неудач». Логистическая регрессия внутри работает именно с шансами, поэтому и результат выражает через них.
Теперь отношение шансов — это во сколько раз меняется шанс события, если предиктор вырос на одну единицу.
- OR > 1 — фактор повышает шанс события. OR = 1,5 значит «шанс вырос в полтора раза».
- OR < 1 — фактор снижает шанс. OR = 0,7 значит «шанс упал на 30%».
- OR = 1 — фактор на исход не влияет.
Пример. Изучаем эмоциональное выгорание у педагогов. Для предиктора «стаж» получили OR = 1,12. Значит, каждый дополнительный год стажа повышает шанс выгорания примерно на 12%. А для предиктора «уровень соцподдержки» вышло OR = 0,6 — чем выше поддержка, тем шанс выгорания ниже.
В дипломе всегда переводите OR на человеческий язык в скобках. Не «OR = 2,0», а «OR = 2,0, то есть шанс события удваивается». Научный руководитель и комиссия скажут спасибо — цифра сразу обретает смысл.
Когда брать логистическую регрессию
Берите её, если все три пункта про вас:
- Отклик бинарный. Зависимая переменная — это «да/нет», «есть/нет признака», «группа A / группа B». Например: поступил, выгорел, прошёл норматив, рецидив.
- Есть предикторы. Один или несколько факторов, которыми вы хотите этот исход объяснить. Они могут быть и числами (возраст, балл), и категориями (пол, наличие травмы).
- Цель — объяснить или предсказать. Вам важно не просто «связаны ли», а насколько каждый фактор двигает шанс события.
Если зависимая переменная имеет три и более не упорядоченных исхода (например, «выбрал гуманитарный / технический / творческий профиль»), обычная логистическая регрессия не подходит — нужна её многоклассовая версия. Для диплома такие модели берут редко: чаще исход сводят к двум вариантам.
Когда логистическая НЕ нужна
Чтобы не запутаться, держите рядом и обратную подсказку — когда метод брать НЕ стоит:
- Отклик — непрерывное число (рост, время реакции, итоговый балл): берите линейную регрессию.
- Нужна просто связь двух категорий без предсказания и без набора предикторов: хватит критерия хи-квадрат. Когда вместо хи-квадрата брать точный критерий — в статье «Хи-квадрат или угловое преобразование Фишера».
- Сравниваете средние двух групп (тревожность у мужчин и женщин): это задача для критерия Стьюдента или Манна-Уитни, а не регрессии.
Простое правило: хи-квадрат отвечает «связь есть?», а логистическая регрессия — «насколько и в какую сторону каждый фактор двигает шанс?».
Как читать результаты
Когда модель посчитана, в дипломе обычно опираются на три вещи.
- Отношение шансов (OR) по каждому предиктору — главная цифра, её мы разобрали выше.
- p-значение для каждого предиктора — значим ли его вклад. Если p < 0,05, фактор влияет на исход не случайно. Подробнее — в статье «Что такое p-значение».
- Доверительный интервал для OR — диапазон, в котором лежит истинное отношение шансов. Если интервал не накрывает 1, влияние значимо. Что это вообще такое — в статье «Доверительный интервал».
Покажем на сводной таблице. Допустим, мы предсказываем вероятность отчисления первокурсника по трём факторам.
Таблица 1 — Результаты логистической регрессии: предикторы риска отчисления (n = 120)
| Предиктор | OR | 95% ДИ | p | Вывод |
|---|---|---|---|---|
| Балл ЕГЭ (на каждые 10 баллов) | 0,72 | 0,58–0,90 | 0,004 | выше балл — ниже риск |
| Пропуски занятий (на 10%) | 1,45 | 1,18–1,79 | 0,001 | больше пропусков — выше риск |
| Участие в кружках (да/нет) | 0,80 | 0,49–1,31 | 0,38 | влияние незначимо |
Из таблицы 1 видно: значимы первые два фактора. Каждые лишние 10% пропусков повышают шанс отчисления почти в полтора раза (OR = 1,45; p = 0,001), а каждые 10 баллов ЕГЭ его снижают (OR = 0,72). Участие в кружках в этой выборке на исход значимо не повлияло: доверительный интервал OR накрывает 1, а p > 0,05.
Главный ориентир значимости — связка из двух условий: p < 0,05 и доверительный интервал OR не включает 1. Если интервал перешагивает через единицу, фактор считается незначимым, даже если сама точка OR выглядит «красиво».
Что писать в дипломе
Готовые формулировки, которые можно адаптировать под свои данные:
- «Для предсказания бинарного исхода (отчислен / не отчислен) построена модель логистической регрессии с тремя предикторами».
- «Значимыми предикторами риска отчисления оказались балл ЕГЭ (OR = 0,72; 95% ДИ 0,58–0,90; p = 0,004) и доля пропущенных занятий (OR = 1,45; 95% ДИ 1,18–1,79; p = 0,001)».
- «Каждые дополнительные 10% пропусков повышают шанс отчисления в 1,45 раза при прочих равных условиях».
- «Участие в кружках значимого вклада в модель не внесло (OR = 0,80; p = 0,38), поэтому из итоговой интерпретации исключено».
В методическом разделе обязательно укажите: тип зависимой переменной (бинарная), список предикторов и объём выборки. По объёму — общая прикидка в статье «Сколько респондентов нужно для диплома».
Частые ошибки
- Брать линейную регрессию для исхода «да/нет». Она выдаст вероятности вне диапазона 0–1 — это методическая ошибка.
- Путать OR с вероятностью. OR = 2 не значит «вероятность 200%». Это удвоение шанса, а не вероятности.
- Игнорировать доверительный интервал. Без него по одной точке OR нельзя судить о значимости.
- Кормить модель слишком многими предикторами при маленькой выборке. Грубый ориентир — не меньше ~10 наблюдений редкого исхода на каждый предиктор, иначе результат неустойчив.
- Сравнивать OR разных предикторов «в лоб». Они измерены в разных единицах (баллы, проценты, годы), поэтому «у кого OR больше — тот важнее» не работает.
Частые вопросы
Чем логистическая регрессия отличается от хи-квадрата?
Хи-квадрат проверяет, есть ли связь между двумя категориальными признаками, и отвечает «да/нет». Логистическая регрессия идёт дальше: она учитывает сразу несколько предикторов и для каждого показывает силу и направление влияния через OR. Если фактор один и он категориальный — часто хватает хи-квадрата.
Сколько предикторов можно включить?
Технически — сколько угодно, но на практике их число ограничено объёмом выборки. Чем меньше людей и чем реже встречается исход «да», тем меньше предикторов стоит брать. Для студенческого диплома обычно достаточно двух-четырёх осмысленных факторов.
Предикторы обязательно должны быть числами?
Нет. Они могут быть и категориями: пол, наличие травмы, экспериментальная группа. Категориальный предиктор кодируют как 0/1, и его OR показывает, во сколько раз отличается шанс события у одной категории по сравнению с другой (базовой).
Что показывает «направление» коэффициента?
Знак коэффициента (до перевода в OR) говорит, в какую сторону фактор двигает исход. Положительный коэффициент даёт OR > 1 (повышает шанс), отрицательный — OR < 1 (понижает). На практике удобнее сразу смотреть на OR относительно единицы.
Логистическая регрессия — это про корреляцию?
Нет, это именно регрессия: она моделирует влияние предикторов на исход, а не просто измеряет тесноту связи. Разницу между этими подходами разбирает статья «Корреляция или регрессия».
Короткий алгоритм
- Проверьте отклик. Он бинарный («да/нет»)? Если да — ваш метод логистическая регрессия. Если это число — берите линейную.
- Соберите предикторы. Отберите 2–4 осмысленных фактора; их можно кодировать числами и категориями.
- Постройте модель и выпишите по каждому предиктору три значения: OR, доверительный интервал, p.
- Отметьте значимые предикторы: p < 0,05 и ДИ не накрывает 1.
- Переведите OR словами («шанс выше в 1,5 раза» / «ниже на 30%») и сделайте вывод.
Коротко: исход «да/нет» → логистическая регрессия; её результат — это отношение шансов OR. OR > 1 повышает шанс события, OR < 1 — снижает, а значимость подтверждают p < 0,05 и доверительный интервал, не задевающий единицу.
Что ещё почитать
- Корреляция или регрессия — когда нужна связь, а когда модель-предсказание.
- Руководство по линейной регрессии — старшая сестра метода для числового отклика.
- Множественная регрессия — как работать сразу с несколькими предикторами.
- Что такое p-значение и Доверительный интервал — как читать значимость результата.
- Калькулятор хи-квадрат — для проверки связи двух категорий онлайн.
Не уверены, какой метод подходит под ваши данные — загляните в базу методов или закажите консультацию: эксперт подберёт модель и посчитает за вас.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию