StatBlank
Основы12 июня 2026·11 мин чтения

Выбросы в данных: как найти и что с ними делать

Что такое выбросы и почему они портят среднее, SD и параметрические критерии. Как найти их по правилу 1,5×IQR, ±3σ и боксплоту — с примерами, таблицей и FAQ.

Вы собрали данные, посчитали среднее — и оно подозрительно «не такое». Все ответы крутятся около 20, а среднее почему-то 35. Скорее всего, в выборку затесался выброс — одно или несколько значений, которые резко выбиваются из общего ряда.

Выбросы коварны: одно случайное число способно перекосить среднее, раздуть разброс и обрушить выводы по критериям. Разберёмся, как их распознать и что с ними делать, чтобы диплом не развалился на защите.

В двух словах

Выброс — это аномальное значение, которое сильно отличается от остальных. Найти его можно тремя способами: по правилу 1,5×IQR (через квартили), по правилу ±3σ (через стандартное отклонение) и визуально по боксплоту — точки за «усами» и есть кандидаты в выбросы.

Что делать: сначала проверьте, не ошибка ли это ввода. Если ошибка — исправьте. Если значение реальное, но всё ломает — переходите на медиану и непараметрические критерии, которые к выбросам устойчивы. Быстро посмотреть среднее, медиану, квартили и разброс по вашему ряду можно в калькуляторе описательной статистики.

Что такое выброс и почему он опасен

Представьте, что вы измеряете время бега на 100 метров у группы студентов. Все уложились в 13–16 секунд, а один — за 95 секунд: подвернул ногу и дошёл пешком. Это значение настоящее (так и было), но для задачи «какова типичная скорость группы» оно бесполезно и даже вредно.

Опасность в том, что многие статистические показатели «доверчивы»: они учитывают каждое число с одинаковым весом, и один гигант перетягивает их на себя.

  • Среднее тянется к выбросу. Среднее — это «центр тяжести» ряда. Добавьте одно огромное значение — и центр уезжает к нему, переставая отражать большинство.
  • Стандартное отклонение раздувается. Стандартное отклонение (SD) и дисперсия считают, насколько значения разбросаны вокруг среднего. Выброс далеко от центра — и разброс кажется огромным, хотя основная масса данных кучная.
  • Параметрические критерии «плывут». Критерий Стьюдента, корреляция Пирсона, ANOVA работают со средними и SD. Если эти показатели искажены выбросом, то и вывод «значимо / не значимо» может оказаться неверным.
  • Корреляция ломается особенно зрелищно. Одна точка в углу графика способна нарисовать «связь», которой нет, или, наоборот, спрятать реальную.
Важно

Ключевая мысль: выброс — это не «плохое» число, которое надо стереть. Это сигнал. Иногда он указывает на ошибку в данных, иногда — на редкий, но настоящий случай. Ваша задача не удалить его поскорее, а понять, откуда он взялся.

Как выброс портит среднее: пример с числами

Возьмём конкретный ряд. Девять студентов прошли тест на тревожность, баллы получились кучными:

Пример. Баллы девяти студентов: 18, 20, 21, 22, 22, 23, 24, 25, 26. Среднее = 22,3, медиана = 22. Всё спокойно: центр около 22, и среднее, и медиана это подтверждают.

Теперь добавим десятого студента, который машинально проставил везде максимум и набрал 90 баллов (явная аномалия — шкала будто переполнена). Пересчитаем.

Таблица 1 — Как один выброс меняет показатели ряда

Показатель Без выброса (n = 9) С выбросом 90 (n = 10) Что произошло
Среднее 22,3 29,1 уехало на +6,8, хотя добавился один человек
Медиана 22 22,5 почти не сдвинулась
Стандартное отклонение ≈ 2,4 ≈ 20,8 раздулось почти в 9 раз
Размах 8 72 картина «огромного разброса» из воздуха

Вывод словами: один-единственный выброс поднял среднее почти на 7 баллов и раздул стандартное отклонение в девять раз — теперь данные выглядят «дикими», хотя девять человек из десяти по-прежнему рядом. А вот медиана (значение ровно посередине упорядоченного ряда) почти не дрогнула: 22 против 22,5. В этом её сила.

Заметка

Заметьте разницу: среднее «доверяет» каждому числу, поэтому выброс тянет его за собой. Медиана смотрит только на того, кто стоит в середине ряда, и ей всё равно, насколько велик крайний справа — 26 там или 26 000. Подробнее про эту троицу — в статье «Среднее, медиана и мода».

Как найти выбросы: три способа

Способ 1. Правило 1,5×IQR (по квартилям)

Самый популярный и надёжный метод — он не зависит от формы распределения. Работает через квартили — значения, которые делят упорядоченный ряд на четыре равные части (подробно — в статье «Медиана и квартили»).

  • Q1 — первая квартиль, отсекает нижние 25% данных.
  • Q3 — третья квартиль, отсекает верхние 25%.
  • IQR — межквартильный размах, это просто Q3 − Q1, «ширина» средней половины данных.

Дальше считаем границы. Всё, что вылезает за них, — подозреваемые:

  • нижняя граница = Q1 − 1,5 × IQR;
  • верхняя граница = Q3 + 1,5 × IQR.

Пример. В нашем ряду с выбросом Q1 ≈ 21, Q3 ≈ 25, значит IQR = 4. Верхняя граница = 25 + 1,5 × 4 = 31. Значение 90 больше 31 → это выброс. А все «нормальные» баллы (18–26) спокойно укладываются между нижней границей 15 и верхней 31.

Считать квартили вручную муторно и легко перепутать. Вставьте свой ряд в калькулятор описательной статистики: он сразу выдаст Q1, Q3 и IQR, останется только подставить в формулу 1,5×IQR.

Способ 2. Правило ±3σ (через стандартное отклонение)

Этот метод подходит, когда данные распределены примерно нормально (колоколом). Логика: при нормальном распределении почти все значения (99,7%) лежат в пределах трёх стандартных отклонений от среднего. Всё, что дальше, — крайне редкое событие, скорее всего выброс.

  • считаем среднее и стандартное отклонение σ;
  • границы = среднее ± 3σ;
  • что вылетело за них — кандидат в выбросы.

Пример. Если среднее = 22 и σ = 2,5, то коридор «нормы» = от 22 − 7,5 до 22 + 7,5, то есть от 14,5 до 29,5. Балл 90 туда не помещается даже близко.

Осторожно

У правила ±3σ есть ловушка: сам выброс раздувает σ, расширяет коридор — и может сам себя «спрятать», особенно в маленькой выборке. Поэтому на малых выборках и при ненормальных данных надёжнее правило 1,5×IQR: оно опирается на квартили, а их выброс почти не сдвигает.

Способ 3. Визуально — по боксплоту

Боксплот («ящик с усами») — это график, который рисует всю описательную статистику разом: коробка показывает межквартильный размах (от Q1 до Q3), линия внутри — медиану, «усы» тянутся до крайних обычных значений, а отдельные точки за усами — это и есть выбросы. По сути боксплот рисует то же правило 1,5×IQR, только наглядно.

баллы выброс медиана коробка = средние 50% данных
Рисунок 1 — Боксплот: точка за «усом» справа — это выброс

Боксплот хорош тем, что показывает выброс мгновенно: глаз сам цепляется за одинокую точку вдали от коробки. Поэтому его удобно вставить в диплом как иллюстрацию — и для себя, чтобы быстро проверить данные.

Что делать с выбросом: алгоритм решения

Нашли подозрительную точку — не спешите удалять. Пройдите по шагам.

  • Шаг 1. Проверьте, не ошибка ли ввода. Чаще всего выброс — это банальная опечатка: лишний ноль (вес 700 кг вместо 70), запятая не там (рост 1,8 превратился в 18), перепутанные единицы. Вернитесь к анкете или протоколу и сверьте.
  • Шаг 2. Ошибку — исправьте или удалите. Если видно, что должно быть 70, а не 700, — поправьте. Если исходник недоступен и значение явно невозможное (возраст 200 лет) — удалите эту запись, отметив это в работе.
  • Шаг 3. Значение реальное? Тогда не выбрасывайте просто так. Если спортсмен и правда пробежал медленно из-за травмы, а респондент честно набрал высокий балл — это часть вашей выборки. Удалять реальные данные «потому что мешают» — подтасовка.
  • Шаг 4. Перейдите на устойчивые методы. Когда выбросы настоящие, не воюйте с ними — смените инструмент. Описывайте данные медианой и квартилями вместо среднего и SD, а для сравнения групп берите непараметрические критерии (Манна-Уитни, Вилкоксона, Краскела-Уоллиса) — они работают с рангами и к выбросам почти безразличны.
Вывод

Главный принцип: ошибку — исправляем, реальный выброс — оставляем, но переходим на медиану и непараметрику. Удалять настоящие данные ради «красивого» среднего нельзя — это искажение результатов, и на защите такой ход легко поймать.

Что писать в дипломе

Выбросы нельзя «тихо» удалять — любые манипуляции с данными описывают честно. Вот готовые формулировки.

Если нашли и исправили ошибку ввода:

«При первичной проверке данных выявлено одно значение (вес 700 кг), являющееся ошибкой ввода; оно исправлено на корректное (70 кг) по данным протокола».

Если обнаружили выброс по правилу 1,5×IQR и решили перейти на непараметрику:

«Анализ методом 1,5×IQR выявил 2 выброса в показателе времени реакции. Поскольку значения являются реальными, для описания применялись медиана и квартили, а для сравнения групп — непараметрический критерий Манна-Уитни».

Если выброс реальный и вы его оставили:

«Значение 95 секунд обусловлено травмой испытуемого в ходе тестирования; как достоверное, оно сохранено в выборке».

Опишите выбросы в разделе про обработку данных — буквально одним абзацем: чем проверяли (1,5×IQR или ±3σ), сколько нашли, что с ними сделали. Это показывает, что вы работали с данными аккуратно, а не «причесали» их втихую.

Частые ошибки

  • Удалять выбросы молча, чтобы среднее стало красивее. Это искажение данных. Любое удаление обосновывают и описывают в работе.
  • Считать выбросом всё, что не нравится. Выброс определяют по правилу (1,5×IQR или ±3σ), а не «на глаз, потому что портит картину».
  • Проверять ±3σ на ненормальных данных. Если распределение перекошено, правило трёх сигм врёт. Сначала проверьте нормальность (Шапиро-Уилк), потом выбирайте метод.
  • Оставить выбросы и считать параметрику. Если выбросы есть, а вы упорно применяете Стьюдента и Пирсона по среднему — выводы могут быть недостоверными.
  • Путать выброс с нормальным разбросом. В большой выборке крайние значения — это норма, а не аномалия. Выброс — то, что вылетает далеко за границы 1,5×IQR.

Частые вопросы

Чем выброс отличается от просто большого значения?

Большое значение лежит в пределах ожидаемого разброса (внутри границ 1,5×IQR или ±3σ). Выброс выходит за эти границы и резко отрывается от остального ряда. Граница не «на глаз», а по формуле — поэтому методы и нужны.

Сколько выбросов — это уже много?

Жёсткого порога нет. Один-два на выборку из 30–50 человек — обычное дело. Но если «выбросов» десятая часть данных и больше, это уже не аномалии, а сигнал: возможно, у вас не нормальное распределение или две разные подгруппы в одной выборке. Тогда вопрос не в удалении, а в смене подхода к анализу.

Можно ли вообще удалять выбросы?

Только обоснованно. Ошибки ввода и физически невозможные значения — да, удаляют (и пишут об этом). Реальные крайние значения удалять нельзя: это часть генеральной совокупности. Вместо удаления переходите на медиану и непараметрические критерии.

Что лучше при выбросах — 1,5×IQR или ±3σ?

Для большинства студенческих работ — 1,5×IQR: он не требует нормальности и устойчив на малых выборках. Правило ±3σ хорошо только для данных, близких к нормальному распределению, и на больших выборках.

Если убрать выброс, результат меняется на значимый — что делать?

Это тревожный знак: ваш вывод держится на одной точке. Честный путь — посчитать оба варианта (с выбросом и без) и описать оба, либо перейти на непараметрический критерий, который устойчив к выбросам, и опереться на него.

Короткий алгоритм

  1. Постройте боксплот или посчитайте границы. Прогоните ряд через калькулятор описательной статистики, найдите Q1, Q3 и примените 1,5×IQR (либо ±3σ, если данные нормальны).
  2. Разберитесь с каждым подозреваемым. Ошибка ввода? — исправьте или удалите с пометкой. Реальное значение? — оставьте.
  3. Если выбросы реальные — смените инструмент. Описывайте данные медианой и квартилями, а группы сравнивайте непараметрикой (Манна-Уитни, Вилкоксона, Краскела-Уоллиса). И обязательно опишите всё это в дипломе одним абзацем.

Что ещё почитать

Не уверены, что делать с выбросами в ваших данных, — загляните в базу методов или закажите консультацию: эксперт проверит выборку и подберёт корректный метод анализа.

Не хотите разбираться со статистикой сами?

Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.

Заказать консультацию