Стандартное отклонение и дисперсия простыми словами
Что такое дисперсия и стандартное отклонение, чем они отличаются, как посчитать по формуле и шагам, что такое коэффициент вариации и правило 3 сигм. С примером и FAQ.
Среднее говорит о «типичном» значении, но ничего не говорит о том, насколько данные кучные или разбросанные. За разброс отвечают дисперсия и стандартное отклонение — разберём их на пальцах и на конкретном примере.
В двух словах
И дисперсия, и стандартное отклонение — это меры разброса данных вокруг среднего.
- Дисперсия (s²) — средний квадрат отклонений значений от среднего. Измеряется в «квадратных» единицах, поэтому неудобна для прочтения.
- Стандартное отклонение (s или σ) — это корень из дисперсии. Оно в тех же единицах, что и данные, и показывает «типичное» отклонение значения от среднего. Поэтому в дипломе пишут именно его — в виде M ± s.
Посчитать оба показателя за секунду можно в калькуляторе описательной статистики.
Что такое дисперсия
Представьте, что у вас есть среднее значение M. Каждое наблюдение чем-то от него отличается — на величину отклонения (xᵢ − M). Если просто сложить все отклонения, получится ноль: плюсы и минусы взаимно сократятся. Поэтому отклонения возводят в квадрат (так все они становятся положительными) и усредняют.
Это и есть дисперсия — средний квадрат отклонений от среднего. Чем она больше, тем сильнее значения «разбегаются» от центра.
Формула выборочной дисперсии:
Формула. s² = Σ(xᵢ − M)² / (n − 1)
Обратите внимание на знаменатель: для выборки делят не на n, а на n − 1. Это так называемая несмещённая оценка — она поправляет на то, что среднее мы посчитали по той же выборке, и без поправки разброс систематически занижался бы. Если же у вас вся генеральная совокупность целиком (все объекты, а не выборка из них), делят на N.
Минус один в знаменателе важен только на небольших выборках. На n = 200 разница между делением на n и на n − 1 ничтожна, но в дипломе с n = 20–30 её уже видно, поэтому используйте именно выборочную формулу с n − 1.
Что такое стандартное отклонение
У дисперсии есть неудобство: её единицы — это квадрат единиц данных. Если вы измеряли рост в сантиметрах, дисперсия будет в «сантиметрах в квадрате», а это бессмысленно интерпретировать.
Решение простое — извлечь квадратный корень. Получится стандартное отклонение:
Формула. s = √s² = √[ Σ(xᵢ − M)² / (n − 1) ]
Теперь показатель снова в обычных единицах (сантиметрах, баллах, секундах) и читается по-человечески: это «типичное» отклонение отдельного значения от среднего.
- Маленькое s — значения кучно жмутся к среднему, выборка однородная.
- Большое s — значения широко разбросаны, выборка неоднородная.
На рисунке 1 видно, как два набора данных могут иметь одинаковое среднее, но совершенно разный разброс.
Как посчитать (по шагам)
Возьмём небольшой ряд баллов: 4, 6, 6, 7, 8, 9 (n = 6).
Шаг 1. Среднее (M). Складываем все значения и делим на их количество: M = (4 + 6 + 6 + 7 + 8 + 9) / 6 = 40 / 6 ≈ 6,67.
Шаг 2. Отклонения и их квадраты. Для каждого значения считаем (xᵢ − M) и (xᵢ − M)². Удобно свести в таблицу 1.
Таблица 1 — Пошаговый расчёт дисперсии и стандартного отклонения (n = 6, M = 6,67)
| Значение xᵢ | Отклонение (xᵢ − M) | Квадрат (xᵢ − M)² |
|---|---|---|
| 4 | −2,67 | 7,13 |
| 6 | −0,67 | 0,45 |
| 6 | −0,67 | 0,45 |
| 7 | 0,33 | 0,11 |
| 8 | 1,33 | 1,77 |
| 9 | 2,33 | 5,43 |
| Сумма | ≈ 0 | 15,34 |
Сумма самих отклонений почти ноль (так и должно быть — округление даёт небольшую погрешность), а нам нужна сумма квадратов: Σ(xᵢ − M)² ≈ 15,34.
Шаг 3. Дисперсия. Делим сумму квадратов на n − 1: s² = 15,34 / (6 − 1) = 15,34 / 5 ≈ 3,07.
Шаг 4. Стандартное отклонение. Извлекаем корень: s = √3,07 ≈ 1,75 балла.
Шаг 5. Запись результата. В дипломе это пишут как M ± s: 6,67 ± 1,75 балла.
В Excel всё это считается двумя функциями: =СРЗНАЧ(диапазон) даёт среднее, а =СТАНДОТКЛОН.В(диапазон) (англ. STDEV.S) — выборочное стандартное отклонение с делением на n − 1. Для дисперсии есть =ДИСП.В (VAR.S). Не перепутайте с .Г-версиями — они для генеральной совокупности.
Как интерпретировать и коэффициент вариации
Само по себе «s = 1,75» мало что говорит: много это или мало — зависит от масштаба. Отклонение в 1,75 балла на шкале до 10 — это заметно, а 1,75 рубля при средней цене 5000 рублей — мелочь.
Чтобы сравнивать разброс на разных шкалах, считают относительный показатель — коэффициент вариации:
Формула. CV = (s / M) · 100%
Для нашего примера: CV = (1,75 / 6,67) · 100% ≈ 26,2%.
Как читать коэффициент вариации:
- CV до 33% — разброс умеренный, выборку считают относительно однородной.
- CV больше 33% — разброс большой, выборка неоднородная, среднее хуже описывает данные (стоит присмотреться к выбросам или к медиане).
Наши 26,2% < 33% — значит, баллы лежат довольно кучно, и среднее 6,67 хорошо отражает группу.
Стандартное отклонение отвечает на вопрос «на сколько единиц в среднем значения отходят от центра», а коэффициент вариации — на вопрос «велик ли этот разброс относительно самого среднего».
Связь с нормальным распределением
Если данные распределены нормально, стандартное отклонение получает наглядный смысл через правило трёх сигм:
- в интервал M ± 1s попадает ≈ 68% всех значений;
- в интервал M ± 2s — ≈ 95%;
- в интервал M ± 3s — ≈ 99,7% (практически все).
То есть значение, отстоящее от среднего больше чем на 2–3 стандартных отклонения, — редкое и часто рассматривается как кандидат в выбросы. Подробнее — в статье «Нормальное распределение».
Частые ошибки
- Делить на n вместо n − 1 для выборки. В дипломе почти всегда у вас выборка, а не вся совокупность, — берите выборочную формулу с n − 1.
- Путать дисперсию и стандартное отклонение. Стандартное отклонение — это корень из дисперсии; в выводах приводят именно его (в тех же единицах, что и данные).
- Сравнивать разброс разных шкал по s напрямую. Для шкал с разными единицами или масштабом используйте коэффициент вариации, а не сырое s.
- Писать стандартное отклонение для балльных, явно ненормальных данных. Тогда честнее медиана и квартили — см. «Среднее, медиана и мода».
- Терять знак при подсчёте отклонений вручную. Сами отклонения в сумме дают ноль; смысл — в их квадратах.
Частые вопросы
Чем дисперсия отличается от стандартного отклонения?
Дисперсия — средний квадрат отклонений (в квадратных единицах), стандартное отклонение — корень из неё (в обычных единицах). Это один и тот же разброс, просто стандартное отклонение удобнее читать, поэтому в тексте работы приводят его.
Что такое выборочное стандартное отклонение?
Это стандартное отклонение, посчитанное по выборке с делением суммы квадратов на n − 1. Деление на n − 1 даёт несмещённую оценку разброса генеральной совокупности. Именно его выдают функции СТАНДОТКЛОН.В в Excel и наш калькулятор.
Как найти стандартное отклонение в Excel?
Введите данные в столбец и используйте =СТАНДОТКЛОН.В(A1:A6) для выборки (англ. STDEV.S). Для среднего — =СРЗНАЧ(A1:A6). Версии с .Г (STDEV.P) считают по генеральной совокупности с делением на N.
Какое стандартное отклонение считается большим?
Однозначного порога в самих единицах нет — всё зависит от масштаба. Чтобы оценить «много или мало», переведите в коэффициент вариации: CV выше 33% обычно говорит о неоднородной выборке.
Как записать результат в дипломе?
Принятая форма — M ± s, например «6,67 ± 1,75 балла». При необходимости рядом указывают объём выборки n и (для ненормальных данных) дополнительно медиану с квартилями.
Зачем считать дисперсию, если в выводах всё равно нужно s?
Дисперсия — промежуточный шаг (её корень и есть стандартное отклонение), но она же лежит в основе многих критериев: дисперсионного анализа, t-критерия, доверительного интервала. Так что понимать её полезно.
Короткий алгоритм
- Посчитайте среднее M.
- Для каждого значения найдите отклонение (xᵢ − M) и возведите в квадрат.
- Сложите квадраты и разделите на n − 1 — это дисперсия s².
- Извлеките корень — это стандартное отклонение s.
- При желании посчитайте CV = (s / M) · 100% и запишите итог как M ± s.
Что ещё почитать
- Описательная статистика в дипломе — какие показатели приводить и как оформить таблицу.
- Среднее, медиана и мода — меры центра и когда что выбирать.
- Нормальное распределение — откуда берётся правило трёх сигм.
- Доверительный интервал — как разброс превращается в оценку точности среднего.
- Калькулятор описательной статистики — посчитать M, s², s и CV автоматически.
Все показатели разброса можно посчитать за пару секунд в калькуляторе описательной статистики, а выбрать метод для всей практической части поможет база методов и консультация эксперта.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию