Ранжирование данных: что такое ранг и зачем он
Простыми словами: что такое ранг, как присвоить ранги и обработать связанные значения, зачем это нужно для непараметрических критериев. С примерами и FAQ.
Вы открыли калькулятор Манна-Уитни или Спирмена и встретили слово «ранг». Звучит как что-то сложное из учебника, а на деле это обычные места в очереди: первый, второй, третий.
Ранжирование — главный приём, на котором держатся почти все непараметрические методы. Разберём его раз и навсегда, на пальцах и с числами.
В двух словах
- Ранг — это номер значения по порядку, если выстроить все числа от меньшего к большему. Самое маленькое получает ранг 1, следующее — 2 и так далее.
- Ранжирование — это процесс присвоения таких номеров. Мы заменяем сами числа их местами в общем ряду.
Зачем это нужно: на рангах работают критерий Манна-Уитни, критерий Вилкоксона, корреляция Спирмена и другие непараметрические методы. О самом делении методов на параметрические и непараметрические — в статье «Параметрические и непараметрические критерии».
Что такое ранг простыми словами
Представьте финиш забега. Неважно, на сколько секунд один бегун обогнал другого, — важно лишь, кто пришёл первым, кто вторым, кто третьим. Эти места и есть ранги.
В статистике то же самое. Вы берёте все значения, выстраиваете их по возрастанию и каждому даёте номер места. Сами секунды, баллы или сантиметры при этом «забываются» — остаётся только порядок.
Пример. Пять студентов набрали баллы за тест: 12, 7, 20, 15, 9. Сортируем по возрастанию: 7, 9, 12, 15, 20. Теперь раздаём места: 7 → ранг 1, 9 → ранг 2, 12 → ранг 3, 15 → ранг 4, 20 → ранг 5.
Обратите внимание: студент с баллом 12 получает ранг 3, хотя по списку он был первым. Ранг — это место по величине, а не по порядку в вашей таблице.
Ранг показывает только порядок, но не расстояние. Между рангами 1 и 2 такой же «шаг», как между 4 и 5, даже если в исходных числах разница была 2 балла и 20 баллов. Именно поэтому ранги устойчивы к выбросам — одно гигантское значение просто получит последний ранг и не раздует результат.
Как присвоить ранги: пошагово
Алгоритм простой и всегда один и тот же.
- Соберите все значения в один ряд. Если сравниваете две группы, ранжируете их вместе, как один общий список.
- Отсортируйте по возрастанию — от самого маленького к самому большому.
- Раздайте номера по порядку: 1, 2, 3, … Самому маленькому — ранг 1.
- Разберитесь со связанными значениями (одинаковыми числами) — об этом следующий раздел.
Пример. В эксперименте измерили гибкость (наклон вперёд, см) у 6 человек: 3, 8, 5, 11, 2, 8. Сортируем: 2, 3, 5, 8, 8, 11. Раздаём ранги: 2 → 1, 3 → 2, 5 → 3, дальше идут две восьмёрки (с ними разберёмся ниже), 11 → последний ранг.
Связанные ранги: что делать с одинаковыми числами
Часто два или больше значений совпадают — например, два человека набрали по 8 баллов. Кому из них дать ранг 4, а кому 5? Несправедливо: они одинаковые.
Решение — средний ранг. Все одинаковые значения получают одно и то же число: среднее арифметическое тех мест, которые они занимали бы по порядку.
Пример. Вернёмся к гибкости: 2, 3, 5, 8, 8, 11. Две восьмёрки претендуют на места 4 и 5. Берём среднее: (4 + 5) / 2 = 4,5. Обе восьмёрки получают ранг 4,5. А значение 11 идёт следующим — ранг 6 (место 5 как будто «израсходовано»).
Если совпадают три значения, делаем то же самое: усредняем три подряд идущих места.
Пример. Ряд оценок: 4, 4, 4, 7. Три четвёрки заняли бы места 1, 2, 3. Средний ранг: (1 + 2 + 3) / 3 = 2. Все три четвёрки получают ранг 2, а семёрка — ранг 4.
Соберём оба разбора в одну таблицу, чтобы было видно логику присвоения.
Таблица 1 — Как присваиваются ранги, включая связанные значения
| Значение | Место по порядку | Ранг | Комментарий |
|---|---|---|---|
| 2 | 1 | 1 | уникальное |
| 3 | 2 | 2 | уникальное |
| 5 | 3 | 3 | уникальное |
| 8 | 4 | 4,5 | связано со второй восьмёркой |
| 8 | 5 | 4,5 | средний ранг (4+5)/2 |
| 11 | 6 | 6 | уникальное |
Как видно из таблицы, связанные значения «делят» свои места поровну, а следующее за ними число продолжает нумерацию как обычно.
Быстрая проверка: сумма всех рангов должна равняться n·(n+1)/2, где n — количество значений. Для шести чисел это 6·7/2 = 21. Складываем наши ранги: 1 + 2 + 3 + 4,5 + 4,5 + 6 = 21. Сошлось — значит, ранги расставлены верно.
Зачем вообще ранжировать данные
Главная причина — непараметрические критерии. Это методы, которым не важна форма распределения данных, и работают они как раз с рангами, а не с самими числами.
Вот где ранги лежат в основе:
- Критерий Манна-Уитни. Сравнивает две независимые группы (например, контрольную и экспериментальную). Все значения ранжируются вместе, а потом смотрят, в какой группе ранги «тяжелее».
- Критерий Вилкоксона. Сравнивает замеры «до» и «после» у одних и тех же людей. Ранжируются величины сдвигов.
- Корреляция Спирмена. Измеряет связь двух признаков. Каждый признак ранжируется отдельно, а связь ищут уже между рангами.
- Критерий Краскела-Уоллиса. То же, что Манна-Уитни, но для трёх и более групп.
Вторая причина — устойчивость к выбросам и работа с порядковыми шкалами. Баллы анкет, оценки, уровни «низкий/средний/высокий» — это не настоящие числа, их нельзя складывать и усреднять напрямую. А вот ранжировать — можно. Подробнее о типах данных — в статье «Шкалы измерения».
Ранжирование — это не отдельный «анализ», а подготовительный шаг внутри непараметрического критерия. В калькуляторе вы вводите обычные числа, а ранги программа считает сама. Понимать механику полезно для защиты, но руками ранжировать всю выборку не нужно.
Что писать в дипломе
Само ранжирование в тексте диплома отдельно почти не описывают — оно «спрятано» внутри критерия. Но в методах исследования уместно обосновать выбор непараметрики:
- «Для сравнения групп применялся ранговый критерий Манна-Уитни, поскольку данные представлены в порядковой шкале (баллы методики) и не подчиняются нормальному распределению».
- «Связь между показателями оценивалась с помощью рангового коэффициента корреляции Спирмена».
Если связанных рангов очень много (большая часть значений совпадает), это стоит упомянуть, потому что результат может быть менее точным:
- «При расчёте учитывалось наличие связанных рангов; использовалась поправка на совпадающие значения».
Сами ранги в таблицы выносить не нужно — в диплом идут итоговые показатели критерия (U, T, rs) и p-значение. Как их подавать — в статье «Как описать результаты статистики».
Частые ошибки
- Раздавать ранги по порядку строк в таблице. Ранг — это место по величине, а не номер по списку. Сначала сортируйте.
- Давать одинаковым значениям разные ранги. Совпадающим числам положен один общий средний ранг, иначе результат критерия исказится.
- Ранжировать группы по отдельности для Манна-Уитни. Для сравнения двух групп их объединяют в один ряд и ранжируют вместе.
- Считать, что ранг и значение — одно и то же. Ранг теряет информацию о расстоянии между числами; это плата за устойчивость метода.
- Забывать про проверку суммой. Если сумма рангов не равна n·(n+1)/2 — где-то ошибка в расстановке.
Частые вопросы
Чем ранг отличается от самого значения?
Значение — это конкретное число (12 баллов, 8 см). Ранг — это лишь место этого числа в отсортированном ряду (3-е, 4-е). Ранги сохраняют порядок, но «забывают», насколько далеко значения друг от друга.
Как ранжировать — по возрастанию или по убыванию?
Стандартно — по возрастанию: меньшему значению меньший ранг. Большинство калькуляторов и учебников используют именно этот порядок. Главное — придерживаться одного направления для всех данных в расчёте.
Что такое связанные ранги и почему их усредняют?
Связанные (совпадающие) ранги появляются, когда несколько значений равны. Их усредняют, чтобы никому не дать несправедливое преимущество: одинаковые числа должны иметь одинаковый ранг. Иначе результат критерия будет смещён.
Много совпадающих значений — это проблема?
Если совпадений очень много, точность непараметрического критерия немного снижается, и применяется поправка на связанные ранги. В хороших калькуляторах она учитывается автоматически, так что специально ничего делать не нужно.
Нужно ли ранжировать данные вручную перед калькулятором?
Нет. Вы вводите исходные числа, а онлайн-калькуляторы StatBlank сами ранжируют выборку, обрабатывают совпадения и считают критерий. Ручное ранжирование нужно лишь для понимания механики.
Короткий алгоритм
- Соберите все значения в один общий ряд (для двух групп — вместе).
- Отсортируйте по возрастанию.
- Раздайте ранги: меньшему числу — ранг 1.
- Совпадающим значениям дайте общий средний ранг.
- Проверьте сумму: она должна быть n·(n+1)/2.
Если коротко: ранг — это место числа в отсортированном ряду. Совпадения делят свои места поровну (средний ранг). На рангах держатся Манна-Уитни, Вилкоксон и Спирмен — но считает их за вас калькулятор.
Что ещё почитать
- Параметрические и непараметрические критерии — где именно нужны ранги.
- Шкалы измерения — почему баллы и оценки лучше ранжировать.
- Как выбрать статистический критерий — общая схема под ваши данные.
- Калькулятор Манна-Уитни и корреляция Спирмена — методы на рангах, посчитать онлайн.
Не уверены, какой ранговый метод подходит — загляните в базу методов или закажите консультацию: подберём критерий и посчитаем за вас.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию