Связанные и независимые выборки: как отличить
Как за минуту понять, связанные у вас выборки (до/после, пары) или независимые (КГ/ЭГ), и почему от этого зависит выбор критерия. С примерами и FAQ.
Перед любым статистическим критерием стоит одна развилка, и от неё зависит всё: ваши выборки связанные или независимые? Перепутаете — возьмёте не тот критерий, и расчёт окажется неверным, даже если цифры «красивые».
Хорошая новость: отличить их можно за минуту по одному простому вопросу. Разберём его, а заодно — какой критерий куда подходит.
В двух словах
- Связанные выборки — это одни и те же объекты, измеренные дважды (до и после), или естественные пары. Для них берут критерий Вилкоксона или парный критерий Стьюдента.
- Независимые выборки — это разные люди в каждой группе (контрольная и экспериментальная). Для них берут критерий Манна-Уитни или критерий Стьюдента для независимых выборок.
Главный вопрос-определитель: можно ли соединить каждое значение из первой группы с конкретным значением из второй? Если да — выборки связанные. Если нет — независимые. Общая логика выбора критерия — в статье «Как выбрать статистический критерий».
Когда выборки связанные
Связанные (их ещё называют зависимыми, парными или повторными) — это когда между двумя наборами чисел есть жёсткая привязка «один к одному». Так бывает в трёх случаях:
- Одни и те же люди до и после. Замерили показатель, провели тренинг или курс, замерили снова у тех же самых испытуемых.
- Естественные пары. Близнецы, муж и жена, спортсмен и его тренер, левая и правая рука одного человека.
- Подобранные пары. Каждому участнику из одной группы специально подбирают «двойника» из другой — того же пола, возраста, уровня подготовки.
Признак простой: если убрать одну строчку из первого столбца, придётся убрать и строго определённую строчку из второго. Они идут парами.
Пример. У 25 студентов замерили тревожность по шкале Спилбергера-Ханина до тренинга и у тех же 25 — после. Каждое «после» относится к конкретному «до» того же студента → выборки связанные.
И ещё нюанс: «связанные» — это не про похожесть данных, а про привязку. Даже если до и после числа сильно отличаются, выборки всё равно связаны — ведь это один и тот же человек.
Когда выборки независимые
Независимые (их называют несвязанными или непарными) — это когда в группах разные люди и соединить значения по парам невозможно. Так бывает, когда:
- сравнивают контрольную и экспериментальную группы (КГ и ЭГ) из разных участников;
- сравнивают мужчин и женщин, новичков и разрядников, городских и сельских;
- сравнивают две независимые методики на двух разных выборках людей.
Признак: группы можно быть разного размера (например, 18 человек против 24), и порядок строк внутри них ни на что не влияет — переставьте как угодно, результат не изменится.
Пример. Сравниваем выносливость в двух группах: 20 спортсменов тренировались по новой программе, 22 других — по старой. Это разные люди, пар нет → выборки независимые.
Быстрая проверка по числу людей: если всего испытуемых, скажем, 25, а в анализе две колонки по 25 значений — выборки связанные (один человек дал два числа). Если 25 человек разбиты на две группы и в сумме это 25 значений — независимые.
Чем они отличаются по сути
Разница не в данных, а в том, что мы сравниваем.
- В связанных выборках мы смотрим на сдвиг внутри каждого человека: стало ему лучше или хуже. Критерий считает разности «после минус до» по каждому и проверяет, перевешивают ли улучшения ухудшения. Личные особенности (кто-то изначально тревожнее) тут не мешают — они «вычитаются».
- В независимых выборках мы сравниваем две группы целиком: у кого в среднем (или по рангам) показатель выше. Вычитать нечего — у человека из КГ нет «своего» человека в ЭГ.
Простая аналогия: связанные выборки — это «измерить, на сколько каждый похудел за месяц». Независимые — «сравнить, кто в среднем стройнее: посетители зала А или зала Б».
Из-за этой разницы и критерии разные — подставить «парный» вместо «для двух групп» нельзя.
Таблица соответствия критериев
Какой именно критерий брать, зависит ещё от типа данных (числа или баллы) и их распределения. Сводка — в таблице 1.
Таблица 1 — Какой критерий брать в зависимости от типа выборок и данных
| Задача | Тип выборок | Данные числовые, нормальные | Баллы / ненормальные |
|---|---|---|---|
| Сравнить 2 замера у одних людей (до/после) | связанные | парный Стьюдент | Вилкоксон |
| Сравнить 2 разные группы (КГ/ЭГ) | независимые | Стьюдент для независимых | Манна-Уитни |
| Сравнить 3+ замера у одних людей | связанные | повторный ANOVA | Фридман |
| Сравнить 3+ разные группы | независимые | ANOVA | Краскел-Уоллис |
Логика читается по строкам: сначала определите тип выборок (левый столбец), потом тип данных (правые столбцы). Как понять, числовые данные или балльные и нормальные ли они, — в статьях «Шкалы измерения» и «Как проверить нормальность распределения».
Тип выборок — это первая развилка, тип данных — вторая. Сначала всегда отвечайте «связанные или независимые», и только потом думайте про нормальность и шкалу. Перепутать порядок — частый источник ошибок.
Почему перепутать = неверный критерий
Связанные и независимые критерии устроены по-разному внутри, поэтому замена ломает расчёт.
- Если связанные данные посчитать как независимые (например, прогнать «до» и «после» через Манна-Уитни), вы выбросите ценную информацию о парах. Критерий «не заметит» личных сдвигов и часто покажет «различий нет» там, где они есть.
- Если независимые данные посчитать как связанные, вы искусственно «спарите» чужих друг другу людей. Это просто математически некорректно: разности «человек из ЭГ минус человек из КГ» не имеют смысла.
В обоих случаях вывод диплома становится недоказанным, и на защите это легко вскрывается одним вопросом про дизайн исследования.
Самая частая путаница — в исследованиях «до/после» с двумя группами. Если у вас и КГ, и ЭГ замерены дважды, то внутри каждой группы сравнение «до vs после» — связанное, а сравнение КГ с ЭГ — независимое. Это два разных критерия в одной работе, а не один.
Что писать в дипломе
Тип выборок принято обозначать в разделе про методы обработки данных. Готовые формулировки:
- «Поскольку показатели измерялись у одних и тех же испытуемых до и после эксперимента, выборки являются связанными, для их сравнения применён критерий Вилкоксона».
- «Контрольная и экспериментальная группы состоят из разных испытуемых, поэтому выборки независимы; использован U-критерий Манна-Уитни».
- «Сравнение сдвигов внутри экспериментальной группы проводилось по критерию для связанных выборок, межгрупповое сравнение — по критерию для независимых выборок».
После расчёта приводят сам критерий, его статистику и p-значение (что это — в статье «Что такое p-значение»): например, «различия между группами значимы (U = 112, p < 0,05)».
В дипломе достаточно одной фразы: «выборки связанные/независимые, потому что измерялись одни и те же / разные люди». Эта строчка сразу показывает, что критерий выбран осознанно.
Частые ошибки
- Считать «до/после» у двух групп одним критерием. Внутри группы — связанный критерий, между группами — независимый. Это две разные задачи.
- Брать парный критерий для групп разного размера. Связанный критерий требует строго равного числа значений (по парам). Разные размеры (18 и 24) — верный признак независимых выборок.
- Путать «связанные» с «похожими». Связь — это привязка «один к одному», а не близость значений.
- Подбирать пары, но считать как независимые (и наоборот). Если вы специально подбирали «двойников» по полу и возрасту — это уже связанные выборки.
Частые вопросы
Как быстро отличить связанные выборки от независимых?
Задайте один вопрос: можно ли каждое значение из первой группы привязать к конкретному значению из второй? Если да (один человек — два замера, или естественная пара) — связанные. Если в группах разные люди и пар нет — независимые.
У меня контрольная и экспериментальная группы — это какие выборки?
Если в КГ и ЭГ разные люди — независимые. Берите Манна-Уитни (для баллов) или Стьюдента для независимых (для нормальных чисел).
А «до и после» у одной группы — это что?
Это связанные выборки: один и тот же человек дал два значения. Берите Вилкоксона или парный критерий Стьюдента. Подробнее о выборе между ними — в статье «Стьюдент или Вилкоксон».
Группы разного размера — могут быть связанными?
Нет. У связанных выборок число значений всегда одинаковое: они идут парами. Разные размеры групп — однозначный признак независимых выборок.
А если групп или замеров три и больше?
Логика та же, только критерии другие: для 3+ связанных замеров — Фридман, для 3+ независимых групп — Краскел-Уоллис. Сколько групп — столько и развилок, подробнее в статье «U, H или ANOVA: сколько групп».
Короткий алгоритм
- Спросите себя: можно ли соединить значения в пары (один человек — два замера или естественная/подобранная пара)?
- Да → выборки связанные → Вилкоксон или парный Стьюдент.
- Нет, в группах разные люди → выборки независимые → Манна-Уитни или Стьюдент для независимых.
- Дальше уточните тип данных и нормальность — и выберите конкретный критерий по таблице 1.
Что ещё почитать
- Как выбрать статистический критерий для диплома — общая схема со всеми развилками.
- Стьюдент или Вилкоксон — выбор критерия для связанных выборок «до/после».
- Стьюдент или Манна-Уитни — выбор критерия для двух независимых групп.
- Параметрические и непараметрические критерии — вторая важная развилка после типа выборок.
- Калькулятор Вилкоксона и калькулятор Манна-Уитни — посчитать онлайн.
Не уверены, какие у вас выборки и какой критерий брать, — загляните в базу методов или закажите консультацию: эксперт определит дизайн и посчитает за вас.
Не хотите разбираться со статистикой сами?
Эксперт подберёт метод, посчитает и оформит таблицы по ГОСТ под вашу тему.
Заказать консультацию