4. Анализ таблиц сопряженности
Таблицы сопряженности служат для описания связи двух и более номинальных переменных. Примерами номинальных переменных являются пол, местность, марка товара, вид транспорта, ответы “да” или “нет” и пр.
С помощью анализа таблиц сопряженности можно найти ответы, например, на следующие вопросы:
- Как много женщин среди приверженцев данной марки товара?
- Связана ли интенсивность потребления данного товара с изменением климатических условий?
- Связана ли частота потребления товара с уровнем дохода потребителя?
Для установления степени связи между переменными используется критерий независимости χ2 (Хи—квадрат Пирсона). Чем больше значение χ2, тем больше зависимость между переменными. Значения χ2 близкие к 0 свидетельствуют о независимости переменных.
Вместе с χ2 вычисляется p—уровень значимости. При p>0,05 считается, что переменные независимы. При P<0,05 предположение о независимости переменных отклоняется и делается вывод о том, что переменные зависят друг от друга [1].
Для определения силы связи между переменными вычисляется коэффициент Крамера V. Значения этого коэффициента всегда лежат между 0 и 1. Для более точной оценки силы связи между переменными могут определяться коэффициенты “фи”, Лямбда и Тау Гудмена и Краскала.
Пример. В результате опроса 50 респондентов (1— мужчины, 2 — женщины) выявили их предпочтения в потреблении соков А и B (1 — А, 2 — В) (таблица 4.1). Выясните, есть ли зависимость между полом респондента и тем соком, который он предпочитает.
№ п/п | Пол | Сок | № п/п | Пол | Сок | № п/п | Пол | Сок | № п/п | Пол | Сок |
---|---|---|---|---|---|---|---|---|---|---|---|
1 | 1.0 | 1.0 | 14 | 1.0 | 2.0 | 27 | 1.0 | 1.0 | 40 | 1.0 | 2.0 |
2 | 1.0 | 2.0 | 15 | 2.0 | 1.0 | 28 | 2.0 | 1.0 | 41 | 1.0 | 1.0 |
3 | 2.0 | 2.0 | 16 | 2.0 | 1.0 | 29 | 2.0 | 1.0 | 42 | 1.0 | 2.0 |
4 | 1.0 | 1.0 | 17 | 1.0 | 2.0 | 30 | 1.0 | 2.0 | 43 | 2.0 | 1.0 |
5 | 1.0 | 1.0 | 18 | 2.0 | 1.0 | 31 | 1.0 | 1.0 | 44 | 1.0 | 1.0 |
6 | 2.0 | 2.0 | 19 | 2.0 | 2.0 | 32 | 2.0 | 2.0 | 45 | 1.0 | 2.0 |
7 | 2.0 | 2.0 | 20 | 1.0 | 2.0 | 33 | 2.0 | 1.0 | 46 | 1.0 | 1.0 |
8 | 1.0 | 1.0 | 21 | 1.0 | 1.0 | 34 | 1.0 | 2.0 | 47 | 2.0 | 2.0 |
9 | 2.0 | 1.0 | 22 | 2.0 | 1.0 | 35 | 1.0 | 2.0 | 48 | 2.0 | 1.0 |
10 | 1.0 | 1.0 | 23 | 1.0 | 1.0 | 36 | 1.0 | 2.0 | 49 | 2.0 | |
11 | 2.0 | 1.0 | 24 | 2.0 | 2.0 | 37 | 2.0 | 1.0 | 50 | 1.0 | |
12 | 1.0 | 2.0 | 25 | 1.0 | 2.0 | 38 | 2.0 | 1.0 | |||
13 | 1.0 | 1.0 | 26 | 1.0 | 2.0 | 39 | 2.0 | 1.0 |
Таблица 4.1 — Информация для анализа
Пошаговая инструкция
Шаг 1. Анализ — Описательные статистики — таблицы сопряженности
Шаг 2. В строке — сок, в столбце — пол
Шаг 3. Установить флажок Вывести кластеризованные столбиковые диаграммы
Шаг 4. Статистики — отметить ХИ—квадрат, Корреляции, Фи и Лямбда.
Шаг 5. Ячейки — отметить Частоты: наблюденные, ожидаемые; Остатки: нестандартизированные, стандартизированные, скорректированные; Проценты: по строке, по столбцу, по таблице.
Шаг 7. ОК.
Интерпретация результатов
пол респондента | итого | ||||
---|---|---|---|---|---|
мужчины | женщины | ||||
предпочитаемый сок | А | Частота | 13 | 14 | 27 |
Ожидаемая частота | 15 | 11,9 | 27 | ||
% по категории переменной предпочитаемый сок | 48,1% | 51,9% | 100,0% | ||
% по категории переменной пол респондента | 46,4% | 63,6% | 54,0% | ||
% по таблице (слою) | 26,0% | 28,0% | 54,0% | ||
Остаток | -2,1 | -2,1 | |||
B | Частота | 15 | 8 | 23 | |
Ожидаемая частота | 12,9 | 10 | 23 | ||
% по категории переменной предпочитаемый сок | 65,2% | 34,2% | 100,0% | ||
% по категории переменной пол респондента | 53,6% | 36,4% | 46,0% | ||
% по таблице (слою) | 30,0% | 16,0% | 46,0% | ||
Остаток | -2,1 | -2,1 | |||
Итого | Частота | 28 | 22 | 50 | |
Ожидаемая частота | 28,0 | 22,0 | 50,0 | ||
% по категории переменной предпочитаемый сок | 56,0% | 44,0% | 100,0% |
Таблица 4.2 — Таблица сопряженности предпочитаемый сок * пол респондента
Значение | ст.св. | Асимпт. значимость (2-стор.) | Точная значимость (2-стор.) | Точная значимость (1-стор.) | |
---|---|---|---|---|---|
Хи-квадрат Пирсона | 1,469a | 1 | ,226 | ||
Поправка на непрерывностьb | ,858 | 1 | ,354 | ||
Отношение правдоподобия | 1,480 | 1 | ,224 | ||
Точный критерий Фишера | ,264 | ,177 | |||
Линейно-линейная связь | 1,439 | 1 | ,230 | ||
Кол-во валидных наблюденийb | 50 |
Таблица 4.3 — Критерии хи—квадрат
a. В 0 (,0%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна 10,12.
b. Вычисляется только для таблицы 2x2.
Значение | Асимпт.стдандартная ошибкаa | Прибл. Tb | Прибл. значимость | |||
---|---|---|---|---|---|---|
Номинальная по номинальной | Лямбда | Симметричная | ,06 | ,19 | ,33 | ,73 |
Зависимая предпочитаемый сок | ,087 | ,220 | ,379 | ,705 | ||
Зависимая пол респондента | ,045 | ,231 | ,193 | 847 | ||
Тау Гудмена и Краскала | Зависимая предпочитаемый сок | ,029 | ,048 | ,230c | ||
Зависимая пол респондента | ,029 | ,048 | ,230c |
Таблица 4.4 — Направленные меры
a. Не подразумевая истинность нулевой гипотезы.
Для предварительного анализа влияния пола на потребление сока рассмотрим величины скорректированного остатка, в нашем случае он не выходит за границы стандартизированного остатка, следовательно гипотеза о наличии связи не подтверждается
- также показатель Хи—квадрат Пирсона (таблица 4.4) имеет малое значение 1,469, а значимость существенно превышает 0,05 (0,226), что также подтверждает отсутствие связи между полом и выбором сока.
- коэффициенты Лямбда и Тау Гудмена и Краскала ( таблица 4.5) очень малы, что также говорит об отсутствии связи.
- величины коэффициентов Фи и V Крамера (таблица 4.3) также говорят о низкой связи между переменными, а значимость 0,226 также подтверждает гипотезу об отсутствии связи.
Значение | Значение Асимптотическая стдандартная ошибкаa | Прибл. Tb | Прибл. значимость | s||
---|---|---|---|---|---|
Номинальная по номинальной | Фи | -,17 | ,22 | ||
V Крамера | ,17 | ,22 | |||
Интервальная по интервальной | R Пирсона | -,17 | ,139 | -1,20 | ,23 |
Порядковая по порядковой | Корреляция Спирмена | -,17 | ,139 | -1,20 | ,23 |
Кол-во валидных наблюдений | 50 |
Таблица 4.5 — Симметричные меры
a. Не подразумевая истинность нулевой гипотезы.
Рисунок 4.1 — График предпочитаемых напитков
Таким образом, на основе проведенного анализа можно сделать вывод о том, что между полом респондента и соком, который он предпочитает нет зависимости.