4. Анализ таблиц сопряженности

Таблицы сопряженности служат для описания связи двух и более номинальных переменных. Примерами номинальных переменных являются пол, местность, марка товара, вид транспорта, ответы “да” или “нет” и пр.

С помощью анализа таблиц сопряженности можно найти ответы, например, на следующие вопросы:

  1. Как много женщин среди приверженцев данной марки товара?
  2. Связана ли интенсивность потребления данного товара с изменением климатических условий?
  3. Связана ли частота потребления товара с уровнем дохода потребителя?

Для установления степени связи между переменными используется критерий независимости χ2 (Хи—квадрат Пирсона). Чем больше значение χ2, тем больше зависимость между переменными. Значения χ2 близкие к 0 свидетельствуют о независимости переменных.

Вместе с χ2 вычисляется p—уровень значимости. При p>0,05 считается, что переменные независимы. При P<0,05 предположение о независимости переменных отклоняется и делается вывод о том, что переменные зависят друг от друга [1].

Для определения силы связи между переменными вычисляется коэффициент Крамера V. Значения этого коэффициента всегда лежат между 0 и 1. Для более точной оценки силы связи между переменными могут определяться коэффициенты “фи”, Лямбда и Тау Гудмена и Краскала.

Пример. В результате опроса 50 респондентов (1— мужчины, 2 — женщины) выявили их предпочтения в потреблении соков А и B (1 — А, 2 — В) (таблица 4.1). Выясните, есть ли зависимость между полом респондента и тем соком, который он предпочитает.

№ п/п Пол Сок № п/п Пол Сок № п/п Пол Сок № п/п Пол Сок
1 1.0 1.0 14 1.0 2.0 27 1.0 1.0 40 1.0 2.0
2 1.0 2.0 15 2.0 1.0 28 2.0 1.0 41 1.0 1.0
3 2.0 2.0 16 2.0 1.0 29 2.0 1.0 42 1.0 2.0
4 1.0 1.0 17 1.0 2.0 30 1.0 2.0 43 2.0 1.0
5 1.0 1.0 18 2.0 1.0 31 1.0 1.0 44 1.0 1.0
6 2.0 2.0 19 2.0 2.0 32 2.0 2.0 45 1.0 2.0
7 2.0 2.0 20 1.0 2.0 33 2.0 1.0 46 1.0 1.0
8 1.0 1.0 21 1.0 1.0 34 1.0 2.0 47 2.0 2.0
9 2.0 1.0 22 2.0 1.0 35 1.0 2.0 48 2.0 1.0
10 1.0 1.0 23 1.0 1.0 36 1.0 2.0 49 2.0
11 2.0 1.0 24 2.0 2.0 37 2.0 1.0 50 1.0
12 1.0 2.0 25 1.0 2.0 38 2.0 1.0
13 1.0 1.0 26 1.0 2.0 39 2.0 1.0

Таблица 4.1 — Информация для анализа

Вверх

Пошаговая инструкция

Шаг 1. Анализ — Описательные статистики — таблицы сопряженности

Шаг 2. В строке — сок, в столбце — пол

Шаг 3. Установить флажок Вывести кластеризованные столбиковые диаграммы

Шаг 4. Статистики — отметить ХИ—квадрат, Корреляции, Фи и Лямбда.

Шаг 5. Ячейки — отметить Частоты: наблюденные, ожидаемые; Остатки: нестандартизированные, стандартизированные, скорректированные; Проценты: по строке, по столбцу, по таблице.

Шаг 7. ОК.

Интерпретация результатов

пол респондента итого
мужчины женщины
предпочитаемый сок А Частота 13 14 27
Ожидаемая частота 15 11,9 27
% по категории переменной предпочитаемый сок 48,1% 51,9% 100,0%
% по категории переменной пол респондента 46,4% 63,6% 54,0%
% по таблице (слою) 26,0% 28,0% 54,0%
Остаток -2,1 -2,1
B Частота 15 8 23
Ожидаемая частота 12,9 10 23
% по категории переменной предпочитаемый сок 65,2% 34,2% 100,0%
% по категории переменной пол респондента 53,6% 36,4% 46,0%
% по таблице (слою) 30,0% 16,0% 46,0%
Остаток -2,1 -2,1
Итого Частота 28 22 50
Ожидаемая частота 28,0 22,0 50,0
% по категории переменной предпочитаемый сок 56,0% 44,0% 100,0%

Таблица 4.2 — Таблица сопряженности предпочитаемый сок * пол респондента

Значение ст.св. Асимпт. значимость (2-стор.) Точная значимость (2-стор.) Точная значимость (1-стор.)
Хи-квадрат Пирсона 1,469a 1 ,226
Поправка на непрерывностьb ,858 1 ,354
Отношение правдоподобия 1,480 1 ,224
Точный критерий Фишера ,264 ,177
Линейно-линейная связь 1,439 1 ,230
Кол-во валидных наблюденийb 50

Таблица 4.3 — Критерии хи—квадрат

a. В 0 (,0%) ячейках ожидаемая частота меньше 5. Минимальная ожидаемая частота равна 10,12.

b. Вычисляется только для таблицы 2x2.

Значение Асимпт.стдандартная ошибкаa Прибл. Tb Прибл. значимость
Номинальная по номинальной Лямбда Симметричная ,06 ,19 ,33 ,73
Зависимая предпочитаемый сок ,087 ,220 ,379 ,705
Зависимая пол респондента ,045 ,231 ,193 847
Тау Гудмена и Краскала Зависимая предпочитаемый сок ,029 ,048 ,230c
Зависимая пол респондента ,029 ,048 ,230c

Таблица 4.4 — Направленные меры

a. Не подразумевая истинность нулевой гипотезы.

Для предварительного анализа влияния пола на потребление сока рассмотрим величины скорректированного остатка, в нашем случае он не выходит за границы стандартизированного остатка, следовательно гипотеза о наличии связи не подтверждается

s
Значение Значение Асимптотическая стдандартная ошибкаa Прибл. Tb Прибл. значимость
Номинальная по номинальной Фи -,17 ,22
V Крамера ,17 ,22
Интервальная по интервальной R Пирсона -,17 ,139 -1,20 ,23
Порядковая по порядковой Корреляция Спирмена -,17 ,139 -1,20 ,23
Кол-во валидных наблюдений 50

Таблица 4.5 — Симметричные меры

a. Не подразумевая истинность нулевой гипотезы.

Рисунок 4.1 —  График предпочитаемых напитков

Рисунок 4.1 — График предпочитаемых напитков

Таким образом, на основе проведенного анализа можно сделать вывод о том, что между полом респондента и соком, который он предпочитает нет зависимости.