8. Дискриминантный анализ

Применяется для анализа различий заранее заданных групп множества объектов исследования. При этом каждый объект может быть отнесен только к одной группе. Переменная, разделяющая совокупность объектов исследования на группы, называется группирующей. Признаки, используемые для выявления различий между группами, называются дискриминационными переменными[2].

В практике маркетинговых исследований с помощью дискриминантного анализа можно найти ответы, например, на следующие вопросы:

  1. Существуют ли различия между сегментами рынка по предпочтению к различным маркам товара?
  2. Какие существуют различия между постоянными покупателями супермаркетов и небольших продуктовых магазинов?
  3. Какие характеристики присущи потребителям, реагирующим на рекламу в Интернет?
  4. Чем, с точки зрения демографических (социально—экономических, психографических) характеристик отличаются приверженцы данной торговой марки от тех, у кого данной приверженности нет?
  5. Какие психографические (демографические, культурные и пр.) характеристики отличают восприимчивых к цене товара потребителей от невосприимчивых?

Дискриминантный анализ представляет собой альтернативу множественному регрессионному анализу в том случае, когда используется зависимая номинальная переменная, а не количественная.

В результате проведения дискриминантного анализа должно быть построено дискриманационное уравнение:

d = a + b1x1 + b2x2 + ... + bnxn,

где d — зависимая номинальная переменная;
bn — коэффициенты при независимых переменных;
a — постоянный член (Константа);
xn — независимые дискриминационные признаки (предикторы).

Данная модель позволяет предсказать принадлежность объектов исследования к двум или более непересекающимся группам.

Этапы дискриминантного анализа:

  1. Выбор переменных—предикторов (дискриминантных переменных). Необходимо выяснить, все ли выбранные переменные в действительности являются отличительными характеристиками исследуемых групп.
  2. Выбор параметров, построение дискриминантной модели. Оценка статистической значимости выбранных переменных. Исследователю необходимо выбрать метод, который наилучшим образом позволит рассчитать параметры дискриминантной модели.
  3. Интерпретация результатов, оценка прогнозов. В результате построения дискриминантной модели можно определить по известным значениям одной выборки неизвестные значения критерия для другой выборки.

Например. Используя базу данных результатов опроса отдыхающих базы отдыха “Солнечная”, построить дискриминантную модель, с помощью которой, основываясь на социально—демографических признаках, разделить всех туристов на две группы: выбирающих в качестве развлечений дискотеки на отдыхе за городом и не выбирающих.

Пошаговая инструкция

Шаг 1. В меню Анализ — Классификация — Дискриминантный аназиз

Шаг 2. Перенести метки независимых переменных в окно Независимые: пол, количество лет, уровень дохода респондентов, расходы на отдых

Шаг 3. Выбрать метку группирующей переменной и перенести ее в окно Группировать пое: проведение вечерних дискотек

Шаг 4. Кнопка Задать диапазон — Дискриминантный анализ — Минимум: 1 и Максимум: 2.

Шаг 5. Кнопка Статистки — установить: Средние, Однофакторный дисперсионный анализ, нестандартизованные, внутригрупповая корреляция.

Шаг 6. Кнопка Классифицировать — Поточечные результаты, итоговая таблица, Графики: Для отдельных групп.

Шаг 7. ОК.

Вверх

Интерпретация результатов

  1. На первом этапе дискриминантного анализа необходимо провести оценку выбора дискриминантных переменных. В таблице “Анализ обработанных переменных” (таблица 8.1) дается обзор действительных и пропущенных значений.

    Невзвешенные наблюдения N Процент
    Валидные 46 90,0
    Исключенные Пропущенные или лежащие вне диапазона коды группирующей переменной 0 ,0
    По крайней мере одна пропущенная дискриминантная переменная 5 10,0
    Оба групповых кода пропущены или лежат вне диапазона, и отсутствует по крайней мере одна дискриминантная переменная. 0 ,0
    Итого искл. 5 10,0
    Всего набл. 50 100,0

    Таблица 8.1 — Сводка результатов обработки наблюдений

    Из 51 респондента, участвовавшего в опросе, в построении дискриминационной функции используются данные по 46 респондентам.

    Число респондентов, не давших ответы хотя бы по одному из выбранных признаков, составляет 5.

    В следующей таблице “Групповые статистики” (Статистические показатели в группах) показаны результаты расчета средних значений независимых переменных в каждой группе (таблица 8.2).

    Проведение вечерних дискотек Среднее Стд.отклонение Кол—во валидных (искл.целиком)
    Невзвешенные Взвешенные
    да пол 1,57 ,507 23 23,000
    возраст 1,00 ,000 23 23,000
    количество лет 22,70 5,355 23 23,000
    уровень дохода респондентов 1,13 ,344 23 23,000
    нет пол 1,48 ,511 23 23,000
    возраст 1,00 ,000 23 23,000
    количество лет 44,78 13,021 23 23,000
    уровень дохода респондентов 1,91 ,733 23 23,000
    итого пол 1,52 ,505 46 46,000
    возраст 1,00 ,000 46 46,000
    количество лет 33,74 14,885 46 46,000
    уровень дохода респондентов 1,52 ,691 46 46,000

    Таблица 8.2 — Групповые статистики

    Из данных таблицы 8.2 можно сделать вывод о том, что средний возраст туристов, посещающих дискотеки — 23 года; не посещающих — 45 лет. Вообще, средний возраст опрошенных респондентов — 34 года.

    Уровень дохода туристов, посещающих дискотеки ниже (1,13, то есть ближе к 1, что соответствует интервалу менее 5000 руб), чем уровень дохода, не посещающих дискотеки 1,91, то есть ближе к 2, что соответствует интервалу в 5000 —100000 руб.и выше).

    В среднем мужчины и женщины одинаково посещают дискотеки (среднее по полу равно 1,52, что является серединой между номинальными переменными “1— мужчины, “2— женщины). При этом среди туристов, посещающих дискотеки доля женщин — 57% (среднее 1,57), среди туристов, не посещающих дискотеки — 48% (среднее 1,48).

  2. Оценка статистической значимости выбранных переменных.

    Исходя из таблицы 8.3 “Критерий равенства групповых средних” необходимо выбрать независимые дискриминационные переменные. Для проведения теста на равенство средних значений в группах используется коэффициент Лямбда Уилкса (Wilks' Lambda), значение которого должно быть минимальным. О состоятельности построенной дискриминантной модели свидетельствует статистическая значимость “Significance” (p), значение которой должно быть меньше 0,05

    Лямбда Уилкса F ст.св1 ст.св2 Знч.
    Пол ,992 ,336 1 44 ,565
    Возраст ,000
    Количество лет ,437 56,605 1 44 ,000
    Уровень дохода респондентов ,672 21,470 1 44 ,000
    Hасходы на питание ,017

    Таблица 8.3 — Критерий равенства групповых средних

    a. Невозможно вычислить, так как эта переменная является константой.

    Значимость переменных “Уровень дохода— 0,000, “Количество лет— 0,000, расходы на питание — 0,017, что меньше 0,05. Это означает, что отличия туристов, посещающие и не посещающие дискотеки по данным характеристикам статистически значимы. Для переменной “пол” значимость признака 0,565, что больше 0,05. В случае, если значимость признака больше 0,05, данный признак необходимо исключить из дискриминационных переменных и заново сформировать задание для проведения дискриминационного анализа.

    Далее следует доказать, что выбранные переменные действительно являются независимыми друг от друга. В этом случае рассчитывается коэффициент корреляции, для характеристики связи между существующими переменными. В таблице 8.4 “Объединенные внутригрупповые матрицы” показаны коэффициенты корреляции между независимыми переменными для исследуемых групп.

    Уровень дохода Количество лет Расходы на питание
    Корреляция Уровень дохода 1,000 -,379 ,630
    Количество лет -,379 1,000 -,426
    Расходы на питание ,630 -,426 1,000
    Корреляция Пол Количество лет Уровень дохода респондентов
    Пол 1,000 ,221 -,214
    Количество лет ,221 1,000 -,516
    Уровень дохода респондентов -,214 -,516 1,000

    Таблица 8.4 — Объединенные внутригрупповые матрицы

    Коэффициент корреляции r — статистический показатель вероятностной связи между двумя переменными, измеренными в количественной шкале. Вероятностная связь характеризуется тем, что каждому значению одной переменной соответствует множество значений другой переменной [1], r меняется от —1 до +1. Чем ближе коэффициент корреляции к 0, тем слабее зависимость между переменными (см. раздел 3.3 “Корреляции”).

    Коэффициент корреляции между возрастом (количество лет) и полом = 0,221, что меньше 0,5. Это доказывает отсутствие корреляционной зависимости между данными переменными. А коэффициент корреляции между переменными уровень дохода и расходы на питание = 0,630, между количеством лет и уровнем дохода = —0,516, что больше 0,5. Соответственно, данные переменные влияют друг на друга и эта пара должна быть исключена из анализа.

  3. Построение дискриминационной модели.

    Необходимо рассчитать нормированные коэффициенты канонической дискриминантной функции:

    y = a — b1x1 — b2x2 — ... — bnxn,
    где d — зависимая (группирующая переменная);
    a — свободный член (константа);
    bn — нормированные коэффициенты;
    xn — независимые переменные.

    Используя коэффициенты канонической дискриминантной функции (таблица 8.5) можно оценить относительный вклад каждой переменной в различие исследуемых групп.

    Функция
    1
    Уровень дохода ,618
    Количество лет 1,028
    Расходы на питание ,262

    Таблица 8.5 — Нормированные коэффициенты канонической дискриминантной функции

    В нашем примере переменная “количество лет” в 1,7 (1,028/0,618) раза больше влияет на зависимую переменную “желание посещать дискотеки”, чем переменная “доход”; и в 3,9 (1,028/0,262) раза больше, чем “сумма расходов, потраченных на питание на отдыхе”.

    Корреляционные коэффициенты, представленные в таблице 8.6, позволяют оценить силу связи между переменными и стандартизированными значениями дискриминантной функции.

    Функция
    1
    Уровень дохода ,682
    Количество лет ,394
    Расходы на питание ,214

    Используя коэффициенты, представленные в таблице 8.7, составляем дискриминационную модель:

    d=-5,642 + 0,622X1 + 0,106X2 + 0,002X3, где X1 — уровень дохода, X2 — возраст, X3 — расходы на питание (выделены красным, так как требуют исключения из модели в силу высокой корреляции между переменными).

    Функция
    1
    Уровень дохода ,622
    Количество лет ,106
    Расходы на питание ,002
    (Константа) -5,642

    Таблица 8.7— Коэффициенты канонической дискриминантной функции

    *Ненормированные коэффициенты

    Итоговая дискриминантная модель:

    d=-5,642 + 0,622X1 + 0,106X2

    Насколько четко разделены группы респондентов на предпочитающих и не предпочитающих дискотеки можно определить на основе расстояний между средними в группах (центроиды групп) (таблица 8.8).

    Функция
    1
    да -1,696
    нет 1,773

    Таблица 8.8 — Функции в центроидах групп

    *Ненормированные канонические дискриминантные функции вычислены в центроидах групп.

    В данном случае расстояние между средними в группах выбирающих и не выбирающих дискотеку большое (от —1,696 до 1,773) (пограничное значение — 0). Чем больше расстояние, тем больше различий между группами.

    Различия между исследуемыми группами показано также на графиках распределения значений дискриминантной функции (рисунки 8.1 и 8.2).

    Рисунок 8.1 —  Распределение значений дискриминантной функции для группы “посещающие дискотеки”

    Рисунок 8.1 — Распределение значений дискриминантной функции для группы “посещающие дискотеки”

    Рисунок 8.2 —  Распределение значений дискриминантной функции для группы “не посещающие дискотеки”

    Рисунок 8.2 — Распределение значений дискриминантной функции для группы “не посещающие дискотеки”

    Различия между группами ослабевают при увеличении рассеяния значений дискриминантной функции и области их пересечения в исследуемых группах, и наоборот.

    На графиках показано четкое различие между исследуемыми группами, посещающих и не посещающих дискотеку.

    Построим прогноз предпочтения туристом посещения дискотек, на основе возраста и уровня дохода.

    Если возраст туриста равен 20 годам и уровень его дохода составляет от 5000 до 10000 руб. (категория 2), то значение дискриминантной функции имеет вид:

    D = —5,642 + 0,622 * 2 + 0,106 * 20= — 2,278.

    Исходя из анализа графиков не посещающих дискотеки значения дискриминационной функции —2,278 не имеет ни один человек, а посещающие имеет 1 человек, следовательно можно сделать вывод, что туристы в возрасте 20 лет и уровнем дохода от 5000 до 10000 руб. скорее всего будут посещать дискотеки.

    Точность прогнозов оценивается по результатам классификации по исследуемым группам. В таблице 8.9 представлены результаты классификации респондентов: фактическая и предсказуемая принадлежность к исследуемым группам. При несовпадении групп значение переменной указывается как (**).В столбце pуказывается вероятность, с которой респондент может быть причислен к данной группе. Например, турист под номером 5 с вероятностью 83,7% может быть причислен к группе посещающих дискотеку.

    Номер наблюдения Фактическая группа Наивероятнейшая группа Вторая вероятнейшая группа Дискриминантные баллы
    Предсказанная группа P(D>d | G=g) P(G=g | D=d) Квадрат расстояния Махалонобиса до центра Группа P(G=g | D=d) Квадрат расстояния Махалонобиса до центра Функция 1
    p. ст.св
    Исходные 1 1 1 ,769 1 ,999 ,087 2 ,001 14,165 -1,990
    2 2 2 ,498 1 1,000 ,459 1 ,000 17,199 2,451
    3 1 1 ,139 1 ,709 2,185 2 ,291 3,965 -,218
    4 1 1 ,278 1 ,905 1,179 2 ,095 5,681 -,610
    5 1 2** ,207 1 ,837 1,595 1 ,163 4,869 ,510
    6 2 2 ,643 1 ,988 ,214 1 ,012 9,038 1,310
    7 1 1 ,782 1 ,999 ,077 2 ,001 14,035 -1,973
    8 2 2 ,950 1 ,997 ,004 1 ,003 11,604 1,710
    9 2 2 ,821 1 ,995 ,051 1 ,005 10,522 1,548
    10 1 1 ,625 1 1,000 ,239 2 ,000 15,671 -2,185

    Таблица 8.9 — Поточечные статистики

    **. Неправильно классифицированное наблюдение

    Точность сделанных прогнозов можно определить по данным таблицы 8.10 — Результаты классификации.

    Проведение вечерних дискотек Предсказанная принадлежность к группе Итого
    Да Нет
    Исходные Частота Да 22 1 23
    Нет 3 19 22
    % Да 95,7 4,3 100,0
    Нет 13,6 86,4 100,0

    Таблица 8.10 — Результаты классификации

    * 91,1% исходных сгруппированных наблюдений классифицировано правильно.

    Таким образом, 22 туриста из 23 предпочитающие дискотеки корректно причислены к данной группе, а 1 — нет. Из не посещающих — только 3 корректно, а 19 — нет.

    Это дает возможность сделать вывод о том, что 86,4% отдыхающих на базе отдыха и не предпочитающих дискотеки, могут их посещать. Следовательно, руководству базы отдыха необходимо продумать политику продвижения дискотек среди отдыхающих.