7. Линейный регрессионный анализ

Регрессионный анализ применяется для выявления влияния одной или нескольких независимых переменных на одну зависимую переменную.

Регрессионный анализ позволяет дать математическое описание зависимости между переменными, построить модель (тренд), отражающий данную зависимость и позволяющий строить прогнозы изменения зависимой переменной.

В практике маркетинговых исследований с помощью регрессионного анализа можно найти ответы, например, на следующие вопросы:

  1. Объясняются ли различия в объемах продаж товара в разные периоды различием расходом на продвижение? И какова форма этой зависимости?
  2. Какую долю в изменении объема продаж можно объяснить расходами на продвижение, различием цен и расходами на персонал?
  3. Чему равен вклад расходов на персонал в изменение объема продаж при фиксированных ценах и расходах на продвижение?
  4. Какие объемы продаж можно ожидать при заданных ценах, расходах на продвижение и расходах на персонал?

В регрессионный анализ могут быть включены только количественные переменные. Если необходимо использовать номинальные переменные, их необходимо представить как дихотомические (см.1.2 “Структура редактора данных”).

Для описания и выявления соответствия между зависимой переменной и одним независимым параметром, влияющим на наблюдаемую переменную, используется уравнение простой линейной регрессии:

y = a — bx, где у — зависимая я переменная; х — независимая переменная; а — свободный член (константа); b — коэффициент при независимой переменной или коэффициент регрессии [2].

Для описания и выявления соответствия между зависимой переменной и несколькими независимыми параметрами влияющими на наблюдаемую переменную, используется уравнение множественной линейной регрессии:

y = a — b1x1 — b2x2 — ... — bnxn

В результате регрессионного анализа необходимо определить свободный член (а) и коэффициенты регрессии (b).

Также обязательным условием является расчет показателей, характеризующих практическую применимость и статистическую значимость результатов анализа и построенной регрессионной модели.

К данным показателям относятся:

7.1 Простая линейная регрессия

Как уже отмечалось, простая линейная регрессия служит для описания и выявления соответствия между зависимой переменной и одним независимым параметром, влияющим на наблюдаемую переменную.

Преимуществом данного вида анализа является возможность представить результат графически в виде линейного графика. Построение тренда дает возможность прогнозировать как будет меняться одна переменная при изменении другой. Построение тренда очень часто используется в практике маркетинга.

Пример. Используя базу данных опроса отдыхающих базы отдыха “Солнечная” выявить, в какой зависимости находятся сумма расходов на отдых в целом и сумма расходов на питание. Сделать прогноз изменения общих расходов на отдых при увеличении (уменьшении) расходов на питание.

Последовательность действий:

  1. Провести линейный регрессионный анализ.
  2. Построить регрессионную модель (тренд), отражающую зависимость между переменными, составить уравнение регрессии.
  3. Сделать вывод о том, как будет изменяться одна переменная при изменении другой.
  4. Представить результаты анализа в виде линейного графика.
  5. Сделать вывод о вероятности ошибки, при использовании данной регрессионной модели.

Вверх

Пошаговая инструкция

Линейный регрессионный анализ:

Шаг 1. Анализ — Регрессия — Линейная

Шаг 2. Переменная “Общие расходы на отдых (расхода сумма)— в окно Зависимая переменная

Шаг 3. Переменная “Расходы на питание (расходы 2)— в окно Независимая переменная

Шаг 4. Кнопка Статистические показатели — Оценки коэффициентов регрессии, Доверительные интервалы, критерий Durbin—Watson

Шаг 5. Продолжить — ОК.

Построение графика:

Шаг 1. Графики — Диаграмма рассеяния — Простая диаграмма рассеяния

Шаг 2. Переменная “Общие расходы на отдых (расхода сумма)— ось Y

Шаг 3. Переменная “Расходы на питание (расходы 2)” ось X

Шаг 4. ОК

Обработка графика:

Шаг 1. Нажать 2 раза правой кнопкой мыши по графику.

Шаг 2. В окне редактор диаграмм выбрать меню Элементы — Приближенная линия

Шаг 3. В новом окне Свойства во вкладке Приближенная линия отметить линейный вид графика

Шаг 4. Закрыть

Интерпретация результатов

Ниже приведены фрагменты данных, сгенерированные программой. На экран компьютера выводятся три таблицы: таблица 7.1 “Сводка для модели”, таблица 7.2 “Дисперсионный анализ” и таблица 7.3 “Коэффициенты”.

Модель R R квадрат Скорректированный R квадрат Стд. ошибка оценки Дурбин—Уотсон
1 ,695a ,48 ,471 397,433 1,246

Таблица 7.1 — Сводка для модели

a. Предикторы: (константа) расходы на питание

b. Зависимая переменная: общие расходы на отдых

  1. Значение коэффициента детерминации R = 0,695 (>0,5), что свидетельствует о тесной взаимосвязи между общей суммой на отдых и суммой затрат на питание в день.

    Значение коэффициента детерминации (R квадрат) равно 0,48, что говорит о том, что построенная модель верна только для 48% случаев, в результате которых увеличение затрат на питание влечет за собой увеличение общей суммы затрат на отдых. Данный факт руководству базы отдыха нужно учитывать, планируя расходов отдыхающих.

    Значение теста Дарбина—Уотсона составляет 1,246. Это существенно ниже 2, что говорит о возможной автокорреляции, то есть отклонения от теоретически ожидаемых результатов (остатки) могут появляться систематически.

    Модель Сумма квадратов ст.св. Средний квадрат F Знч.
    1 Регрессия 6336018,018 1 6336018,018 40,113 ,000a
    Остаток 6791981,9 43 157953,06
    Итого 1,313E7 44

    Таблица 7.2 — Дисперсионный анализ

    a. Предикторы: (константа) расходы на питание

    b. Зависимая переменная: общие расходы на отдых

    На основании результатов таблицы “Дисперсионный анализ” показатель Значимость равен 0,000 (меньше 0,5). Таким образом, можно утверждать, что построенная регрессионная модель верна для всех отдыхающих на базе отдыха Солнечная.

    Результаты регрессионного анализа:

    Модель Нестандартизованные коэффициенты Стандартизованные коэффициенты t Знач.
    B Стд. ошибка Бета
    1 (Константа) 752,252 117,285 6,414 ,000
    Расходы на питание 2,671 ,422 ,695 6,334 ,000

    a. Зависимая переменная: общие расходы на отдых

    Таблица 7.3 — Коэффициенты

  2. Построение регрессионной модели: уравнение регрессии имеет вид: Y=752,252+2,671X
  3. Построенная регрессионная модель показывает, что если отдыхающий не тратит денег на питание (его кормят друзья или он голодает, или ест дары леса), то его общие расходы на отдых за городом в среднем составят 752,252 руб.
    При этом, с учетом стандартной ошибки, равной 117,285 при доверительном интервале 95% сумма общих расходов на отдых за городом в день без питания в среднем на человека составит 752,252+-2*117,285 руб.
    Значение коэффициента регрессии в построенной модели составляет 2,671. Это значит, что увеличение затрат на питание на 1 руб. влечет за собой увеличение общих затрат на отдых за городом на 2,671 руб.
  4. Используя диаграмму рассеяния (рисунок 7.1), представленную ниже можно прогнозировать как изменится общая сумма расходов на отдых за городом при изменении суммы затрат на питание.

    Рисунок 7.1 —  Диаграмма рассеяния”

    Рисунок 7.1 — Диаграмма рассеяния

  5. Построенное уравнение верно лишь для 48,3% случаев, что необходимо учитывать при использовании данной регрессионной модели.

7.2 Множественная линейная регрессия

Множественная регрессия является расширением простой линейной регрессии. В отличии от простой, она исследует влияние двух и более факторов на зависимую переменную.

Особенностями множественной линейной регрессии являются: невозможность графического представления результатов анализа и вероятность эффекта мультиколлинеарности, то есть существования причинно—следственной связи (корреляции) между независимыми переменными.

При построении множественной регрессионной модели необходимо проверить отсутствие или наличие корреляции между выбранными независимыми переменными.

Условия получения приемлемых результатов анализа:

Пример. Используя базу данных опроса отдыхающих базы отдыха “Солнечная” выявить, в какой зависимости между собой находятся общие расходы в день на отдых за городом одного отдыхающего и следующие статьи расходов: — расходы на питание и расходы на развлечения.

Последовательность действий:

  1. Проведите множественный линейный регрессионный анализ.
  2. Проверьте условия получения приемлемых результатов анализа.
  3. Постройте регрессионную модель, отражающую зависимость между переменными, составьте уравнение регрессии.
  4. Сделайте вывод о том, как будет изменяться одна переменная при изменении других.
  5. Сделать вывод о вероятности возникновения нежелательного эффекта мультиколлинеарности.
  6. Сделать вывод о вероятности ошибки, при использовании данной регрессионной модели.

Пошаговая инструкция

Шаг 1. В меню Анализ — Регрессия — Линейная.

Шаг 2. Переменная “Общие расходы на отдых (расхода сумма)— в окно Зависимая переменная.

Шаг 3. Переменная “Расходы на питание (расходы 2 питание)— в окно Независимая переменная.

Шаг 4. Переменная “Расходы на развлечения— в окно Независимая переменная.

Шаг 5. В окне Метод выберите Шаговый отбор.

Шаг 6. Кнопка Статистические показатели — Описательные статистики, Оценки коэффициентов регрессии, критерий Durbin—Watson, диагностика коллинеарности.

Шаг 7. Продолжить — ОК.

Интерпретация результатов

В результате выполнения приведенной выше инструкции программа сгенерировала информацию, на основе которой можно выявить переменную, оказывающую максимальное влияние на переменную “Общие расходы на отдых”.

  1. В анализе участвовали ответы 90 респондентов из 100 возможных (N >50). Коэффициенты корреляции между независимыми переменными меньше 1 (таблица 7.5), что говорит о выполнении условия для получения приемлемых результатов анализа.
    Среднее Стд. Отклонение N
    общие расходы на отдых 194,44 107,694 90

    Таблица 7.4 — Описательные статистики

    общие расходы на отдых расходы на питание расходы на развлечения
    Корреляция Пирсона общие расходы на отдых 1,000 ,695 ,606
    расходы на питание ,695 1,000 ,842
    расходы на развлечения ,606 ,842 1,000
    Знч. (1—сторон) общие расходы на отдых . ,000 ,000
    расходы на питание ,000 . ,000
    расходы на развлечения ,000 ,000 .
    N общие расходы на отдых 90 90 90
    расходы на питание 90 90 90
    расходы на развлечения 90 90 90

    Таблица 7.5 — Корреляции

    Модель R R квадрат Скорректированный R квадрат Стд. ошибка оценки Дурбин—Уотсон
    1 ,695a ,48 ,471 397,433 1,246

    Таблица 7.6 — Сводка для модели

    м

    Коэффициент детерминации (таблица 7.6) составляет R=0,695 (возможные значения от 0 до 1), что свидетельствует о наличии плотной взаимосвязи между суммой общих расходов и суммами, расходуемыми на питание и развлечения

    Значение коэффициента детерминации (R квадрат) равно 0,48, что говорит о том, что построенная модель верна только для 48% случаев для обработанной выборки ответов отдыхающих о том, как они тратят деньги на отдыхе за городом.

    Результаты теста Дарбина—Уотсона на автокорреляцию — 1,246. Это ниже, чем 2, что свидетельствует о возможных системных связях между отклонениями наблюдаемых значений от теоретически ожидаемых значений.

    Модель Нестандартизованные коэффициенты Стандартизованные коэффициенты t Знч.
    B Стд. Ошибка Бета
    1 (Константа) 752,252 81,985 9,175 ,000
    расходы на питание 2,671 ,295 ,695 9,060 ,000
    (Константа) 737,260 87,311 8,444 ,000
    2 расходы на питание 2,433 ,549 ,633 4,434 ,000
    расходы на развлечения ,371 ,720 ,074 ,516 ,607

    Таблица 7.7 — Коэффициенты

    a. Зависимая переменная: общие расходы на отдых

    Модель Измерение Собственное значение Показатель обусловленности Доли дисперсии
    (Константа) расходы на питание
    1 1 1,863 1,000 ,07 ,07
    2 ,137 3,688 ,93 ,93

    Таблица 7.8 — Диагностики коллинеарности

  2. На основе рассчитанных коэффициентов (таблица 7.7) составляем уравнение множественной регрессионной модели: Y=737, 26+2,433X1+0,371X2,
    где Y— общие расходы туристов на отдых за городом,
    X1 — расходы на питание,
    X2 — расходы на развлечения.
  3. Исходя из анализа коэффициентов В (таблица 7.7), можно сделать вывод, что расходы на питание значительно существеннее влияют на общую сумму расходов на отдых, чем расходы на развлечения: В на питание = 2,433, В на развлечения = 0,371.
    Также, постоянный показатель “константа” = 737,26, это существенная величина, что говорит о том, что есть еще значительные статьи расходов, оказывающие влияние на общие затраты отдыхающих за городом.
  4. Из таблицы 7.8 “Диагностика каллинеарности” мы видим, что статистики коллинеарности (взаимосвязи между независимыми переменными): толерантность = 0,291(должно превышать 0,1), КРД = 3,435 (должен быть меньше 10) свидетельствуют о невозможности возникновения нежелательного эффекта мультиколлинеарности (взаимного влияния и зависимости друг от друга размера сумм расходов на питание и развлечения).
  5. Значение показателя Значимость = 0,000 (таблица 7.7), что меньше 0,5. Следовательно, мы можем использовать построенную регрессионную модель для всех отдыхающих на базе отдыха “Солнечная”. Модель можно использовать руководству базы отдыха “Солнечная”, планируя вопросы ценообразования. Хотя вероятность ошибки при этом остается существенной. Для минимизации ошибки необходимо более четко структурировать расходы отдыхающих, выделив в них недостающие статьи, например расходы на транспорт, расходы на проживание.