Finkurier.ru

Журнал про Деньги
3 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Корреляционно регрессионный анализ в экономических исследованиях

Корреляционно — регрессионный анализ в экономике

Во многих задачах требуется установить и оценить зависимость некоторого экономического показателя от одного или нескольких других показателей. Любые экономические показатели, как правило, находятся под влиянием случайных факторов, а потому с математической точки зрения интерпретируются как случайные величины.

Из теории вероятностей известно, что случайные величины могут быть связаны функциональной или статистической зависимостью или вообще быть независимыми. Соотношение между независимыми переменными здесь не рассматриваются, так как строгая функциональная зависимость реализуется в экономике редко. Чаще наблюдается так называемая статистическая зависимость.

Напомним, что статистическая зависимость — это когда с изменением одной случайной величины меняется закон распределения вероятностей другой. Статистическая зависимость проявляется в том , что с изменением одной величины меняется среднее значение другой. Такая зависимость называется корреляционной.

Например, у авиакомпаний с одинаковым количеством и видов самолетов существует разный доход. Конечно, нет строгой функциональной зависимости между количеством и видами самолетов. Это объясняется влиянием других факторов (качество обслуживания, безопасность полетов, квалификация работников, расположение авиакомпании и касс приобретения билетов и т.д.). В то же время, среднее количества самолетов и их видов, наверное, связаны корреляционной зависимостью.

В земледелии из одинаковых по площади участков земли при равных количествах внесенных удобрений собирают разный урожай. Конечно, нет строгой функциональной зависимости между урожайностью земли и количеством внесенных удобрений. Это объясняется влиянием случайных факторов (осадки, t воздуха, расположение участка и т.п.). Хотя, как показывает опыт, средний урожай зависит от количества внесенных удобрений, то есть эти показатели, наверное, связаны корреляционной зависимостью.

Два типа взаимосвязи переменных. В одном случае неизвестно, какая из переменных независимая, а какая — зависимая, то есть они равноправны и связь можно рассматривать как в одну, так и в другую сторону. Во втором случае переменные неравноправные, т.е. изменения только одной из них влияет на изменения другой, а не наоборот. При рассмотрении связи между двумя переменными величинами важно установить на основе логического рассуждения, что из признаков является причиной, а что — следствием. Например, урожайность зависит от плодородия земли, а не наоборот, т.е. экономическая оценка земли является независимой переменной, а урожайность — зависимой.

Необходимо помнить, что статистический анализ зависимостей сам по себе не раскрывает сущности причинных связей между явлениями, то есть он не решает вопрос, по каким причинам одна переменная влияет на другую. Решение такой задачи является результатом качественного (содержательного) изучения связей, что обязательно должно или предшествовать статистическому анализу, или сопровождать его.

Пусть по определенным экономическим соображениям установлено, что некоторый экономический показатель х является причиной изменения иного показателя у. Статистические данные по каждому из показателей интерпретируются как некоторые реализации случайных величин X и У. Из теории вероятностей: математическим ожиданием случайной величины называется ее среднее (арифметическое или взвешенное) значение. А зависимость среднего значения от другой случайной величины изображается с помощью условного математического ожидания.

Корреляционная зависимость между ними или зависимость в среднем в общем случае можно представить в виде соотношения

где М(У | х) — условное математическое ожидание.

Функция f (x) называется функцией регрессии У на X. При этом X называется независимой (объясняющей) переменной (регрессором), Узависимой (объясняемое) переменной (регресандом). Рассматривая зависимость двух случайных величин, говорят о парной регрессии .

Зависимость У от нескольких переменных, описывается функцией

называют множественной регрессией.

Термин «регрессия» (движение назад, возвращение к прежнему состоянию) ввел Фрэнсис Галтон конце XIX в., Проанализировав зависимость между ростом родителей и ростом детей. Он заметил, что рост детей у очень высоких родителей в среднем меньше, чем средний рост родителей. У очень низких родителей, наоборот, средний рост детей выше. В обоих случаях средний рост детей стремится (возвращается) к среднему росту людей в данном регионе. Отсюда и выбор термина, отражает такую ​​зависимость,

Однако реальные значения зависимой переменной не всегда совпадает с ее условным математическим ожиданием, поэтому аналитическая зависимость (в виде функции у = f(х)) должна быть дополнена случайной составляющей и, что, собственно, и указывает на стохастическую сущность зависимости.

Определение 1.1. Связи между зависимой и независимой (независимыми) переменными, описываются соотношениями

называют регрессионными уравнениями (моделями).

Причины обязательного присутствия в регрессионных моделях случайного фактора (отклонение). Среди таких причин выделим существенные.

1. Введение в модель не всех объясняющих переменных. Любая регрессионная (в частности, эконометрическая) модель — это упрощение реальной ситуации, которая приводит к отклонению реальных значений зависимой переменной от ее модельных значений. Например, спрос на товар определяется его ценой, ценами на товары — заменители, на товары, которые его дополняют, прибылью потребителей, их вкусами, предпочтениями и т.п. Безусловно, перечислить все объясняющие переменные практически невозможно. В частности, невозможно учесть такие факторы, как традиции, национальные или религиозные особенности, географическое положение района, погоду и многие другие, влияние которых приводит к некоторым отклонениям реальных наблюдений от модельных. Эти отклонения могут быть описаны как случайная составляющая модели.

В некоторых случаях заранее неизвестно, какие факторы, в сложившихся условиях, в действительности являются определяющими, а какими можно пренебречь. Кроме того, иногда непосредственно учесть какой-то фактор невозможно из-за отсутствия статистических данных. Например, объем сбережений домохозяйств может определяться не только доходами их членов, но и состоянием здоровья, информация о котором в цивилизованных странах составляет врачебную тайну. В некоторых ситуациях ряд факторов имеет принципиально случайный характер, что придает неоднозначности определенным моделям, например погода в моделях, прогнозирующих объем урожая.

2. Неправильный выбор функциональной формы модели. Из-за слабой изученности исследуемого процесса, или через его изменчивость, может быть неправильно подобрана моделирующая его функция. Это, безусловно, повлечет отклонение модели от реальности, что скажется на величине случайной составляющей. Например, производственная функция (У) одного фактора (X) может моделироваться функцией У = а + ЬХ, хотя должна использоваться другая модель , У = аХ ь (0 2 + ЬХ + с (линия 2).

На графике 1.1 , в явная взаимосвязь между X и Y отсутствует. Поэтому чтобы лучше выбрать форму связи, необходимо, возможно, увеличить количество наблюдений — точек корреляционного поля или воспользоваться другими способами измерения показателей.

В случае множественной регрессии определить формы зависимости еще сложнее.

Если природа связи неизвестна, то соотношение между показателями описывают с помощью приближенных упрощенных форм зависимостей, прежде всего, линейных.

Например, Кейнс предложил линейную формулу зависимости индивидуального потребления С от дохода У: С = с + ЬУ, де с > 0 — величина автономного потребления; Ь — предельная склонность к потреблению, 0

курсовая работа Корреляционно-регрессионный анализ в экономических исследованиях

Добавлен: 09.09.13. Год: 2013. Страниц: 27. Уникальность по antiplagiat.ru: Университет Архитектуры и Строительства

Институт экономики и менеджмента

Кафедра «Экономика, организация и инвестиции»

КУРСОВАЯ РАБОТА
по дисциплине

Выполнила: ст. гр. ЭУС-31
Рогачкова В. Н.
Проверила: ассистент
Старостина К. И.
Оценка:

Пенза 2009
Содержание
Часть 1.Теоретическая часть: «Корреляционно-регрессион ный анализ в экономических исследованиях»
Введение……… ………..3 1) Понятие о корреляционной связи………. 5
2) Методы корреляционно-регрессионн ого анализа связи показателей……6
3) Применение корреляционно-регрессионн ого анализа………14
4) Роль корреляционно-регрессионн ого анализа в обработке экономических данных……… ………17
Заключение……… ………19
Список используемой литературы………20
Часть 2. Практическая часть:
Задача №1……… ………..23
Задача №2……… ………..27
Задача №3……… ………..30
Задача №4……… ………..32
Задача №5……… ………..33
Задача №6……… ………..35
Задача №7……… ………..37

Введение
Обработка статистических данных уже давно применяется в самых разнообразных видах человеческой деятельности. Вообще говоря, трудно назвать ту сферу, в которой она бы не использовалась. Но, пожалуй, ни в одной области знаний и практической деятельности обработка статистических данных не играет такой исключительно большой роли, как в экономике, имеющей дело с обработкой и анализом огромных массивов информации о социально-экономических явлениях и процессах. Всесторонний и глубокий анализ этой информации, так называемых статистических данных, предполагает использование различных специальных методов, важное место среди которых занимает корреляционный и регрессионный анализы обработки статистических данных. В экономических исследованиях часто решают задачу выявления факторов, определяющих уровень и динамику экономического процесса. Такая задача чаще всего решается методами корреляционного и регрессионного анализа. Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи и не только выявить, но и дать им количественную оценку. Этот подход требует вскрытия причинных зависимостей. Под причинной зависимостью понимается такая связь между процессами, когда изменение одного из них является следствием изменения другого. Основными задачами корреляционного анализа являются оценка силы связи и проверка статистических гипотез о наличии и силе корреляционной связи. Не все факторы, влияющие на экономические процессы, являются случайными величинами, поэтому при анализе экономических явлений обычно рассматриваются связи между случайными и неслучайными величинами. Такие связи называются регрессионными, а метод математической статистики, их изучающий, называется регрессионным анализом.
Использование возможностей современной вычислительной техники, оснащенной пакетами программ машинной обработки статистической информации на ЭВМ, делает практически осуществимым оперативное решение задач изучения взаимосвязи показателей биржевых ставок методами корреляционно- регрессионного анализа.

          Понятие о корреляционной связи.

Изучение зависимости вариации признака от окружающих условий составляет содержание теории корреляции.
При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обуславливающих изменение других признаков. Признаки этой группы называются признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов, называются результативными признаками.
Рассматривая зависимости между признаками, необходимо выделить две категории зависимости: 1. Функциональные и 2. Корреляционные.
Функциональные связи характеризуются полным соответствием между изменением факторного признака и изменением результативной величины, и каждому значению признака-фактора соответствует вполне определенные значения результативного признака. Примером, функциональной связи является зависимость длины окружности L от радиуса R:
y=f(x), т.е. L=2?r
В корреляционных связях между изменением факторного и результативного признака нет полного соответствия, воздействие отдельных факторов проявляется лишь в среднем при массовом наблюдении фактических данных; т.е. изменение результативного признака y обусловлено влиянием факторного признака x не всецело, а лишь частично, так как возможно влияние прочих факторов Е:
y=?(x)+E
Введем понятие статистической или стохастически детерминированной связи. Стохастически детерминированная связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону — связь является статистической. Иными словами, при статистической связи разными значениям одной переменной соответствуют разные распределения значений другой переменной.
Корреляционной связью называется важнейший частный случай статистической связи, состоящий в том, что разным значениям одной переменной соответствуют различные средние значения другой. С изменением значения признака х закономерным образом изменяется среднее значение признака у; в то время как в каждом отдельном случае значение признака у (с различными вероятностями) может принимать множество различных значений.
Если же с изменением значения признака х среднее значение признака у не изменяется закономерным образом, но закономерно изменяется другая статистическая характеристика (показатели вариации, асимметрии, эксцесса и т.п.), то связь не является корреляционной, хотя и статистической.
Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Если же такую вариацию имеет лишь один из признаков, а значения другого являются жестко детерминированными, то говорит лишь о регрессии, но не о статистической (тем более корреляционной) связи.
Корреляционная связь между признаками может возникать разными путями. Важнейший путь — причинная зависимость результативного признака (его вариации) от вариации факторного признака. Второй путь — корреляционная связь между двумя следствиями общей причины. Третий путь возникновения корреляции — взаимосвязь признаков, каждый из которых и причина, и следствие.
С помощью статистических методов изучения зависимости можно установить, как проявляется теоретически возможная связь в данных конкретных условиях. Статистика не только отвечает на вопрос о реальном существовании намеченной теоретическим анализом связи, но и дает количественную характеристику этой зависимости. Зная характер зависимости одного явления от других, можно объяснить причины и размер изменений в явлении, а также планировать необходимые мероприятия для дальнейшего его изменения.
При исследовании корреляционных зависимостей между признаками решению подлежит широкий круг вопросов, к которым следует отнести: 1. Предварительный анализ свойств моделируемой совокупности единиц; 2. Установления факта наличия связи, определение ее направления и формы; 3. Измерение степени тесноты связи между признаками; 4. Построение регрессионной модели, т.е. нахождение аналитического выражения связи; 5. Оценка адекватности модели, ее экономическая интерпретация и практическое использование.
Все основные положения теории корреляции разрабатывались применительно к предположению о нормальном характере распр
еделения исследуемых признаков. В этой связи целесообразным является изучение формы распределения, дающее возможность в известной мере обосновать правомерность применения методов корреляционного анализа.

Читать еще:  Анализ цен статья

    Методы корреляционно-регрессио нного анализа связи показателей.

Указанные особенности корреляционных связей порождают в теории корреляции две задачи: определение теоретической формы связи (регрессионный анализ) и измерение тесноты связи (корреляционный анализ).
Первая задача состоит в том, чтобы подыскать такую форму функциональной связи, которая в наилучшей степени отвечает сущности обнаруженной корреляционной зависимости.
Вторая задача состоит в том, чтобы измерить с помощью специальных показателей, в какой мере корреляционная связь приближается по своей силе к связи функциональной.
Важным этапом регрессионного анализа является определение типа функции, с помощью которой характеризуется зависимость между признаками. Главным основанием для выбора вида уравнения должен служить содержательный анализ природы изучаемой зависимости, ее механизма. Но теоретически обосновать форму связи каждого из факторов с результативным показателем можно далеко не всегда, поскольку исследуемые социально-экономические явления очень сложны и факторы, формирующие их уровень, тесно переплетаются и взаимодействуют друг с другом. Поэтому на основе теоретического анализа нередко могут быть сделаны самые общие выводы относительно направления связи. Необходимым дополнением такого рода предположений должен быть анализ конкретных фактических данных.
Одним из элементов конкретных исследований является сопоставление различных уравнений зависимости, основанное на использовании критериев качества аппроксимации эмпирических данных конкурирующими вариантами моделей. Наиболее часто для характеристики связей экономических показателей используют следующие типы функций: линейную, гиперболическую, показательную, степенную, параболическую, логарифмическую.
Корреляционно-регрес сионный анализ заключается в построении и анализе статистической модели в виде уравнения регрессии (уравнения корреляционной связи), приближенно выражающей зависимость результативного признака от одного или нескольких признаков-факторов и в оценке степени тесноты связи. Выбор формы связи имеет решающее значение в корреляционно-регрессион ном анализе. Все дальнейшие самые тщательные расчеты могут быть обесценены, если форма связи избрана неверно.
Теоретическая линия связи называется линией регрессии, а ее поиск, построение, анализ и практическое применение — регрессионным анализом.
К корреляционно-регрессионн ому анализу переходят, если предварительная статистическая обработка эмпирических данных — группировка и расчет показателя эмпирического корреляционного отношения показывает, что сила связи между факторами и результативным признаком достаточно тесная.
Если зависимость довольно высокая, т.е. довольно близко приближается к функциональной, тогда именно теоретическая линия связи и ее параметры приобретают практическое значение, превращая теорию корреляции в хорошего помощника в плановых и экономических расчетах. Значит, когда связь высокая, есть смысл искать и находить теоретическую линию связи, т.е. выбрать определенный вид функции, наилучшим образом отображающий характер изучаемой связи.
Для статистической оценки тесноты связи применяются следующие показатели вариации:

    Общая дисперсия результативного признака , отображающая совокупное влияние всех факторов:

    Факторная дисперсия результативного признака , отображающая вариацию y только от воздействия изучаемого фактора x:

    Остаточная дисперсия , отображающая вариацию результативного признака y от всех прочих, кроме x, факторов:

Соотношение между факторной и общей дисперсиями характеризует меру тесноты связи между признаками x и y:

Показатель называется индексом детерминации (причинности). Он выражает долю факторной дисперсии в общей дисперсии, т.е. характеризует, какая часть общей вариации результативного признака y объясняется изучаемым фактором x.
На основе предыдущей формулы определяется индекс корреляции R:
R=
Индекс корреляции меняется в пределах от 0 до +1. Для оценки значимости индекса корреляции R применяется F-критерий Фишера.
FR
где m — число параметров уравнения регрессии.
Расчетная величина критерия Фишера сравнивается с критическим значением, которое определяется по таблице F-критерия.
Если расчетное значение больше табличного, то величина индекса корреляции признается существующим.
Для получения выводов о практической значимости синтезированных в анализе моделей показаниям тесноты связи дается качественная оценка. Это осуществляется на основе шкалы Чеддока:

Применение корреляционно-регрессионного анализа

В системе статистической обработки данных и аналитики часто используется сочетание методик корреляции и регрессии. Создателем корреляционно-регрессионного анализа считается Фрэнсис Гальтон, который разработал теоретическую основу методологии в 1795 году. В конце 19 века многие европейские ученые в области теории статистики углубили познания в вопросе использования количественных измерителей для отражения связей между явлениями.

Что такое корреляционно-регрессионный анализ (КРА) предприятия?

Корреляционно-регрессионный анализ (КРА) на предприятиях используется для выявления связей между несколькими факторами хозяйственной деятельности и оценки степени взаимозависимости выбранных для анализа критериев. Методика использует два алгоритма действий:

  1. Корреляция, которая направлена на построение моделей связей.
  2. Регрессия, используемая для прогнозирования событий на основе наиболее подходящей для ситуации модели связей.

Анализ проводится в несколько шагов:

  • постановка задач проведения исследования;
  • массовый сбор информации: систематизация статистических данных по конкретным показателям деятельности предприятия в динамике за несколько периодов;
  • этап создания модели связей;
  • анализ функционирования модели, оценка ее эффективности.

Для проведения КРА необходимо использовать показатели в едином измерителе, все они должны иметь числовое значение.

ОБРАТИТЕ ВНИМАНИЕ! Для достоверности данных и работоспособности модели сведения должны быть собраны за длительный отрезок времени.

Для полноты анализа надо устранить количественные ограничения на показатели модели, должно соблюдаться условие постоянной временной и территориальной структуры рассматриваемой совокупности элементов.

Где используется корреляционно-регрессионный анализ?

Основные ситуации применения КРА:

  1. Тестирование отношения между несколькими величинами: выявляется, что именно этот показатель является влияющим, а второй – зависимым.
  2. Определение связи между двумя переменными факторами без уточнения причинно-следственного блока сведений.
  3. Расчет показателя по изменению значения другого фактора.

Корреляционно-регрессионная методика анализа может применяться для подготовки данных о разных сторонах деятельности компании. В бизнесе построение моделей зависимости одного показателя от других факторов и дальнейшая эксплуатация выведенной математической формулы позволяют отслеживать оперативное изменение текущей ситуации в выбранном сегменте хозяйствования и быстро принимать управленческие решения.

Например, благодаря КРА можно постоянно отслеживать уровень рыночной стоимости предприятия. Для этого на начальных этапах проводится сбор информации о динамике изменения рыночной стоимости и статистических показателей всех возможных факторов влияния:

  • уровень выручки;
  • рентабельность;
  • размер активов;
  • сумма непогашенной дебиторской или кредиторской задолженности;
  • резерв сомнительных долгов и др.

Для каждого критерия строится модель, которая выявляет, насколько сильно фактор может влиять на рыночную стоимость бизнес-проекта. Когда все модели построены, оценивается их работоспособность и адекватность. Из комплекса данных выбирается тот тип взаимосвязей, который отвечает требованиям объективности и достоверности. На основе полученной схемы связей создается уравнение, которое позволит получать прогнозные данные об изменении рыночной стоимости при условии изменения значения конкретного фактора.

Методику можно применять при формировании ценовой политики, составлении бизнес-планов, проработке вопроса о расширении ассортиментного ряда и в других сегментах предпринимательства.

Задачи, виды и показатели корреляционно-регрессионного анализа

Задачи КРА заключаются в:

  • идентификации наиболее значимых факторов влияния на конкретный показатель деятельности предприятия;
  • количественном измерении тесноты выявленных связей между показателями;
  • определении неизвестных причин возникновения связей;
  • всесторонней оценке факторов, которые признаны наиболее важными для рассматриваемого показателя;
  • выведении формулы уравнения регрессии;
  • составлении прогноза возможного результата деятельности при изменении ключевых связанных факторов с учетом возможного влияния других факторных признаков.

КРА подразумевает использование нескольких видов корреляционных и регрессионных методов. Зависимости выявляются при помощи корреляций таких типов:

  • парная, если связь устанавливается с участием двух признаков;
  • частная – взаимосвязь оценивается между искомым показателем и одним из ключевых факторов, при этом условием задается постоянное значение комплекса других факторов (то есть числовое выражение всех остальных факторов в любых ситуациях будет приниматься за определенную неизменную величину);
  • множественная – основу исследования составляет влияние на показатель деятельности не одного фактора, а сразу нескольких критериев (двух и более).

СПРАВОЧНО! Выявленные показатели степени тесноты связей отражаются коэффициентом корреляции.

На выбор коэффициента влияет шкала измерения признаков:

  1. Шкала номинальная, которая предназначена для приведения описательных характеристик объектов.
  2. Шкала ординальная нужна для вычисления степени упорядоченности объектов в привязке к одному и более признакам.
  3. Шкала количественная используется для отражения количественных значений показателей.

Регрессионный анализ пользуется методом наименьших квадратов. Регрессия может быть линейной и множественной. Линейный тип предполагает модель из связей между двумя параметрами. Например, при наличии таких двух критериев, как урожайность клубники и полив, понятно, что именно объем поступающей влаги будет влиять на объем выращенной и собранной клубники. Если полив будет чрезмерным, то урожай пропадет. Урожайность же клубники никак не может воздействовать на систему полива.

Множественная регрессия учитывает более двух факторов одновременно. В случае с клубникой при оценке ее урожайности могут использоваться факторы полива, плодородности почвы, температурного режима, отсутствия слизняков, сортовые особенности, своевременность внесения удобрений. Все перечисленные показатели в совокупности оказывают комплексное воздействие на искомое значение – урожайность ягод.

Система показателей анализа формируется критериями классификации. Например, при экстенсивном типе развития бизнеса в качестве показателей могут выступать такие факторы:

  • количество сотрудников;
  • число заключенных договоров за отчетный период;
  • посевные площади;
  • прирост поголовья скота;
  • расширение дилерской сети;
  • объем основных фондов.
Читать еще:  Анализ счета 20

При интенсивном типе развития могут применяться следующие показатели:

  • производительность труда;
  • рентабельность;
  • урожайность;
  • фондоотдача;
  • ликвидность;
  • средний объем поставок в отчетном периоде по одному договору.

Оценка

Для оценки достоверности и эффективности модели связей необходимо построить матрицу коэффициентов. Коэффициент в случае парной корреляции вычисляется по формуле:

Диапазон значений коэффициента ограничивается показателями от -1 до +1. Если итоговое значение было получено со знаком плюс, то между рассматриваемыми переменными имеется прямая связь. Если в результате расчетов значение оказалось отрицательным, то связь будет обратной, то есть при увеличении одного из показателей другой связанный с ним фактор будет уменьшаться. Пример прямой связи – увеличение посевных площадей будет способствовать росту объема собираемой с полей продукции. Пример обратной связи – увеличение посевных площадей сопровождается снижением урожайности.

Качественный аспект тесноты связи между рассматриваемыми в аналитических расчетах показателями можно оценивать, основываясь на шкале Чеддока.

В соответствии с ее нормами связь будет расцениваться как сильная при значении коэффициента корреляции по абсолютным данным величины выше 0,7. Положительный или отрицательный знак сопровождает числовое значение – неважно, ориентироваться необходимо только на число. Если коэффициент после вычислений оказался ниже 0,3, то связь можно считать слабой.

Для дальнейших этапов анализа выбираются факторы с высокой степенью связанности. Все остальные критерии, для которых установлена слабая связь, отбрасываются. На основании полученных сведений определяется вид математического уравнения регрессии. Рассчитывается численное значение оценки параметров регрессии, определяются качества полученной модели регрессии.

Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа

Корреляционно-регрессионный анализ – это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.

Что такое корреляционная диаграмма?

Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.

Допущения и упрощения

Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.

Линейная корреляция Пирсона

Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.

Свойства и предостережения

Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:

  1. Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
  2. Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
  3. Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.

Коэффициент ранговой корреляции Спирмана

Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.

Корреляционно-регрессионный анализ: пример

Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.

Данный тип анализа имеет следующие преимущества:

  • Непараметрическая форма отношений между исследуемыми величинами.
  • Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.

Единственное требование данного типа анализа – это необходимость конвертации исходных данных.

Проблемы применения

В основе корреляционно-регрессионного анализа лежат следующие предположения:

  • Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
  • В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
  • При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
  • Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.

Зависимость и причинно-следственная связь

Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.

Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.

Зачем использовать регрессионный анализ?

Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:

  1. Выбор правильной модели с помощью метода наименьших квадратов.
  2. Выведение уравнения, описывающего влияние изменения независимой переменной на другую.

Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.

Линейная и множественная регрессия

Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.

Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:

  • Зависимость между независимой и влияющими на нее характеристиками является линейной.
  • Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
  • Гомоскедастичность и нормальность рядов чисел.

Применение корреляционно-регрессионного анализа

Существует три основных случая использования данного метода:

  1. Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
  2. Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
  3. Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.

Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.

Корреляционно-регрессионный анализ в экономических исследованиях

Виды и формы корреляционных взаимосвязей между показателями. Особенности функциональных и стохастических, прямых и обратных, прямо- и криволинейных, одно- и многофакторных связей, их модели. Сущность и методика корреляционно-регрессионного анализа.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Читать еще:  Анализ ликвидности предприятия

ВСЕРОССИЙСКИЙ ЗАОЧНЫЙ ФИНАНСОВО-ЭКОНОМИЧЕСКИЙ ИНСТИТУТ

По дисциплине «Статистика»

Корреляционно-регрессионный анализ в экономических исследованиях

І. Теоретическая часть

1. Виды и формы корреляционных взаимосвязей между показателями

Один из наиболее общих законов объективного мира — закон всеобщей связи и зависимости между явлениями. Естественно, что, исследуя явления в самых различных областях, статистика неизбежно сталкивается с зависимостями как между количественными, так и между качественными показателями, признаками. Ее задача — обнаружить (выявить) такие зависимости и дать их количественную характеристику. Теория статистики: Учебник / Под. ред. проф. Г.Л. Громыко. — М.: ИНФРА — М, 2000. — 414 с. — (серия «Высшее образование»).

При изучении конкретных зависимостей одни признаки выступают в качестве факторов, обусловливающих изменение других признаков. Признаки этой первой группы в дальнейшем будем называть признаками-факторами (факторными признаками); а признаки, которые являются результатом влияния этих факторов, будем называть результативными. Связи между явлениями и их признаками классифицируются по степени тесноты связи, направлению и аналитическому выражению . Ефимова М.Р., Петрова Е.В., Румянцев В.Н. Общая теория статистики: Учебник. Изд. 2-е, испр. и доп. — М.: ИНФРА-М, 2000. — 416 с.

Между показателями чаще всего наблюдаются следующие типы связей:

1.1 Функциональные и стохастические (статистические) связи

Между различными явлениями и их признаками необходимо прежде всего выделить два типа связей: функциональную и стохастическую (статистическую), частным случаем которой является корреляционная связь .

Функциональной Теория статистики: Учебник / Р.А. Шмойлова, В.Г. Минашкин, Н.А. Садовникова, Е.Б. Шувалова; Под ред. Р.А. Шмойловой. — 4-е изд., перераб. и доп. — М.: Финансы и статистика, 2004. — 656 с.: ил. называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Функциональная связь проявляется во всех случаях наблюдения и для каждой конкретной единицы исследуемой совокупности. Функциональные связи являются точными и полными связями, так как обычно известны перечень всех факторов и механизм их воздействия на результативный признак в виде уравнения:

где у результативный признак;

f( x i ) — известная функция связи результативного и факторного признаков;

Таким образом, при функциональных связях величина результативного показателя полностью определяется факторными признаками (одним или несколькими). При этом важно отметить, что функциональная зависимость с одинаковой силой проявляется у всех единиц совокупности, независимо от изменения других признаков данного явления. Ряузов Н.Н. Общая теория статистики: Учебник для студ. экон. спец. вузов. — 3-е изд., перераб. и доп. — М.: Статистика, 1980. — 344 с., ил.

Примером функциональной связи служит функциональная зависимость объема жидкости или газа в сосуде или какой-то другой емкости от температуры или атмосферного давления в изучаемой среде.

Там, где взаимодействует множество факторов, в том числе и случайных, выявить зависимости, рассматривая единичный случай, невозможно.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической (статистической) . Социально-экономическая статистика: Учебник для вузов / Под ред. проф. Б.И. Башкатова. — М.: ЮНИТИ-ДАНА, 2002. — 703 с.

Стохастическая связь — это связь между величинами, при которой одна из них, случайная величина у, реагирует на изменение другой величины х или других величин х 1 , х 2 , …, х n (случайных или неслучайных) изменением закона распределения. Иными словами, при данной связи разным значениям одной переменной соответствуют разные распределения другой переменной. Это обуславливается тем, что зависимая переменная (результативный признак), кроме рассматриваемых независимых, подвержена влиянию ряда неучтенных или неконтролируемых (случайных) факторов, а также некоторых неизбежных ошибок измерения переменных. Поскольку значения зависимой переменной подвержены случайному разбросу, они не могут быть предсказаны с достаточной точностью, а только указаны с определенной вероятностью .

Модель стохастической связи может быть представлена в общем виде уравнением:

где y i — расчетное значение результативного признака;

fi ) — часть результативного признака, сформировавшаяся под воздействием учтенных известных факторных признаков (одного или множества), находящихся в стохастической связи с признаком;

еi — часть результативного признака, возникшая в следствие действия неконтролируемых или неучтенных факторов, а также измерения признаков неизбежно сопровождающегося некоторыми случайными ошибками. Гусаров В.М. Теория статистики: Учебн. Пособие для вузов. — М.: Аудит, ЮНИТИ, 1998. — 247 с.

Корреляционная связь Статистика: Учебник / И.И. Елисеева, И.И. Егорова и др.; Под ред. проф. И.И. Елисеевой: — М.: ТК Велби, Изд-во Проспект, 2004.- 448 с. — частный случай статистической связи. При корреляционной связи под влиянием изменения многих факторных признаков (ряд из которых может быть неизвестен) меняется средняя величина результативного признака. Например, между количеством внесенных удобрений и урожайностью существует корреляционная связь, так как при внесении одних и тех же количеств удобрений на различных участках урожайность будет разная. Причем может случиться, что там, где меньше внесено удобрений, урожайность будет выше. Это объясняется тем, что на урожайность влияет не только количество внесенных удобрений, но и другие, не учтенные в данном случае факторы: качество семян, рельеф местности, культура земледелия, сроки посева и уборки и т.д.

Другим примером корреляционной связи показателей коммерческой деятельности является зависимость сумм издержек обращения от объема товарооборота. В этой связи, помимо факторного признака — объема товарооборота х, на результативный признак (сумму издержек у) влияют и другие факторы, в том числе и неучтенные е i . Поэтому корреляционные связи не являются полными (тесными) зависимостями. Важная особенность корреляционных связей состоит в том, что они обнаруживаются не в единичных случаях, а в массе и требуют для своего исследования массовых наблюдений, т.е. статистических данных [3, стр.334-335].

1.2 Прямые и обратные связи

В зависимости от направления действия как функциональные, так и корреляционные связи могут быть как прямыми , так и обратными . При прямой связи направление изменения результативного признака совпадает с направлением изменения признака-фактора, т.е. с увеличением факторного признака увеличивается и результативный и, наоборот, с уменьшением факторного признака уменьшается и результативный признак. Так, чем выше квалификация рабочего (разряд), тем выше уровень производительности труда [4, стр.295].

В противном случае между рассматриваемыми величинами существуют обратные связи . Иными словами значения результативного признака изменяются под воздействием факторного, но в противоположном направлении по сравнению с изменением последнего. Так, чем выше производительность труда, тем ниже себестоимость продукции [5, стр.111].

1.3 Прямолинейные и криволинейные связи

По аналитическому выражению (форме) выделяют связи прямолинейные (или просто линейные) и криволинейные (нелинейные). При прямолинейной связи с возрастанием величины факторного признака происходит непрерывное возрастание (или убывание) величин результативного признака. Если статистическая связь между явлениями может быть приближенно выражена уравнением прямой линии: у = а 0 +а 1 х, то ее называют линейной связью [9, стр. 325-326].

При криволинейной связи с возрастанием величины факторного признака возрастание (или убывание) результативного признака происходит неравномерно или направление его изменения меняется на обратное. Связь называют нелинейной или криволинейной, если она выражается уравнением какой-либо кривой линии (параболы, гиперболы, степенной, и т.д.)[4,стр.295]

1.4 Однофакторные и многофакторные связи

По количеству факторов, действующих на результативный признак, связи различаются однофакторные (один фактор) и многофакторные (два и более факторов). Однофакторные (простые) связи обычно называются парными (т.к. рассматривается пара признаков). Например, корреляционная связь между прибылью и производительностью труда.

В случае многофакторной (множественной) связи имеют в виду, что все факторы действуют комплексно, т.е. одновременно и во взаимосвязи. Например, корреляционная связь между производительностью труда и уровнем организации труда, квалификации рабочих, производственным стажем и другими факторными признаками. С помощью множественной корреляции можно охватить весь комплекс факторных признаков и объективно отразить существующие множественные связи [1, стр.210-211].

2. Корреляционный анализ

Корреляционно-регрессионный метод исследования состоит как бы из двух этапов. К первому этапу относится корреляционный анализ, а ко второму — регрессионный анализ.

Задачи, поставленные перед корреляционным методом исследования, разрешаются с помощью следующих методов:

· Качественного анализа с отбором взаимосвязанных признаков;

· Метода определения тесноты связи.

Эти методы исследования имеют большое значение, т.к. их результаты представляют информацию о сущности и характере исследуемой связи и служат основой для регрессионного анализа, дающего выражение аналитической формы связи в виде теоретического уравнения регрессии (связи) [5, стр. 187].

Исходной информацией для корреляционного метода исследования являются эмпирические данные, полученные в результате применения элементарных приемов изучения взаимосвязей, то есть сравнения и сопоставления параллельных рядов и применения метода группировок.

Логическим продолжением метода группировок является корреляционный анализ. Поэтому первая задача — выявление зависимости между признаками — предполагает качественный анализ в обработке первичного материала, отбор факторов, а выявление зависимостей определяется в основном с помощью метода группировок.

Вторая и наиболее сложная задача — выбор формы связи определяется с помощью графического метода с последующим нанесением на этот же график результатов, полученных на основании построенной корреляционно-регрессионной модели. Исходные эмпирические данные наносим на график корреляционного поля и на основе графика делаем вывод о форме связи. На оси абсцисс откладываем факторные значения признака, а на оси ординат — результативные. Если связь между признаками достаточно тесная и прямая (рис. 1а), то наибольшее число точек (данных) расположится достаточно узкой полосой по диагонали слева направо и снизу вверх, т.к. прямая связь предполагает, что при возрастании значений одного признака возрастают значения другого признака. При обратной же связи (рис. 1б) и достаточно тесной наибольшее число точек размещается также полосой по диагонали слева направо и сверху вниз, т.к. при такой связи возрастание значений одного признака сопровождается убыванием значений другого. Отсутствие связей или слабая связь (рис. 1в) будут характеризоваться разбросанностью точек (данных) по всему графику и всей таблице [7, стр. 78-79 ]. Эти три случая представлены на графике корреляционного поля.

Прежде чем перейти к построению уравнения регрессии, необходимо определить коэффициент корреляции парной или множественной с тем, чтобы убедиться в необходимости дальнейших расчетов. Линейный коэффициент корреляции r изменяется при прямой связи от 0 до +1, а при обратной связи — от 0 до -1, если же r = 0, то линейная связь отсутствует. О тесноте связи свидетельствует абсолютная величина коэффициента корреляции. Для качественной оценки тесноты связи используется таблица Чэддока (таблица 1) [4, стр.311].

Ссылка на основную публикацию
ВсеИнструменты
Adblock
detector