Контрольная работа: Парная регрессия
|
Название: Парная регрессия Раздел: Рефераты по математике Тип: контрольная работа | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1 , Х2 , … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом. Наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией. Парная регрессия – уравнение связи двух переменных у иx :
где у – зависимая переменная (результативный признак); х – независимая, объясняющая переменная (признак-фактор). Различают линейные и нелинейные регрессии. Линейная регрессия: Нелинейные регрессии делятся на два класса: регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, и регрессии, нелинейные по оцениваемым параметрам. Регрессии, нелинейные по объясняющим переменным: • полиномы разных степеней •равносторонняя гипербола Регрессии, нелинейные по оцениваемым параметрам: • степенная • показательная • экспоненциальная Построение уравнения регрессии сводится к оценке ее параметров. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК).
МНК позволяет получить такие оценки параметров, при которых сумма квадратов отклонений фактических значений результативного признака у
от теоретических
Для линейных и нелинейных уравнений, приводимых к линейным, решается следующая система относительно а и b :
Можно воспользоваться готовыми формулами, которые вытекают из этой системы:
Тесноту связи изучаемых явлений оценивает линейный коэффициент парной корреляции
и индекс корреляции
Оценку качества построенной модели даст коэффициент (индекс) детерминации, а также средняя ошибка аппроксимации. Средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:
Допустимый предел значений Средний коэффициент эластичности
Задача дисперсионного анализа состоит в анализе дисперсии зависимой переменной:
где
Долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака у характеризует коэффициент (индекс) детерминации R 2 :
Коэффициент детерминации – квадрат коэффициента или индекса корреляции. F -тест – оценивание качества уравнения регрессии – состоит в проверке гипотезы Но о статистической незначимости уравнения регрессии и показателя тесноты связи. Для этого выполняется сравнение фактического Fфакт и критического (табличного) Fтабл значений F -критерия Фишера. F факт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:
п – число единиц совокупности; т – число параметров при переменных х. Fтабл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно а принимается равной 0,05 или 0,01. Если Fтабл < Fфакт , то H0 – гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность. Если F табл > Fфакт , то гипотеза Н0 не отклоняется и признается статистическая незначимость, ненадежность уравнения регрессии. Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t -критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля. Оценка значимости коэффициентов регрессии и корреляции с помощью f-критерия Стьюдента проводится путем сопоставления их значений с величиной случайной ошибки:
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяются по формулам:
Сравнивая фактическое и критическое (табличное) значения t-статистики – tтабл и tфакт – принимаем или отвергаем гипотезу Hо . Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством
Если tтабл
< tфакт
, то Hо отклоняется, т.е. а,
b
и Для расчета доверительного интервала определяем предельную ошибку ∆ для каждого показателя:
Формулы для расчета доверительных интервалов имеют следующий вид:
Если в границы доверительного интервала попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр принимается нулевым, так как он не может одновременно принимать и положительное, и отрицательное значения. Прогнозное значение
и строится доверительный интервал прогноза:
Задача: По 22 регионам страны изучается зависимость розничной продажи телевизоров, y от среднедушевых денежных доходов в месяц, x (табл. 1):
Задание 1. Постройте поле корреляции и сформулируйте гипотезу о форме связи. 2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий. 3. Оцените тесноту связи с помощью показателей корреляции и детерминации. 4. С помощью среднего (общего) коэффициента эластичности дайте сравнительную оценку силы связи фактора с результатом. 5. Качество уравнений оцените с помощью средней ошибки аппроксимации. 6. С помощью F-критерия Фишера определите статистическую надежность результатов регрессионного моделирования. Выберите лучшее уравнение регрессии и дайте его обоснование. 7. Рассчитайте прогнозное значение результата по линейному уравнению регрессии, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости α=0,05. 8. Оцените полученные результаты, выводы оформите в аналитической записке. 1. Поле корреляции для: · Линейной регрессии y=a+b*x: ·
Гипотеза о форме связи: чем больше размер среднедушевого денежного дохода в месяц (факторный признак), тем больше при прочих равных условиях розничная продажа телевизоров (результативный признак). В данной модели параметр b называется коэффициентом регрессии и показывает, насколько в среднем отклоняется величина результативного признака у при отклонении величины факторного признаках на одну единицу. · Степенной регрессии
Гипотеза о форме связи : степенная функция имеет вид Y=axb . Параметр b степенного уравнения называется показателем эластичности и указывает, на сколько процентов изменится у при возрастании х на 1%. При х = 1 a = Y. · Экспоненциальная регрессия
· Равносторонняя гипербола
Гипотеза о форме связи: В ряде случаев обратная связь между факторным и результативным признаками может быть выражена уравнением гиперболы: Y=a+b/x. · Обратная гипербола
· Полулогарифмическая регрессия
2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий. · Рассчитаем параметры уравнений линейной парной регрессии. Для расчета параметров a и b линейной регрессии y=a+b*x решаем систему нормальных уравнений относительно a и b:
По исходным данным рассчитываем ∑y, ∑x, ∑yx, ∑x2 , ∑y2 (табл. 2):
Система нормальных уравнений составит:
· Рассчитаем параметры уравнений степенной парной регрессии. Построению степенной модели
Для расчетов используем данные табл. 3:
Рассчитаем С и b:
Получим линейное уравнение: Подставляя в данное уравнение фактические значения х, получаем теоретические значения результата y . · Рассчитаем параметры уравнений экспоненциальной парной регрессии. Построению экспоненциальной модели
Для расчетов используем данные табл. 4:
Рассчитаем С и b:
Получим линейное уравнение: Для расчета теоретических значений y
подставим в уравнение · Рассчитаем параметры уравнений полулогарифмической парной регрессии. Построению полулогарифмической модели
Для расчетов используем данные табл. 5:
Рассчитаем a и b:
Получим линейное уравнение: · Рассчитаем параметры уравнений обратной парной регрессии. Для оценки параметров приведем обратную модель Для расчетов используем данные табл. 6:
Рассчитаем a и b:
Получим линейное уравнение: Для расчета теоретических значений y
подставим в уравнение · Рассчитаем параметры уравнений равносторонней гиперболы парной регрессии. Для оценки параметров приведем модель равносторонней гиперболы Для расчетов используем данные табл. 7:
Рассчитаем a и b:
Получим линейное уравнение: 3. Оценка тесноты связи с помощью показателей корреляции и детерминации : · Линейная модель. Тесноту линейной связи оценит коэффициент корреляции. Был получен следующий коэффициент корреляции rxy
=b · Степенная модель. Тесноту нелинейной связи оценит индекс корреляции. Был получен следующий индекс корреляции · Экспоненциальная модель. Был получен следующий индекс корреляции ρxy =0,8124, что говорит о том, что связь прямая и очень сильная, но немного слабее, чем в линейной и степенной моделях. Коэффициент детерминации r²xy =0,66. Это означает, что 66% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Полулогарифмическая модель. Был получен следующий индекс корреляции ρxy =0,8578, что говорит о том, что связь прямая и очень сильная, но немного больше чем в предыдущих моделях. Коэффициент детерминации r²xy =0,7358. Это означает, что 73,58% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Гиперболическая модель. Был получен следующий индекс корреляции ρxy =0,8448 и коэффициент корреляции rxy =-0,1784 что говорит о том, что связь обратная очень сильная. Коэффициент детерминации r²xy =0,7358. Это означает, что 73,5% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. · Обратная модель. Был получен следующий индекс корреляции ρxy =0,8114 и коэффициент корреляции rxy =-0,8120, что говорит о том, что связь обратная очень сильная. Коэффициент детерминации r²xy =0,6584. Это означает, что 65,84% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц. Вывод: по полулогарифмическому уравнению получена наибольшая оценка тесноты связи: ρxy =0,8578 (по сравнению с линейной, степенной, экспоненциальной, гиперболической, обратной регрессиями). 4. С помощью среднего (общего) коэффициента эластичности дайте сравнительную оценку силы связи фактора с результатом. Рассчитаем коэффициент эластичности для линейной модели: · Для уравнения прямой:y = 5,777+7,122∙x
· Для уравнениястепенноймодели
· Для уравненияэкспоненциальноймодели
Для уравненияполулогарифмическоймодели
· Для уравнения обратной гиперболической модели
· Для уравнения равносторонней гиперболической модели
Сравнивая значения · · · · · · Известно, что коэффициент эластичности показывает связь между фактором и результатом, т.е. на сколько% изменится результат y от своей средней величины при изменении фактора х на 1% от своего среднего значения. В данном примере получилось, что самая большая сила связи между фактором и результатом в полулогарифмической модели, слабая сила связи в обратной гиперболической модели. 5. Оценка качества уравнений с помощью средней ошибки аппроксимации. Подставляя в уравнение регрессии фактические значения х,
определим теоретические (расчетные) значения
В среднем расчетные значения отклоняются от фактических на: · Линейная регрессия. Качество построенной модели оценивается как хорошее, так как · Степенная регрессия. Качество построенной модели оценивается как хорошее, так как · Экспоненциальная регрессия. Качество построенной модели оценивается как хорошее, так как · Полулогарифмическая регрессия. Качество построенной модели оценивается как хорошее, так как · Гиперболическая регрессия. Качество построенной модели оценивается как хорошее, так как · Обратная регрессия. Качество построенной модели оценивается как хорошее, так как 6. Рассчитаем F-критерий:
· Линейная регрессия. где · Степенная регрессия. где · Экспоненциальная регрессия. где · Полулогарифмическая регрессия. где · Гиперболическая регрессия. где · Обратная регрессия. где Для всех регрессий Вывод:
Все уравнения регрессии достаточно хорошо описывают исходные данные. Некоторое предпочтение можно отдать полулогарифмической функции, для которой значение R^2 наибольшее, а ошибка аппроксимации – наименьшая 7. Рассчитаем прогнозное значение результата по линейному уравнению регрессии, если прогнозное значение фактора увеличится на 7% от его среднего уровня. Определим доверительный интервал прогноза для уровня значимости α=0,05: Прогнозное значение где Средняя стандартная ошибка прогноза
где Предельная ошибка прогноза:
Доверительный интервал прогноза
27,11+6,53 = 33,64 Выполненный прогноз среднедушевых денежных доходов в месяц, xоказался надежным (р = 1 – α = 1 – 0,05 = 0,95), но неточным, так как диапазон верхней и нижней границ доверительного интервала
|











где 



:
:








к линейному виду, заменив 
.
, что говорит о прямой сильной связи фактора и результата. Коэффициент детерминации r²xy
=(0,845)²=0,715. Это означает, что 71,5% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц.
=
, что говорит о очень сильной тесной связи, но немного больше чем в линейной модели. Коэффициент детерминации r²xy
=0,7175. Это означает, что 71,75% вариации результативного признака (розничнаяпродажа телевизоров, у) объясняется вариацией фактора х – среднедушевой денежный доход в месяц.



:



*19= 47,579
*19= 48,257
*19= 36,878
*19= 52,9232
*19= 47,357
*19= 36,627
=
=3,12
=
=0,697886
=