Контрольная работа №1
по теме «Парная линейная регрессия»
Вариант № 1
Данные, характеризующие прибыль торговой компании «Все для себя» за первые 10 месяцев 2004 года (в тыс. руб.), даны в следующей таблице:
|
январь |
февраль |
март |
апрель |
май |
июнь |
июль |
август |
сентябрь |
октябрь |
|
382+N |
402+N |
432+N |
396+N |
454+N |
419+N |
460+N |
447+N |
464+N |
498+N |
N=9 -последняя цифра номера зачетной книжки.
В контрольной работе с использованием табличного процессора Ехсеl необходимо выполнить следующие вычисления и построения:
1. Построить диаграмму рассеяния.
2. Убедится в наличии тенденции (тренда) в заданных значениях прибыли фирмы и возможности принятия гипотезы о линейном тренде.
3. Построить линейную парную регрессию (регрессию вида
). Вычисление коэффициентов
b0, b1 выполнить методом наименьших квадратов.
4. Нанести график регрессии на диаграмму рассеяния.
5. Вычислить значения статистики F и коэффициента детерминации R2. Проверить гипотезу о значимости построенного уравнения регрессии.
6. Вычислить выборочный коэффициент корреляции и проверить гипотезу о ненулевом его значении.
7. Вычислить оценку дисперсии случайной составляющей эконометрической модели.
8. Проверить гипотезы о значимости вычисленных коэффициентов b0, b1 .
9. Построить доверительные интервалы для коэффициентов b0, b1.
10. Построить доверительные интервалы для дисперсии случайной составляющей эконометрической модели.
11. Построить доверительную область для условного
математического ожидания М(
)( по оси Х откладывать месяцы январь - декабрь). Нанести
границы этой области на диаграмму рассеяния.
12. С помощью линейной парной регрессии сделать
прогноз величины прибыли на ноябрь и декабрь месяц и нанести эти значения на
диаграмму рассеяния. Сопоставить эти значения с границами доверительной области
для условного математического ожидания М(
) и сделать вывод о точности прогнозирования с помощью
построенной регрессионной модели.
Решение.
1. При N=9 данные, характеризующие прибыль торговой компании «Все для себя» за первые 10 месяцев, задаются следующей таблицей:
|
№ месяца |
Месяц ( x) |
Прибыль (y) |
|
1 |
январь |
391 |
|
2 |
февраль |
411 |
|
3 |
март |
441 |
|
4 |
апрель |
405 |
|
5 |
май |
463 |
|
6 |
июнь |
428 |
|
7 |
июль |
469 |
|
8 |
август |
456 |
|
9 |
сентябрь |
473 |
|
10 |
октябрь |
507 |
Используя исходные данные, строим диаграмму рассеяния:

2. На основе анализа диаграммы рассеяния убеждаемся в наличии тенденции увеличения прибыли фирмы и выдвигаем гипотезу о линейном тренде.
3. Полагаем, что связь между факторами Х
и У может быть описана линейной функцией
. Решение задачи нахождения коэффициентов b0, b1 основывается на применении метода
наименьших квадратов и сводится к решению системы двух линейных уравнений с
двумя неизвестными b0, b1 :
b0 n + b1 Σxi = Σyi,
b0 Σxi + b1 Σxi2 = Σxiyi.
Составляем вспомогательную таблицу:
|
№ |
х |
y |
x2 |
ху |
y2 |
|
1 |
1 |
391 |
1 |
391 |
152881 |
|
2 |
2 |
411 |
4 |
822 |
168921 |
|
3 |
3 |
441 |
9 |
1323 |
194481 |
|
4 |
4 |
405 |
16 |
1620 |
164025 |
|
5 |
5 |
463 |
25 |
2315 |
214369 |
|
6 |
6 |
428 |
36 |
2568 |
183184 |
|
7 |
7 |
469 |
49 |
3283 |
219961 |
|
8 |
8 |
456 |
64 |
3648 |
207936 |
|
9 |
9 |
473 |
81 |
4257 |
223729 |
|
10 |
10 |
507 |
100 |
5070 |
257049 |
|
сумма |
55 |
4444 |
385 |
25297 |
1986536 |
Для нашей задачи система имеет вид:

Решение этой системы можно получить по правилу Крамера:
Σyi×Σxi2 – Σxiyi×Σxi nΣxiyi – ΣxiΣyi
b0 = —————————, b1 = ——————— .
nΣxi2 – (Σxi)2 nΣxi2 – (Σxi)2
Получаем:
,
.
Таким образом, искомое уравнение регрессии имеет вид: y =387,4 + 10,364x.
4. Нанесем график регрессии на диаграмму рассеяния.

5. Вычислим значения статистики F и коэффициента детерминации R2. Коэффициент детерминации рассчитаем по формуле R2 = rxy2 = 0,8732 = 0,762. Проверим адекватность модели (уравнения регрессии) в целом с помощью F-критерия. Рассчитаем значение статистики F через коэффициент детерминации R2 по формуле:
![]()
Получаем:
. Зададим уровень значимости α =0,05, по таблице находим
квантиль распределения Фишера F0,01;1;8 = 5,32,
где 1 – число степеней свободы.
Fфакт. > F0,01;1;8, т.к. 25,67 > 5,32.
Следовательно, делаем вывод о значимости уравнения регрессии при 95% - м уровне значимости.
6. Вычислим выборочный коэффициент корреляции и проверим гипотезу о ненулевом его значении.
Рассчитаем выборочный коэффициент корреляции по формуле:
nΣxiyi – ΣxiΣyi
rxy =—————¾ ¾¾——¾— ,
√nΣxi2 – (Σxi)2 √nΣуi2 – (Σуi)2
Получаем: ![]()
Проверка
существенности отличия коэффициента корреляции от нуля проводится по схеме: если
, то гипотеза о существенном отличии коэффициента корреляции
от нуля принимается, в противном случае отвергается.
Здесь t1-α/2,n-2 – квантиль распределения Стьюдента, α - уровень значимости или уровень доверия, n – число наблюдений, (n-2) – число степеней свободы. Значение α задается. Примем α = 0,05, тогда t1-α/2,n-2 = t0,975,8 = 2,37. Получаем:
.
Следовательно, коэффициент корреляции существенно отличается от нуля и существует сильная линейная связь между х и у.
С использованием табличного процессора Ехсеl проведем регрессионную статистику:
|
ВЫВОД ИТОГОВ |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Регрессионная статистика |
|
|
|
|
|
|
|
Множественный R |
0,873 |
|
|
|
|
|
|
R-квадрат |
0,762 |
|
|
|
|
|
|
Нормированный R-квадрат |
0,733 |
|
|
|
|
|
|
Стандартная ошибка |
18,579 |
|
|
|
|
|
|
Наблюдения |
10 |
|
|
|
|
|
|
Дисперсионный анализ |
|
|
|
|
||
|
|
df |
SS |
MS |
F |
Значимость F |
|
|
Регрессия |
1 |
8860,909 |
8860,909 |
25,670 |
0,001 |
|
|
Остаток |
8 |
2761,491 |
345,186 |
|
|
|
|
Итого |
9 |
11622,400 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Коэффициенты |
Стандартная ошибка |
t-стати- стика |
P-Значение |
Нижние95% |
Верхние 95% |
|
Y-пересечение |
387,400 |
12,692 |
30,523 |
0,000 |
358,132 |
416,668 |
|
Переменная X 1 |
10,364 |
2,046 |
5,067 |
0,001 |
5,647 |
15,081 |
Вычисленные значения коэффициентов b0, b1, значения статистики F, коэффициента детерминации R2 выборочного коэффициента корреляции rxy совпадают с выделенными в таблице.
7. Оценка дисперсии случайной составляющей
эконометрической модели вычисляется по формуле
.
Используя результаты регрессионной статистики, получаем:
.
8. Проверим значимость вычисленных
коэффициентов b0, b1
по t-критерию Стьюдента. Для этого проверяем выполнение неравенств:
и
, где
,
,
,
.
Используем результаты регрессионной статистики:
|
|
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
|
Y-пересечение |
387,400 |
12,692 |
30,523 |
0,000 |
358,132 |
416,668 |
|
Переменная X 1 |
10,364 |
2,046 |
5,067 |
0,001 |
5,647 |
15,081 |
Получаем:
;
Примем
α = 0,05, тогда t1-α/2,n-2 = t0,975,8 = 2,37.
Так как
и
, делаем вывод о значимости коэффициентов линейного уравнения
регрессии.
9. Доверительные интервалы для коэффициентов b0, b1 получаем с помощью результатов регрессионной статистики.
Доверительный интервал для коэффициента b0 уравнения регрессии:
![]()
Доверительный интервал для коэффициента b1 уравнения регрессии:
![]()
10. Построим доверительный интервал для дисперсии случайной составляющей эконометрической модели по формуле:
.
Примем α = 0,05, тогда по таблице для 10-элементной выборки q = 0,65. Получаем:
,
.
11. Построим доверительную область для условного
математического ожидания М(
).
Доверительные
интервалы для уравнения линейной регрессии :
находятся по формуле:
![]()
где
соответственно верхняя
и нижняя границы доверительного интервала;
значение независимой переменной
для которого
определяется доверительный интервал,
квантиль распределения Стьюдента,
доверительная вероятность, (n-2) – число степеней свободы;
![]()
Рассмотрим
уравнение: y =387,4 + 10,364x. Пусть
тогда
. Зная
и
, заполним таблицу:
|
|
|
|
|
|
|
|
1 |
397,7636 |
20,25 |
3,961 |
390,396 |
405,131 |
|
2 |
408,1273 |
12,25 |
4,458 |
399,835 |
416,419 |
|
3 |
418,4909 |
6,25 |
4,905 |
409,368 |
427,614 |
|
4 |
428,8545 |
2,25 |
5,314 |
418,970 |
438,739 |
|
5 |
439,2182 |
0,25 |
5,694 |
428,627 |
449,810 |
|
6 |
449,5818 |
0,25 |
6,051 |
438,328 |
460,836 |
|
7 |
459,9455 |
2,25 |
6,387 |
448,065 |
471,825 |
|
8 |
470,3091 |
6,25 |
6,707 |
457,835 |
482,783 |
|
9 |
480,6727 |
12,25 |
7,012 |
467,631 |
493,714 |
|
10 |
491,0364 |
20,25 |
7,304 |
477,451 |
504,622 |
|
сумма |
82,5 |
|
|
|
|
|
11 |
501,4 |
30,25 |
7,585 |
487,292 |
515,508 |
|
12 |
511,7636 |
42,25 |
7,856 |
497,152 |
526,376 |
График уравнения регрессии, доверительная полоса, диаграмма рассеяния:

12. С помощью линейной парной регрессии сделаем прогноз величины прибыли на ноябрь и декабрь месяц:
501,4,
511,764.
Нанесем эти значения на диаграмму рассеяния.

Эти значения сопоставимы с границами доверительной
области для условного математического ожидания М(
).
Точность прогнозирования: с вероятностью 0,95 прибыль в ноябре находится в интервале (487,292; 515,508); прибыль в декабре находится в интервале (497,152; 526,376).