Контрольная работа: Анализ данных в линейной регрессионной модели
Название: Анализ данных в линейной регрессионной модели Раздел: Рефераты по экономике Тип: контрольная работа | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Государственное образовательное учреждение высшего профессионального образования «Московский государственный институт электронной технки (технический универститет)»
Курсовая работа по дисциплине «Теория вероятности и математическая статистика» Тема работы «Анализ данных в линейной регрессионной модели» Выполнил: Студент группы ЭКТ-21 Рыжов С.А. Проверил: Преподаватель Бардушкина И. В. Москва - 2010 Вариант 20. Задание 1
Выполнить предварительную обработку результатов наблюдений, включающую: 1 построение диаграммы рассеивания (корреляционного поля); 2 группировку данных и построение корреляционной таблицы; 3 оценку числовых характеристик для негруппированных и группированных данных. Оценка числовых характеристик для негруппированных данных:
Числовые характеристики для негруппированной выборки находятся по следующим формулам: , ; ; ; ; ; Построение корреляционного поля: Построение корреляционной таблицы: Таблица 1.1
Оценка числовых характеристик для группированных данных: , ; , ; ; ; , ; ; ; = - 0.87 Задание 2
Для негруппированных данных проверить гипотезу об отсуствии линейной статистической связи между компонентами X и Y при альтернативной гипотезе ( уровень значимости α = 0,05); Выборочное значение статистики равно ,
Используя средства Matlab, найдем Так как выборочное значение статистики больше квантили распределения Стьюдента, гипотеза H 0 отклоняется в сторону гипотезы H 1 . Корреляция значима. Задание 3 Для негруппированых данных получить интервальную оценку для истинного значения коэффициента корреляции ρX , Y , при уровне значимости α = 0,05. Используя средства Matlab, найдем , ,
Задание 4
Для негруппированных и группированных данных составить уравнения регрессии Y на x и X на Y. Рассмотрим вначале случай негруппированных данных. Этот интервал не содержит нуля, т.е. с доверительной вероятностью 1 – ЫВА = 0,95 существует корреляция между X и Y и имеет смысл построение уравнений регрессии. , y ( x ) = 12,77 – 0,848*x ; x ( y ) = 10,86 – 0,6*y ; Проверка. , . , ; , , ; Случай группированных данных. Подставим найденные значения в уравнеиня линейной регрессии Y на x и X на y . Получим:
y ( x ) = 17,14 – 1,4*x ; x ( y ) = 10,83 – 0,54*y ; Проверка:
Задание 5
Для негруппированных данных нанести графики выборочных регрессионных прямых на диаграмму рассеивания. Задание 6
Для негруппированных данных по найденным оценкам параметров линейной регрессии Y на x получить оценку s 2 для дисперсии ошибок наблюдений σ 2 , найти коэффициент детерминации R 2 , построить доверительные интервалы для параметров регрессии a и b, дисперсии ошибок наблюдений σ 2 и среднего значения Y при x = x 0 . Для негруппированных данных были получены следующие оценки числовых характеристик и коэффициентов регрессии: , , , , , , , . Используя соотношение , вычислим остаточную сумму ; ; ; . ; Тогда оценка дисперсии ошибок наблюдений равна . Коэффициент детерминации равен
. Поскольку (знак ), то сделаем проверку правильности расчетов: (верно). Полученный результат для коэффициента детерминации означает, что уравнение регрессии на 49,7% объясняет общий разброс результатов наблюдений относительно горизонтальной прямой . Построим доверительные интервалы для параметров линейной регрессии и дисперсии ошибок наблюдений. С помощью Matlab найдем квантили распределений Стьюдента и : , , ; – доверительный интервал для параметра : ; ; – доверительный интервал для параметра : ; ; – доверительный интервал для дисперсии ошибок наблюдений : ; . -Найдем границы доверительных интервалов для среднего значения при :
; . Задание 7. Для негруппированных данных проверить значимость линейной регрессии Y на x (уровень значимости α = 0,05). Гипотеза : отклоняется на уровне значимости , так как доверительный интервал не накрывает нуль с доверительной вероятностью 0,95. Этот же результат можно получить, используя для проверки гипотезу : и статистику . С помощью Matlab найдем квантили распределения Фишера: , . Выборочное значение статистики равно: . Поскольку , то гипотеза : отклоняется на уровне значимости . Таким образом, линейная регрессия на статистически значима. Задание №8
Для данных, сгруппированных только по , проверить адекватность линейной регрессии на (уровень значимости ). Для проверки адекватности воспользуемся корреляционной таблицей. Будем считать, что середины интервалов группировки , , являются значениями компоненты . Тогда число повторных наблюдений равно 4. Запишем результаты этих наблюдений в виде таблицы
Таблица 1.2
Для удобства расчетов в последней строке таблицы приведены средние значения , . . Получим уравнение выборочной линейной регрессии на для данных, сгруппированных по : ; , , , , ; y ( x ) = 8,29 – 0,9x . ; . Выборочное значение статистики равно . Так как квантиль распределения Фишера, вычисленный с помощью Matlab, равен 3,19, то , а значит, линейная регрессия на для данных, сгруппированных по , адекватна результатам наблюдений. Задание 9. Для негруппированных данных проверить гипотезу : при альтернативной гипотезе : (уровень значимости ) Имеются следующие величины: , , , , . Сначала проверяется гипотеза :, альтернативная гипотеза :. Статистика равна = 1,931 С помощью средств Matlab, найдем: F0,975 (n -1; n -1)=F0,975 (49,49) = 1.7622 z > F0,975 (n -1; n -1),
следовательно отклоняется, а значит что Теперь можно проверить гипотезу, :, при альтернативной гипотезе :. Т.к. , статистика имеет вид = 1,418 Найдем количество степеней свободы ≈3,625 С помощью средств Matlab, найдем: z < , значит нет оснований отклонять гипотезу :. Приложение A = [ 4.19 3.04 4.60 9.83 8.66 1.30 4.22 5.11 9.85 8.80 12.17 11.25 5.73 4.05 5.41 1.28 1.67 11.99 7.66 5.17 3.26 12.58 8.34 5.79 3.42 4.44 11.31 7.57 1.62 5.71 11.06 10.35 2.46 1.02 5.77 8.63 6.91 3.56 9.47 6.16 8.26 6.70 4.95 3.37 1.53 9.54 3.11 5.09 11.08 8.74; 9.19 11.94 8.09 10.33 7.15 12.34 16.35 7.70 5.64 4.52 4.52 2.06 7.41 10.51 9.97 14.68 9.67 3.31 5.93 9.87 11.52 2.88 3.57 4.39 9.71 9.13 4.58 3.14 14.61 6.48 6.78 2.15 9.66 11.19 7.77 4.05 4.76 8.54 2.22 3.72 3.57 14.32 10.64 10.73 10.13 4.95 5.38 5.79 3.87 -2.23] x = A(1,:); y = A(2,:); Mx = mean(x) Dx = var(x,1) My = mean(y) Dy = var(y,1) plot(x,y,'g*') grid on hold on axis([1 13 -3 18]); gca1 = gca; set(gca1,'xtick',[1 4 7 10 13],'ytick',[-3 0 3 6 9 12 15 18]); xlabel('X'); ylabel('Y'); z = 12.77 - 0.848*x; %построение регрессии Y на x Zplot = plot(z,x); set(Zplot,'Color','Red','LineWidth',[2]) hold on text(12, -1,'x(y)'); text(11.8, 2,'y(x)'); t = 10.86 - 0.6*y; %построение регрессии X на y Tplot = plot(t,y); set(Tplot,'Color','Red','LineWidth',[2]) hp = line([1 6.36],[7.38 7.38]); %эти прямые показывают положение set(hp,'Color','blue','LineWidth',[1.5]) %среднего выборочного hp = line([6.36 6.36],[-3 7.38]); set(hp,'Color','blue','LineWidth',[1.5]) K = cov(x,y) %находим ковариацию DEtK = det(K) M = corrcoef(x,y) %коэффициент корреляции detM = det(M) |