Курсовая работа: Статистические методы обработки экспериментальных данных

Название: Статистические методы обработки экспериментальных данных
Раздел: Рефераты по математике
Тип: курсовая работа

Министерство образования Российской Федерации

Московский государственный университет печати

Факультет полиграфической технологии

Дисциплина: Математика

Курсовая работа по теме:

«Статистические методы обработки

Экспериментальных данных»

Выполнил: студент

Курс 2

Группа ЗТПМ

форма обучения заочная

Номер зачетной книжки Мз 023 н

Вариант № 13

Допущено к защите

Дата защиты

Результат защиты

Подпись преподавателя

Москва – 2010 год

0;3	3;6	6;9	9;12	12;15	15;18	18;21
4	6	9	11	14	18	13

21;24	24;27	27;30	30;33
11	7	4	3

1. Построение интервального и точечного статистических распределений результатов наблюдений. Построение полигона и гистограммы относительных частот.

i – порядковый номер;

I_i – интервал разбиения;

x_i – середина интервала I_i ;

n_i – частота (количество результатов наблюдений, принадлежащих данному интервалу I_i );

w_i = - относительная частота (n =- объём выборки);

H_i = - плотность относительной частоты (h – шаг разбиения, т.е. длина интервала I_i ).

I_i

x_i

n_i

w_i

H_i

0;3

3;6

6;9

9;12

12;15

15;18

18;21

21;24

24;27

27;30

30;33

1,5

4,5

7,5

10,5

13,5

16,5

19,5

22,5

25,5

28,5

31,5

0,04

0,06

0,09

0,11

0,14

0,18

0,13

0,11

0,07

0,04

0,03

0,01

0,02

0,03

0,04

0,05

0,06

0,04

0,02

0,01

Объём выборки:

n ==100,

w_i = n_i /100;

контроль: =1

Длина интервала

разбиения (шаг):

h = 3 ,

H_i =

å : 100 1,00

Статистическим распределением называется соответствие между результатами наблюдений (измерений) и их частотами и относительными частотами. Интервальное распределение – это наборы троек (I_i ; n_i ; w_i ) для всех номеров i, а точечное – наборы троек (x_i ; n_i _; w_i ). Таким образом, в таблице имеются оба – и интервальное, и точечное - статистическое распределения.

Далее, строим полигон и гистограмму относительных частот.

Полигон.

Гистограмма.

Полигон относительных частот – ломаная, отрезки которой последовательно (в порядке возрастания x_i ) соединяют точки (x_i ; w_i ). Гистограмма относительных частот – фигура, которая строится следующим образом: на каждом интервале I_i , как на основании, строится прямоугольник, площадь которого равна относительной частоте w_i ; отсюда следует, что высота этого прямоугольника равна H_i = w_i /h– плотности относительной частоты. Полигон и гистограмма являются формами графического изображения статистического распределения.

2. Нахождение точечных оценок математического ожидания и

дисперсии.

В качестве точечных оценок числовых характеристик изучаемой случайной величины используются:

- для математического ожидания

= (выборочная средняя ),

- для дисперсии

s² = (исправленная выборочная ),

где n – объём выборки, n_i – частота значения x_i .

Таким образом, в статистических расчетах используют приближенные равенства

MX» , DX»s² .

Нахождение точечных оценок математического ожидания и дисперсии по данным варианта осуществим с помощью расчетной таблицы.

x_i

n_i

x_i n_i

(x_i - )² n_i

1,5

4.5

7,5

10,5

13,5

16,5

19,5

22,5

25,5

28,5

31,5

67,5

115,5

189

297

253,5

247,5

178,5

114

94,5

829,44

779,76

635,04

320,76

80,64

6,48

168,48

479,16

645,12

635,04

744,12

= =

х_i n_i /100 = 1590/100= 15,9

s² = =

= 5324,04/99=53,78

å : 100 1590 5324,04

3.Выдвижение гипотезы о распределении случайной величины.

При выдвижении гипотезы (предположения) о законе распределения изучаемой случайной величины мы опираемся лишь на внешний вид статистического распределения. Т.е. будем руководствоваться тем, что профиль графика плотности теоретического распределения должен соответствовать профилю гистограммы: если середины верхних сторон прямоугольников, образующих гистограмму, соединить плавной кривой, то эта линия представляет в первом приближении график плотности распределения вероятностей.

Итак, изобразим график и выпишем формулу плотности нормального (или гауссовского) распределения с параметрами а и , - ¥< а <+¥,

Сравнение построенной гистограммы и графика плотности распределения приводит к следующему заключению о предполагаемом (теоретическом) законе распределения в рассматриваемом варианте исходных данных:

Вариант 13 – нормальное (или гауссовское распределение)

4.Построение графика теоретической плотности распределения.

Чтобы выписать плотность теоретического (предполагаемого) распределения, нужно определить значения параметров и а и подставить их в соответствующую формулу. Все параметры тесно связаны с числовыми характеристиками случайной величины, т.е.

MX = а,

DX = σ²

Поскольку значения математического ожидания и дисперсии неизвестны, то их заменяют соответствующими точечными оценками, т.е. используют (уже упомянутые ранее) приближенные равенства MX», DX»s² , что позволяет найти значения параметров распределения.

По исходным данным была выдвинута гипотеза о нормальном распределении изучаемой случайной величины. Найдем параметры этого распределения:

x = а, 15,9 = а, а=15,9

s² = σ² 53,78 = σ² σ=7,33

Следовательно, плотность предполагаемого распределения задается формулой

F(x)= [1/(7,33*√2π)]*e^[-( ^{x-15,9)2 / 2*(7,33)2)]} =0.054*e^(0,009/((x-15,9)^2))

Теперь необходимо вычислить значения f(x_i )плотности f (x) при x=x_i (в серединах интервалов) Для этого воспользуемся следующей схемой:

значения фунцкии

при u=u_i находятся, например, с помощью таблицы, имеющейся в любом учебнике или задачнике по теории вероятностей и математической статистике.

=15,9; s = 7,33

x _i

u_i = x_i - x / s

φ (u _i )

1,5

4,5

7,5

10,5

13,5

16,5

19,5

22,5

25,5

28,5

31,5

-1,96

-1,56

-1.15

-0,74

-0.33

0.08

0.49

0,90

1.31

1,72

2.13

0,0584

0,1182

0,2059

0,3034

0,3778

0,3977

0,3538

0,2661

0,1691

0,0909

0,0413

0,008

0,016

0,028

0,041

0,052

0,054

0,048

0,036

0,023

0,012

0,006

Далее, на одном чертеже строим гистограмму и график теоретической плотности распределения: гистограмма была построена ранее, а для получения графика плотности наносим точки с координатами (x_i ; f(x_i )) и соединяем их плавной кривой.

5.Проверка гипотезы о распределении с помощью критерия согласия Пирсона.

Ранее была выдвинута гипотеза о законе распределения рассматриваемой случайной величины. Сопоставление статистического распределения (гистограмма) и предполагаемого теоретического (графика плотности) показывает наличие некоторых расхождений между ними. Поэтому возникает естественный вопрос: чем объясняются эти несовпадения? Ответить на него можно двояко:

1) Указанные расхождения несущественны и вызваны ограниченным количеством наблюдений и случайными факторами – случайностью результата единичного наблюдения, способа группировки данных и т.п. В этом случае выдвинутая гипотеза о распределении считается правдоподобной и принимается как не противоречащая опытным данным.

2) Указанные расхождения являются существенными (неслучайными) и связаны с тем, что действительное распределение случайной величины отличается от предполагаемого. В этом случае выдвинутая гипотеза о распределении отвергается как плохо согласующаяся данными наблюдений.

Для выбора первого или второго варианта ответа и служат так называемые критерии согласия. Словари толкуют слово критерий (от греч. kriterion – средство для суждения) как признак, на основании которого производится оценка, определение и классификация чего-либо.

Существуют различные критерии согласия: К. Пирсона, А.Н. Колмогорова, Н.В. Смирнова, В.И. Романовского и другие. Мы рассмотрим лишь один из них – критерий Пирсона, называемый также критерием c² («хи - квадрат»). (К. Пирсон (1857 - 1936) – английский математик, биолог, философ – позитивист.)

Критерий Пирсона выгодно отличается от остальных, во – первых, применимостью к любым (дискретным, непрерывным) распределениям и, во – вторых, простотой вычислительного алгоритма.

Правило проверки статистических гипотез с помощью критерия Пирсона будет объяснено на примерах.

Группировка исходных данных.

Применяется критерий Пирсона к сгруппированным данным. Предположим, что произведено n независимых опытов, в каждом из которых изучаемая случайная величина приняла определенное значение. Предположим, что вся числовая ось разбита на несколько непересекающихся промежутков (интервалов и полуинтервалов). Обозначим через n_I количество результатов измерений (значений случайной величины), попавших в i-й промежуток. Очевидно, что ån_I = n.

Отметим, что критерий c² будет давать удовлетворительный для практических приложений результат, если:

1) количество n опытов достаточно велико, по крайней мере n³100;

2) в каждом промежутке окажется не менее 5…10 результатов измерений, т.е. n_i ³5 при любом i; если количество полученных значений в отдельных промежутках мало (меньше 5), то такие промежутки следует объединить с соседними, суммируя соответствующие частоты.

Пусть концами построенного разбиения являются точки z_i , где z₁ <z₂ < … <z_i _{– 1} , т.е. само разбиение имеет вид

(- ¥ºz₀ ; z₁ ) , [z₁ ; z₂ ) , [z₂ ; z₃ ) , … , [z_i _{– 1} ; z_i º+¥).

После объединения соответствующих промежутков (последних двух) и замены самой левой границы разбиения на - ¥, а самой правой на + ¥ (поскольку на промежутки должна разбиваться вся числовая ось, а не только диапазон полученных в результате опыта значений), мы приходим к следующим интервальным распределениям, пригодным для непосредственного применения критерия Пирсона:

z_{i –1} ; z_i	- ¥; 6	6;9	9;12	12;15	15;18	18;21
n _i	10	9	11	14	18	13

21;24	24;27	27;30	30;+∞
11	7	4	3

Вычисление теоретических частот.

Критерий Пирсона основан на сравнении эмпирических (опытных) частот с теоретическими. Эмпирические частоты n_I определяются по фактическим результатам наблюдений. Теоретические частоты, обозначаемые далее , находятся с помощью равенства

= n×p_i ,

где n – количество испытаний, а p_i ºR(z_i _–1 <x<z_i ) - теоретическая вероятность попадания значений случайной величины в i-й промежуток (1 £i£ 1).Теоретические вероятности вычисляются в условиях выдвинутой гипотезы о законе распределения изучаемой случайной величины.

Процедура отыскания теоретических вероятностей и частот показана в расчетной таблице: _

n = 1 0 0; а=x = 15,9 ; σ = s=7,33

Концы промежутков

Аргументы фунцкции Ф₀

Значения функции Ф₀

P_i = Ф₀ (u _i )- Ф₀ (u _i-1 )

ν ₁ ^’ =np_i

z_{i -1}

z_i

U _i- ₁ =

(z _i-1 -x)/s

U _i =

(z _i -x)/s

Ф₀ (u _i-1 )

Ф₀ (u _i )

-∞

+∞

-∞

-1,35

-0,94

-0,53

-0,12

0,29

0,70

1,11

1,51

1,92

-1,35

-0,94

-0,53

-0,12

0,29

0,70

1,11

1,51

1,92

+∞

-0,5000

-0,4115

-0,3264

-0,2019

-0,0478

0,1141

0,2580

0,3665

0,4345

0,4726

-0,4115

-0,3264

-0,2019

-0,0478

0,1141

0,2580

0,3665

0,4345

0,4726

0,5000

0,0885

0,0851

0,1245

0,1541

0,1619

0,1439

0,1085

0,0680

0,0381

0,0274

8,85

8,51

12,45

15,41

16,19

14,39

10,85

6,80

3,81

2,74

å: 1,0000 1 0 0 ,00

Статистика c² и вычисление ее значения по опытным данным.

Для того чтобы принять или отвергнуть гипотезу о законе распределения изучаемой случайной величины, в каждом из критериев согласия рассматривается некоторая (специальным образом подбираемая) величина, характеризующая степень расхождения теоретического (предполагаемого) и статистического распределения.

В критерии Пирсона в качестве такой меры расхождения используется величина

называемая статистикой «хи - квадрат» или статистикой Пирсона (вообще, статистикой называют любую функцию от результатов наблюдений). Ясно, что всегда c² ³0, причем c² = 0, тогда и только тогда, когда при каждом i , т.е. когда все соответствующие эмпирические и теоретические частоты совпадают. Во всех остальных случаях c² ¹0; при этом значение c² тем больше, чем больше различаются эмпирические и теоретические частоты.

Прежде чем рассказать о применении статистики c² к проверке гипотезы о закон е распределения , вычислим ее значение для данного варианта; это значение, найденное по данным наблюдений и в рамках выдвинутой гипотезы, будем обозначать через c² _набл. .

n _i

8,85

8,51

12,45

15,41

16,19

14,39

10,85

6,8

3,81

2,74

0,15

0,03

0,17

0,13

0,20

0,13

0,00

0,01

0,02

: 100 100 0,85

c ² _набл. = 0,85

5.4. Распределение статистики c² .

Случайная величина имеет c² – распределение с r степенями свободы (r = 1; 2; 3; …), если ее плотность имеет вид

где c_r – которая положительная постоянная ( c_r определяется из равенства ). Случайная величина, имеющая распределение c² с r степенями свободы, будет обозначаться .

Для дальнейшего изложения важно лишь отметить, что, во – первых, распределение определяется одним параметром – числом r степеней свободы и, во – вторых, существуют таблицы, позволяющие произвольно найти вероятность попадания значений случайной величины в любой промежуток.

Вернемся теперь к статистике . Отметим, что она является случайной величиной, поскольку зависит от результатов наблюдений и, следовательно, в различных сериях опытов принимает различные, заранее не известные значения. Понятно, кроме того, закон распределения статистики зависит: 1) от действительного (но неизвестного нам) закона распределения случайной величины, измерения которой осуществляются (им определяются эмпирические частоты ) ; 2) от количества произведенных наблюдений (от числа n) и от способа разбиения числовой оси на промежутки (в частности, от числа i ); 3) от теоретического (выдвинутого в качестве гипотезы) закона распределения изучаемой случайной величины (им определяются теоретические вероятности p_i и теоретические частоты = n×p_i )

Если выдвинутая гипотеза верна, то очевидно, закон распределения статистики зависти только от закона распределения изучаемой случайной величины, от числа n и от выбора промежутков разбиения. Но на самом же деле, в этом случае (благодаря мастерски подобранному Пирсоном выражению для ) справедливо куда более серьезное утверждение. А именно, при достаточно больших n закон распределения статистики практически не зависит от закона распределения изучаемой случайной величины и ни от количества n произведенных опытов: при распределение статистики стремится к - распределению с r степенями свободы. Эта теорема объясняет, почему статистика Пирсона обозначается через .

Если в качестве предполагаемого выбрано одно их трех основных непрерывных распределений (нормальное, показательное или равномерное), то r = i – 3, где i – количество промежутков, на которые разбита числовая ось (количество групп опытных данных). В общем случае

где - количество параметров предполагаемого (теоретического) распределения, которые заменены вычисленными по опытным данным оценками.

Т.е. в данном варианте после группировки исходных данных получаем количество промежутков разбиения i = 10, = 2, т.к. количество параметров предполагаемого (теоретического) распределения, которые заменены вычисленными по опытным данным оценками, = 2 – это а и s для нормального распределения.

Следовательно

R=i-N_пар -1=10-2-1=7

5.5. Правило проверки гипотезы о законе распределения случайной величины.

Ранее отмечалось (и этот факт очевиден), что статистика принимает только не отрицательные значения (всегда c² ³0), причем в нуль она обращается в одном – единственном случае – при совпадении всех соответствующих эмпирических и теоретических частот (т.е. при для каждого i).

Если выдвинутая гипотеза о законе распределения изучаемой случайной величины соответствует действительности, то эмпирические и теоретические частоты должны быть примерно одинаковы, а значит, значения статистики будут группироваться около нуля. Если же выдвинутая гипотеза ложна, то эмпирические и соответствующие теоретические частоты будут существенно разниться, что приведет к достаточно большим отклонениям от нуля значений .

Поэтому хотелось бы найти тот рубеж – называемый критическим значением (или критической точкой) и обозначаемый через , который разбил бы всю область возможных значений статистики на два непересекающихся подмножества: область принятия гипотезы, характеризующаяся неравенством , и критическую область (или область отвержения гипотезы), определяемую неравенством .

Область принятия Критическая область

гипотезы

Как же найти критическое значение ?

Если выдвинутая гипотеза о законе распределения изучаемой случайной величины верна, то вероятность попадания значений статистики в критическую область должна быть мала, так что событие {} должно быть практически неосуществимым в единичном испытании. Эта вероятность, обозначим ее через :

называется уровнем значимости.

Чтобы определить критическое значение , поступим следующим образом. Зададим какое – либо малое значение уровня значимости (как правило = 0,05 или = 0,01) и найдем как уровень уравнения

с неизвестной x. Поскольку распределение статистики близко при к - распределению с r степенями свободы, то

и приближенное значение можно найти из уравнения

Геометрические соображения показывают, что последнее уравнение имеет единственное решение: его корень – это такое число x>0, при котором площадь под графиком функции (плотности- распределения) над участком равна. На практике решение последнего уравнения находят с помощью специальных таблиц, имеющихся в любом руководстве по математической статистике; эти таблицы позволяют по двум входным параметрам – уровню значимости и числу степеней свободы r определить критическое значение . (Находимое таким образом критическое значение зависит, конечно, от и r,что при необходимости отражают и в обозначениях: ).

Зададим уровень значимости как = 0,05 (условие курсовой работы) .

Подводя итоги, сформулируем правило проверки гипотезы о законе распределения случайной величины с помощью - критерия Пирсона:

1) Проводят n независимых наблюдений случайной величины (принято считать, что должно быть n³ 100).

2) Разбивают всю числовую ось на несколько (как правило, на 8…12) промежутков

так, чтобы количество измерений в каждом из них (называемое эмпирической

частотой ) оказалось не менее пяти (т.е. ³ 5 при каждом i).

3) Выдвигают (например, судя по профилю гистограммы) гипотезу о законе распределения изучаемой случайной величины и находят параметры этого закона (чаще всего, заменяя математическое ожидание и дисперсию их оценками).

4) С помощью предполагаемого (теоретического) распределения находят теоретические вероятности p_i и теоретические частоты = n×p_i попадания значений случайной величины в i-й промежуток.

5) По эмпирическим и теоретическим частотам вычисляют значения статистики , обозначаемое через c² _набл. .

6) Определяют число r степеней свободы.

7) Используя заданное значение уровня значимости и найденное число степеней свободы r, по таблице находят (на пересечении строки, отвечающей r, и столбца, отвечающего ) критическое значение .

8) Формулируя вывод, опираясь на основной принцип проверки статистических гипотез :

если наблюдаемое значение критерия принадлежит критической области, т.е. если , то гипотезу отвергают как плохо согласующуюся с результатами эксперимента;

если наблюдаемое значение критерия принадлежит области принятия гипотезы, т.е. , то гипотезу принимают как не противоречащую результатам эксперимента.

5.6. Вывод о соответствии выдвинутой гипотезы и опытных данных в варианте.

Правило проверки выдвинутой гипотезы о законе распределения изучаемой случайной величины для данного варианта реализовано в таблице:

Название величины	Обозначение и числовое значение величины
Уровень значимости (задан в условии)	= 0,05
Количество промежутков разбиения	l =10
Число степеней свободы	r=7
Критическое значение (находится по таблице)	=
Наблюдаемое значение критерия	c² _набл. = 0,85
ВЫВОД	Гипотеза не принимается для данного 9 варианта, поскольку : 83,5 << 15,51

Замечания: 1. Заданное значение уровня значимости = 0,05 означает, что

т.е. вероятность события {} очень мала. Однако это событие, обладая ненулевой вероятностью, и тогда (при = 0,05 примерно в 5% случаев) будет отвергнута правильная гипотеза. Отвержение гипотезы, когда она верна, называется ошибкой первого рода. Таким образом, уровень значимости - это вероятность ошибки первого рода. Отметим, что ошибкой второго рода называется принятие гипотезы в случае, когда она неверна.

2. Иногда вместо уровня значимости задается надежность :

т.е. - это вероятность попадания значений статистики в область принятия гипотезы. Поскольку события

{} и

противоположны, то