Обработка результатов наблюдений выборки случайной величины

Работа добавлена:



Если Вы нашли нужный Вам реферат или просто понравилась коллекция рефератов напишите о Нас в любой соц сети с помощью кнопок ниже





Обработка результатов наблюдений выборки случайной величины на http://mirrorref.ru

Задача 1. Обработка результатов наблюдений

Задана выборка  значений случайной величины (признака)Х, полученных в результате проведения в одних и тех же условияхп взаимно независимых опытов. Требуется выполнить обработку результатов наблюдений случайной величиныХ:

  1. Построить вариационный (статистический) ряд.
  2. Построить для полученного вариационного ряда гистограмму и эмпирическую функцию распределения.
  3. Определить выборочные оценки числовых характеристик случайной величины: выборочную среднюю, медиану, моду, дисперсию, выборочное среднее квадратическое отклонение, коэффициент вариации, коэффициент асимметрии и коэффициент эксцесса.
  4. Оценить точность выборки.
  5. Провести выравнивание статистического ряда с помощью нормального закона распределения, в качестве параметров использовать выборочные оценки математического ожидания и среднего квадратического отклонения. Показать на одной диаграмме гистограмму эмпирических частот и теоретическую нормальную кривую.
  6. Проверить согласованность теоретического и статистического распределений, используя критерий  Пирсона.

Жилищные фонды 100 поселков городского типа одного из районов характеризуются следующими данными (Х, тыс. м2):

21,4

46,4

84,0

74,0

79,0

68,2

64,8

77,3

53,2

69,8

69,6

79,7

53,2

92,4

44,9

65,3

50,0

92,5

90,7

46,6

73,9

76,3

51,8

54,3

79,1

39,9

58,2

48,9

63,2

33,7

76,3

60,0

83,7

75,4

67,9

82,4

42,4

63,9

68,0

48,1

42,3

39,7

45,8

24,4

73,8

41,4

36,1

40,6

52,8

56,3

28,5

69,5

83,3

70,3

32,5

74,3

57,0

40,5

84,1

66,2

52,8

64,3

68,7

56,4

36,0

96,6

77,7

74,4

89,0

72,7

72,5

34,4

48,5

41,7

79,1

48,0

89,9

64,0

68,7

60,3

64,7

56,4

77,3

75,6

92,2

39,5

44,1

49,6

57,1

77,7

52,6

44,2

57,3

50,6

56,2

40,5

64,2

41,7

70,2

85,5

Решение

1. Ряд составляем интервальный. Такой вид ряд обоснован тем, что каждое конкретное значение встречается больше 1 раза очень редко, а размах вариации очень большой.

Число интервалов по формлу еm=1+3.332lgn=1+2*3.332=7.662=8.

Xmin=21.4;Xmax=96.6

Размах вариации=96,6-21,4=75,2

Размер интервала=9,4.

Составим вариационный ряд.

Xнач.

Хкон

Число

Частота

Накопл. част.

Среднее

21,4

30,8

3

0,03

0,03

26,1

30,8

40,2

8

0,08

0,11

35,5

40,2

49,6

18

0,18

0,29

44,9

49,6

59

18

0,18

0,47

54,3

59

68,4

14

0,14

0,61

63,7

68,4

77,8

22

0,22

0,83

73,1

77,8

87,2

10

0,1

0,93

82,5

87,2

96,6

7

0,07

1

91,9

2. Гистограмма

Функция распределения для интервального ряда совпадает с кумулянтой накопленных частот.

3.  Проведем в таблице доп. расчеты:

Группы

Середина интервала, xi

Кол-во, fi

xi * fi

Накопленная частота, S

|x - xср|*f

(x - xср)2*f

Частота, fi/n

21.4 - 30.8

26.1

3

78.3

3

105.19

3688.03

0.03

30.8 - 40.2

35.5

8

284

11

205.3

5268.31

0.08

40.2 - 49.6

44.9

18

808.2

29

292.72

4760.15

0.18

49.6 - 59

54.3

18

977.4

47

123.52

847.57

0.18

59 - 68.4

63.7

14

891.8

61

35.53

90.18

0.14

68.4 - 77.8

73.1

22

1608.2

83

262.64

3135.35

0.22

77.8 - 87.2

82.5

10

825

93

213.38

4553.1

0.1

87.2 - 96.6

91.9

7

643.3

100

215.17

6613.77

0.07

Итого

100

6116.2

1453.43

28956.46

1

Для оценки ряда распределения найдем следующие показатели:

Показатели центра распределения.

Средняя взвешенная

Мода

Мода - наиболее часто встречающееся значение признака у единиц данной совокупности.

где x0 – начало модального интервала; h – величина интервала; f2 –частота, соответствующая модальному интервалу; f1 – предмодальная частота; f3 – послемодальная частота.

Выбираем в качестве начала интервала 68.4, так как именно на этот интервал приходится наибольшее количество.

Наиболее часто встречающееся значение ряда – 72.16

Медиана

Медиана делит выборку на две части: половина вариант меньше медианы, половина — больше.

В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мода или медиана. Медиана соответствует варианту, стоящему в середине ранжированного ряда. Медианным является интервал 68.4 - 77.8, т.к. в этом интервале накопленная частота S, больше медианного номера (медианным называется первый интервал, накопленная частота S которого превышает половину общей суммы частот).

Таким образом, 50% единиц совокупности будут меньше по величине 61.01

Дисперсия - характеризует меру разброса около ее среднего значения (мера рассеивания, т.е. отклонения от среднего).

Несмещенная оценка дисперсии - состоятельная оценка дисперсии.

Среднее квадратическое отклонение (средняя ошибка выборки).

Каждое значение ряда отличается от среднего значения 61.16 в среднем на 17.02

Оценка среднеквадратического отклонения.

Коэффициент вариации - мера относительного разброса значений совокупности: показывает, какую долю среднего значения этой величины составляет ее средний разброс.

Поскольку v ≤ 30%, то совокупность однородна, а вариация слабая. Полученным результатам можно доверять.

Симметричным является распределение, в котором частоты любых двух вариантов, равностоящих в обе стороны от центра распределения, равны между собой.

Наиболее точным и распространенным показателем асимметрии является моментный коэффициент асимметрии.

As = M3/s3

где M3 - центральный момент третьего порядка.

s - среднеквадратическое отклонение.

M3 = -9623.64/100 = -96.24

Отрицательный знак свидетельствует о наличии левосторонней асимметрии

Для симметричных распределений рассчитывается показатель эксцесса (островершинности). Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения.

Чаще всего эксцесс оценивается с помощью показателя:

Для распределений более островершинных (вытянутых), чем нормальное, показатель эксцесса положительный (Ex > 0), для более плосковершинных (сплюснутых) - отрицательный (Ex < 0), т.к. для нормального распределения M4/s4 = 3.

M4 = 18071330.02/100 = 180713.3

Число 3 вычитается из отношения μ4/ σ4 потому, что для нормального закона распределения μ4/ σ4 = 3. Таким образом, для нормального распределения эксцесс равен нулю. Островершинные кривые обладают положительным эксцессом, кривые более плосковершинные - отрицательным эксцессом.

Ex < 0  - плосковершинное распределение

4.Интервальное оценивание центра генеральной совокупности.

Доверительный интервал для генерального среднего.

Определяем значение tkp по таблице распределения Стьюдента

По таблице Стьюдента находим:

Tтабл (n-1;α/2) = (99;0.025) = 1.984

(61.16 - 3.39;61.16 + 3.39) = (57.77;64.55)

С вероятностью 0.95 можно утверждать, что среднее значение при выборке большего объема не выйдет за пределы найденного интервала.

Доверительный интервал для дисперсии.

Вероятность выхода за нижнюю границу равна P(χ2n-1 < hH) = (1-γ)/2 = (1-0.954)/2 = 0.023. Для количества степеней свободы k = 99 по таблице распределения χ2 находим:

χ2(99;0.023) = 129.5612.

Случайная ошибка дисперсии:

Вероятность выхода за верхнюю границу равна P(χ2n-1 ≥ hB) = 1 - P(χ2n-1 < hH) = 1 - 0.023 = 0.977. Для количества степеней свободы k = 99, по таблице распределения χ2 находим:

χ2(99;0.977) = 129.5612.

Случайная ошибка дисперсии:

(292.49 - 223.5; 292.49 + 223.5)

(68.99; 515.99)

Найдем верхнюю границу доверительного интервала для дисперсии с надежностью γ = 0.954.

P(χ2n-1 > hγ) = 0.954. Для количества степеней свободы k = 99, по таблице распределения χ2 находим:

χ2(99;0.954) = 129.5612.

Случайная ошибка дисперсии:

0 ≤ σ2 ≤ 223.5

Доверительный интервал для среднеквадратического отклонения.

Найдем доверительный интервал для среднеквадратического отклонения с надежностью γ = 0.954.

Нижняя ошибка среднеквадратического отклонения:

Верхняя ошибка среднеквадратического отклонения:

(17.1 - 14.95; 17.1 + 14.95)

(2.15; 32.05)

Найдем верхнюю границу доверительного интервала для среднеквадратического отклонения:

0 ≤ σ ≤ 14.95

Интервальное оценивание генеральной доли (вероятности события).

Доверительный интервал для генеральной доли.

(p* - ε ; p* + ε)

В этом случае 2Ф(tkp) = γ

Ф(tkp) = γ/2 = 0.954/2 = 0.477

По таблице функции Лапласа найдем, при каком tkp значение Ф(tkp) = 0.477

tkp(γ) = (0.477) = 2

Доляi-ой группыfi / ∑f

Средняя ошибка выборки для генеральной доли,ε

Нижняя граница доли,p* -ε

Верхняя граница доли,p* +ε

0.03

0.0129

0.0471

0.08

0.0529

0.11

0.18

0.14

0.22

0.18

0.14

0.22

0.14

0.11

0.17

0.22

0.18

0.26

0.1

0.07

0.13

0.07

0.0445

0.0955

С вероятностью 0.954 при большем объеме выборке эти доли будут находиться в заданных интервалах.

5-6.Проверка гипотез о виде распределения.

1. Проверим гипотезу о том, что Х распределено понормальному закону с помощью критерия согласия Пирсона.

где pi  — вероятность попадания в i-й интервал случайной величины, распределенной по гипотетическому закону

Для вычисления вероятностей pi применим формулу и таблицу функции Лапласа

где

s = 17.02, xср = 61.16

Теоретическая (ожидаемая) частота равна ni = npi, где n = 100

Интервалы группировки

Наблюдаемая частота ni

x1 = (xi - xср)/s

x2 = (xi+1 - xср)/s

Ф(x1)

Ф(x2)

Вероятность попадания вi-й интервал,pi = Ф(x2) - Ф(x1)

Ожидаемая частота, 100pi

Слагаемые статистики Пирсона, Ki

21.4 - 30.8

3

-2.32

-1.78

-0.49

-0.46

0.0279

2.79

0.0158

30.8 - 40.2

8

-1.78

-1.23

-0.46

-0.39

0.0718

7.18

0.0936

40.2 - 49.6

18

-1.23

-0.68

-0.39

-0.25

0.14

13.9

1.21

49.6 - 59

18

-0.68

-0.13

-0.25

-0.0517

0.2

20

0.2

59 - 68.4

14

-0.13

0.42

-0.0517

0.17

0.22

21.81

2.8

68.4 - 77.8

22

0.42

0.97

0.17

0.34

0.17

17.01

1.46

77.8 - 87.2

10

0.97

1.52

0.34

0.44

0.1

10.05

0.0002

87.2 - 96.6

7

1.52

2.07

0.44

0.48

0.0442

4.42

1.51

100

7.29

Определим границу критической области. Так как статистика Пирсона измеряет разницу между эмпирическим и теоретическим распределениями, то чем больше ее наблюдаемое значение  Kнабл, тем сильнее довод против основной гипотезы.

Поэтому критическая область для этой статистики всегда правосторонняя: [Kkp;+∞).

Её границу Kkp = χ2(k-r-1;α) находим по таблицам распределения χ2 и заданным значениям s, k (число интервалов), r=2 (параметры xcp и s оценены по выборке).

Kkp = 11.07050; Kнабл = 7.29

Наблюдаемое значение статистики Пирсона не попадает в критическую область: Кнабл < Kkp, поэтому нет оснований отвергать основную гипотезу. Справедливо предположение о том, что данные выборки имеютнормальное распределение.

Задача 2. Статистический анализ связей

Исходными данными для моделирования являются социально-экономические показатели субъектов Сибирского федерального округа (Приложение 1). Требуется исследовать зависимость результирующего признакаY, соответствующего варианту задания, от факторных переменныхХ1, Х2 иХ3:

  1. Рассчитать матрицу парных коэффициентов корреляции; проанализировать тесноту и направление связи результирующего признакаY с каждым из факторовХ; оценить статистическую значимость коэффициентов корреляцииr(Y,Xi); выбрать наиболее информативный фактор.
  2. Построить модель парной регрессии с наиболее информативным фактором; дать экономическую интерпретацию коэффициента регрессии.
  3. Проверить значимость коэффициентов модели с помощьюt–критерия Стьюдента (принять уровень значимости α=0,05).
  4. Оценить качество модели с помощью средней относительной ошибки аппроксимации, коэффициента детерминации иF – критерия Фишера (принять уровень значимости α=0,05).
  5. С доверительной вероятностьюγ=80% осуществить прогнозирование среднего значения показателяY(прогнозные значения факторов приведены в Приложении 1). Представить графически фактические и модельные значенияY, результаты прогнозирования.

Варианты заданий

Вариант

Обозначение, наименование, единица измерения показателя

9

Y9

Потребление овощей и продовольственных бахчевых культур на душу населения (в год), кг

Все

варианты

Х1

Среднедушевые денежные доходы (в месяц), руб

Х2

Среднемесячная номинальная начисленная заработная плата работников организаций, руб

Х3

Индекс потребительских цен (декабрь к декабрю предыдущего года), %

Приложение 1.

Исходные данные к задаче 2

Сибирский федеральный округ

Х1

Х2

Х3

Y9

Республика Алтай

13836,9

15632,4

106,4

87

Республика Бурятия

15715,5

19924,0

107,5

65

Республика Тыва

10962,8

19163,1

107,3

40

Республика Хакасия

14222,8

20689,5

107,6

110

Алтайский край

12499,9

13822,6

104,8

102

Забайкальский край

15968,8

21099,6

107,8

88

Красноярский край

20145,5

25658,6

106,1

118

Иркутская область

16017,2

22647,7

107,4

82

Кемеровская область

16666,0

20478,8

106,5

77

Новосибирская область

18244,1

20308,5

106,2

127

Омская область

17247,9

19087,8

105,0

132

Томская область

16516,0

24001,0

106,1

95

Прогнозные значения

16500,0

21000,0

106,0

Решение.

2. Матрица парных коэффициентов корреляции.

Число наблюдений n = 12. Число независимых переменных в модели равно 3, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 5. Матрица, независимых переменных Х имеет размерность (12 х 5).

Матрица, составленная из Y и X

1

87

13836.9

15632.4

106.4

1

65

15715.5

19924

107.5

1

40

10962.8

19163.1

107.3

1

110

14222.8

20689.5

107.6

1

102

12499.9

13822.6

104.8

1

88

15968.8

21099.6

107.8

1

118

20145.5

25658.6

106.1

1

82

16017.2

22647.7

107.4

1

77

16666

20478.8

106.5

1

127

18244.1

20308.5

106.2

1

132

17247.9

19087.8

105

1

95

16516

24001

106.1

Транспонированная матрица.

1

1

1

1

1

1

1

1

1

1

1

1

87

65

40

110

102

88

118

82

77

127

132

95

13836.9

15715.5

10962.8

14222.8

12499.9

15968.8

20145.5

16017.2

16666

18244.1

17247.9

16516

15632.4

19924

19163.1

20689.5

13822.6

21099.6

25658.6

22647.7

20478.8

20308.5

19087.8

24001

106.4

107.5

107.3

107.6

104.8

107.8

106.1

107.4

106.5

106.2

105

106.1

Матрица ATA.

12

1123

188043.4

242513.6

1278.7

1123

112797

18045186.9

22804675.7

119502.3

188043.4

18045186.9

3015420756.3

3860572875.07

20033284.64

242513.6

22804675.7

3860572875.07

5016365509.32

25853873.99

1278.7

119502.3

20033284.64

25853873.99

136267.01

Полученная матрица имеет следующее соответствие:

∑n

∑y

∑x1

∑x2

∑x3

∑y

∑y2

∑x1 y

∑x2 y

∑x3 y

∑x1

∑yx1

∑x12

∑x2 x1

∑x3 x1

∑x2

∑yx2

∑x1 x2

∑x22

∑x3 x2

∑x3

∑yx3

∑x1 x3

∑x2 x3

∑x32

Найдем парные коэффициенты корреляции.

Признаки x и y

∑xi

∑yi

∑xiyi

Для y и x1

188043.4

15670.28

1123

93.58

18045186.9

1503765.58

Для y и x2

242513.6

20209.47

1123

93.58

22804675.7

1900389.64

Для y и x3

1278.7

106.56

1123

93.58

119502.3

9958.53

Для x1  и x2

242513.6

20209.47

188043.4

15670.28

3860572875.07

321714406.26

Для x1  и x3

1278.7

106.56

188043.4

15670.28

20033284.64

1669440.39

Для x2  и x3

1278.7

106.56

242513.6

20209.47

25853873.99

2154489.5

Признаки x и y

Для y и x1

5727283.28

641.91

2393.17

25.34

0.61

Для y и x2

9607916.16

641.91

3099.66

25.34

0.12

Для y и x3

0.91

641.91

0.95

25.34

-0.56

Для x1  и x2

9607916.16

5727283.28

3099.66

2393.17

0.68

Для x1  и x3

0.91

5727283.28

0.95

2393.17

-0.16

Для x2  и x3

0.91

9607916.16

0.95

3099.66

0.34

Матрица парных коэффициентов корреляции.

-

y

x1

x2

x3

y

1

0.61

0.12

-0.56

x1

0.61

1

0.68

-0.16

x2

0.12

0.68

1

0.34

x3

-0.56

-0.16

0.34

1

Коллинеарность – зависимость между факторами. В качестве критерия мультиколлинеарности может быть принято соблюдение следующих неравенств:

r(xjy) > r(xkxj) ; r(xky) > r(xkxj).

Если одно из неравенств не соблюдается, то исключается тот параметр xk или xj, связь которого с результативным показателем Y оказывается наименее тесной.

Для отбора наиболее значимых факторов xi учитываются следующие условия:

- связь между результативным признаком и факторным должна быть выше межфакторной связи;

- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции rxjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;

- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.

Если факторные переменные связаны строгой функциональной  зависимостью, то говорят о полной мультиколлинеарности. В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы, det(XTX = 0).

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (XTX) близка к вырожденной, т. е. det(XTX 0) (чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии).

В нашем случае все парные коэффициенты корреляции |r|<0.7, что говорит об отсутствии мультиколлинеарности факторов.

Более объективную характеристику тесноты связи дают частные коэффициенты корреляции, измеряющие влияние на результат фактора xi при неизменном уровне других факторов.

Частные коэффициенты корреляции.

Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и xi) при условии, что влияние на них остальных факторов (xj) устранено.

На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.

Теснота связи сильная

Теснота связи умеренная

Теснота связи умеренная

Теснота связи не сильная

Теснота связи умеренная

Теснота связи умеренная

Можно сделать вывод, что ни один из факторов не следует использовать при построении регрессионного уравнения, но с учетом задания, а также экономической целесообразности, выберем фактор, наиболее близко соответствующий требованиям  -X3.

Оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где ei – наблюдаемые значения (оценки) ошибок εi, а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

Для оценки параметров α и β - используют МНК (метод наименьших квадратов).

Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии. Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).

Формально критерий МНК можно записать так:

S = ∑(yi - y*i)2 → min

Система нормальных уравнений.

a•n + b∑x = ∑y

a∑x + b∑x2 = ∑y•x

Для наших данных система уравнений имеет вид

12a + 1278.7 b = 1123

1278.7 a + 136267.01 b  = 119502.3

Из первого уравнения выражаема и подставим во второе уравнение:

Получаем эмпирические коэффициенты регрессии: b = -14.9697, a = 1688.7312

Уравнение регрессии (эмпирическое уравнение регрессии):

y = -14.9697 x + 1688.7312

Эмпирические коэффициенты регрессииa иb являются лишь оценками теоретических коэффициентов βi, а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

x

y

x2

y2

x • y

106.4

87

11320.96

7569

9256.8

107.5

65

11556.25

4225

6987.5

107.3

40

11513.29

1600

4292

107.6

110

11577.76

12100

11836

104.8

102

10983.04

10404

10689.6

107.8

88

11620.84

7744

9486.4

106.1

118

11257.21

13924

12519.8

107.4

82

11534.76

6724

8806.8

106.5

77

11342.25

5929

8200.5

106.2

127

11278.44

16129

13487.4

105

132

11025

17424

13860

106.1

95

11257.21

9025

10079.5

1278.7

1123

136267.01

112797

119502.3

1. Параметры уравнения регрессии.

Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

1.1. Коэффициент корреляции

Ковариация.

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < rxy < 0.3: слабая;

0.3 < rxy < 0.5: умеренная;

0.5 < rxy < 0.7: заметная;

0.7 < rxy < 0.9: высокая;

0.9 < rxy < 1: весьма высокая;

В нашем примере связь между признаком Y фактором X  заметна и обратная.

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = -14.97 x  + 1688.73

Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

Коэффициент регрессии b = -14.97 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу уровня потребительских y потребление овощей понижается в среднем на -14.97.

Коэффициент a = 1688.73 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями – в нашем случае значения не имеет, столько просто не съесть.

Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь обратная.

4-5. Проверка гипотез относительно коэффициентов линейного уравнения регрессии.

1) t-статистика. Критерий Стьюдента.

С помощью МНК мы получили лишь оценки параметров уравнения регрессии, которые характерны для конкретного статистического наблюдения (конкретного набора значений x и y).

Для оценки статистической значимости коэффициентов регрессии и корреляции рассчитываются t-критерий Стьюдента и доверительные интервалы каждого из показателей. Выдвигается гипотеза Н0 о случайной природе показателей, т.е. о незначимом их отличии от нуля.

Чтобы проверить, значимы ли параметры, т.е. значимо ли они отличаются от нуля для генеральной совокупности используют статистические методы проверки гипотез.

В качестве основной (нулевой) гипотезы выдвигают гипотезу о незначимом отличии от нуля  параметра или статистической характеристики в генеральной совокупности. Наряду с основной (проверяемой) гипотезой выдвигают альтернативную (конкурирующую) гипотезу о неравенстве нулю параметра или статистической характеристики в генеральной совокупности.

Проверим гипотезу H0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H1 не равно) на уровне значимости α=0.05.

В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используетсяt-критерий Стьюдента.

Найденное по данным наблюдений значение  t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

Табличное значение определяется в зависимости от уровня значимости (α) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение  t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-α) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

Если фактическое значение  t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости α.

tкрит (n-m-1;α/2) = (10;0.025) = 2.228

Поскольку 2.15  <  2.228, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентомb можно пренебречь.

Поскольку 2.28  >  2.228, то статистическая значимость коэффициента регрессии a подтверждается (отвергаем гипотезу о равенстве нулю этого коэффициента).

Доверительный интервал для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95%  будут следующими:

(b - tкрит Sb; b + tкрит Sb)

(-14.97 - 2.228 • 6.96; -14.97 + 2.228 • 6.96)

(-30.48;0.54)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

(a - tкрит Sa; a + tкрит Sa)

(1688.73 - 2.228 • 741.82; 1688.73 + 2.228 • 741.82)

(35.96;3341.5)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

2) F-статистика. Критерий Фишера.

Коэффициент детерминации R2 используется для проверки существенности уравнения линейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k1=(m) и k2=(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m – число факторов в модели.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H0: R2=0 на уровне значимости α.

2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

Fтабл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости α. Уровень значимости α - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно α принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-α) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы k1=1 и k2=10, Fтабл = 4.96

Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

6. Для прогноза подставим расчетное значение в фнкцию регрессии и полчим его точечную оценку.

xпр.=96,4.

Доверительный интервал (93,2;99.6).

Обработка результатов наблюдений выборки случайной величины на http://mirrorref.ru


Похожие рефераты, которые будут Вам интерестны.

1. Математическая обработка результатов наблюдений при многократных измерениях

2. Выборка случайной величины

3. ЗАКОН РАСПРЕДЕЛЕНИЯ ДВУМЕРНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН. УСЛОВНЫЕ ЗАКОНЫ РАСПРЕДЕЛЕНИЯ СОСТАВЛЯЮЩИХ. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ ДВУМЕРНОЙ СЛУЧАЙНОЙ ВЕЛИЧИНЫ

4. ОБРАБОТКА РЕЗУЛЬТАТОВ ИЗМЕРЕНИЙ

5. ОБРАБОТКА РЕЗУЛЬТАТОВ ИЗМЕРЕНИЙ В ФИЗИЧЕСКОМ ПРАКТИКУМЕ

6. Международная система единиц. Обработка косвенных результатов

7. Обработка результатов измерений линейного размера элемента конструкции строящегося здания

8. ОБРАБОТКА РЕЗУЛЬТАТОВ ЭКСПЕРИМЕНТА С ИСПОЛЬЗОВАНИЕМ ТЕОРИИ ПЛАНИРОВАНИЯ ЭКСПЕРИМЕНТА

9. Параллельная обработка информации в вычислительных системах. Конвейерная обработка. Мультипрограммный режим, формула Литтла. Ярусно-параллельная форма представления программы

10. Выборочный метод. Определение численности выборки при организации выборочного наблюдения