Главная              Рефераты - Разное

Учебное пособие: Учебно-методическое пособие для студентов экономического и физико-математического факультетов

Балашовский филиал

Саратовского государственного университета

им Н. Г. Чернышевского

О. А. Кузнецов

Компьютерный практикум
по эконометрике

Часть 1

Учебно-методическое пособие

для студентов экономического

и физико-математического

факультетов

Балашов 2005


УДК 33.518

ББК 65в6

К89

Рецензенты:

Кандидат физико-математических наук, доцент

Балашовского филиала

Саратовского государственного университета

им. Н. Г. Чернышевского

М. А. Ляшко;

Кандидат педагогических наук, доцент

Балашовского филиала

Саратовского государственного

социально-экономического университета

Г. Н. Ионов.

Рекомендовано к изданию Учебно-методическим советом

Балашовского филиала Саратовского государственного университета

им. Н. Г. Чернышевского.

Кузнецов, О. А.

К89 Компьютерный практикум по эконометрике. Ч. 1 : учебно-методическое пособие для студентов экономического и физико-математического факультетов / О. А. Кузнецов. — Балашов : Изд-во «Николаев», 2005. — 84 с.

ISBN 5—94035—192—1

Настоящий компьютерный практикум предназначен для практического решения статистических и эконометрических задач. Тематики лабораторных работ полностью совпадают с тематиками учебно-методического пособия.

Практикум рассчитан на студентов экономических и физико-математических специальностей, знакомых с основными навыками работы на ЭВМ, в частности, табличного процессора Excel.

Настоящее учебно-методическое пособие соответствует Государственному образовательному стандарту по экономическим дисциплинам. Оно может быть полезно при самостоятельном решении эконометрических задач.

УДК 33.518

ББК 65в6

ISBN 5—94035—192—1 Ó О. А. Кузнецов, 2005


Оглавление

ВВЕДЕНИЕ.. 6

Глава 1. МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ.. 8

Лабораторная работа № 1. 8

Основные понятия математической статистики. 8

Лабораторная работа № 2. 17

Метод наименьших квадратов. 17

Лабораторная работа № 3. 25

Свойства коэффициентов регрессии. 25

Лабораторная работа № 4. 30

Некоторые распределения. 30

Лабораторная работа № 5. 37

Проверка гипотез. 37

Лабораторная работа № 6. 40

Нелинейная регрессия. 40

Глава 2. МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ.. 45

Лабораторная работа № 7. 45

Множественная регрессия. 45

Лабораторная работа № 8. 54

Спецификация переменных и проблема мультиколлинеарности. 54

Лабораторная работа № 9. 56

Фиктивные переменные и категории. 56

Лабораторная работа № 10. 61

Гетероскедастичность и взвешенный метод наименьших квадратов. 61

Лабораторная работа № 11. 68

Автокорреляция и обобщённый метод наименьших квадратов. 68

ЗАКЛЮЧЕНИЕ.. 73

БИБЛИОГРАФИЧЕСКИЙ СПИСОК.. 74

ТАБЛИЦЫ ДЛЯ САМОСТОЯТЕЛЬНОЙ РАБОТЫ... 76

Лабораторные работы № 1 – 8. 76

Лабораторная работа № 9. 81


ПРЕДИСЛОВИЕ

Эконометрика как дисциплина федерального компонента по циклу общих математических и естественно-научных дисциплин впервые включена в основную образовательную программу подготовки экономистов, определенную Государственным образовательным стандартом второго поколения. Хотя в настоящее время и появилось большое количество новых учебников по данной дисциплине, имеется нехватка практических пособий, в которых излагался бы материал, способствующий наработке навыков решения эконометрических задач.

Данное учебно-методическое пособие в некоторой степени восполняет этот пробел. Оно соответствует Государственному образовательному стандарту по дисциплине «Эконометрика» для экономических специальностей вуза. При изложении материала предполагалось, что читатель изучил необходимый теоретический материал по теории вероятностей, математической статистики и эконометрики, а также имеет начальные навыки работы со стандартным программным обеспечением, в частности, с электронной таблицей Excel.

Учебно-методическое пособие состоит из введения, основного учебного материала, разбитого на две главы, и приложения. Во введении рассматривается основная структура предлагаемых лабораторных работ, обосновывается факт использования большого количества разнообразных программных продуктов и описываются методические рекомендации изучения данного пособия. Как и при изучении любой компьютерной программы, методические рекомендации заключаются в начальном чтении материала каждой лабораторной работы, а затем повторном прочтении, с выполнением всех описанных действий непосредственно за компьютером.

В первой главе содержатся лабораторные работы, предназначенные для практического решения задач парного регрессионного анализа. При этом имеются разделы, которые хотя непосредственно и не относятся к эконометрике, но содержат необходимый материал из теории вероятностей и математической статистики. В частности, это лабораторная работа № 1, в которой рассматриваются возможности вычисления параметров выборок, а также возможности генерации случайных чисел, отвечающих некоторым законам, и лабораторная работа № 4, в которой рассматриваются возможности получения параметров случайных величин, отвечающих некоторым распределениям.

Вторая глава посвящена возможностям получения параметров множественной регрессии. Здесь же рассматриваются некоторые частные случаи, а именно — эффекты гетероскедастичности и автокорреляции, которые связаны с нарушением условий Гаусса—Маркова.

В приложении располагаются таблицы исходных данных, которые необходимо самостоятельно рассмотреть.

Данное учебно-методическое пособие рассчитано в первую очередь на студентов экономических специальностей, которые изучают «Эконометрику». Однако оно может быть полезно всем, кто сталкивается с необходимостью решать практические задачи теории вероятностей и математической статистики.


ВВЕДЕНИЕ

Каждую задачу математической статистики и эконометрики можно решить «вручную», используя бумагу и ручку, либо с помощью калькулятора. Однако статистические, да и эконометрические задачи во многом однотипны и трудоёмки для решений, поэтому, вычислив один раз дисперсию или корреляцию, можно понять основные принципы и почувствовать всю рутинность данной работы. При наличии определенных навыков можно решить задачу посредством программы на каком-либо языке программирования. Но написание программы тоже достаточно трудоёмкое и творческое дело, и не каждый экономист владеет этим искусством. Для облегчения решений данных задач в настоящее время создано большое количество программных продуктов, которые позволяют обрабатывать статистические данные, а в некоторых случаях решать эконометрические задачи.

Наиболее простыми с точки зрения изучения и применения, а также наиболее распространенными, но в то же время обладающими минимальными возможностями для решения статистических задач, являются электронные таблицы , в частности, таблица Excel . Те статистические и эконометрические задачи, которые допускают такое решение, будут решаться нами именно в Excel. Более подробно с возможностями электронной таблицы в Excel можно ознакомиться по учебникам [3; 6; 7].

Другим классом программных продуктов, который будет использоваться в дальнейшем, являются математические пакеты, которые также как и электронные таблицы специально не предназначены для решения подобных задач, но имеют большие возможности для этого. Некоторые из основных возможностей и способы решения задач будут демонстрироваться с помощью математического пакета MathCad . В настоящее время он является одним из наиболее популярных пакетов подобного рода (дополнительную информацию по которому можно получить в работе [8]).

И, наконец, существует большое количество специальных пакетов, которые специально предназначены для обработки статистической информации и решения эконометрических задач. Каждый из них имеет практически одинаковый набор возможностей, но различные дополнительные инструменты и интерфейс. Среди таких пакетов можно отметить: SAS , SPSS , STAT , Мезозавр и т. д.

Мы будем изучать пакет обработки статистических данных SPSS , поскольку интерфейс данной программы во многом схож с интерфейсом электронной таблицы Excel. Внешний вид рабочей области имеет вид таблицы, каждая ячейка которой характеризуется названием столбца и номером строки. Работа по заданию начального вида таблиц похожа на использование конструктора в Access . Все эти особенности пакета SPSS, позволяют быстро понять основные принципы работы всем, кто знаком с программами Microsoft Office. Для дополнительного самостоятельного изучения данного программного продукта можно порекомендовать работы [1; 9].

Данное учебно-методическое пособие содержит курс лабораторных работ, которые позволяют научиться решать эконометрические задачи, используя программные продукты. Каждая лабораторная работа содержит необходимые понятия и формулы. Данная информация является дополнительным теоретическим материалом, и ни в коем случае не может восприниматься как учебник по эконометрике. Изучить теоретическую часть можно на основании любого учебника по эконометрике, например работы [2; 4]. Название лабораторных работ совпадает с название параграфов книги [5].

Изучать данные лабораторные работы рекомендуется непосредственно работая на ЭВМ с соответствующим программным продуктом. При этом очень важно самостоятельно выполнять все описываемые действия.

Кроме обычных учебников по эконометрике, имеется огромное количество полезной информации в сети Internet. Список наиболее популярных интернет-ресурсов находится в библиографическом списке.

Глава 1. МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ

Лабораторная работа № 1

Основные понятия математической статистики

Цель: изучить возможности электронной таблицы Excel по обработки статистической информации.

Основные формулы и понятия:

Если X и Y — две произвольные случайные величины, то для них можно определить некоторые параметры, например

m X ,m Y — математические ожидания;

дисперсия;

— среднеквадратичное отклонение случайной величины;

— ковариация случайных величин;

— корреляция случайных величин;

Если X дискретная случайная величина, которая принимает n значений (х12 ,...,хn ) с вероятностями ( p1 , p2 ,..., pn ), то

математическое ожидание;

дисперсия;

Если имеется выборка (х12 ,...,хn ) из генеральной совокупности, в которой каждый элемент является случайной величиной, то нельзя определить точное значение теоретических характеристик, однако можно построить точечные оценки, которые по возможности должна быть отвечать требованиям несмещённости, состоятельности и эффективности.

Основные оценки :

— выборочное среднее (несмещённая оценка математического ожидания m);

выборочная дисперсия (смещённая оценка дисперсии);

— несмещённая оценка дисперсии;

выборочная ковариация;

— выборочная корреляция.

Электронная таблица Excel

Во всех электронных таблицах имеется большое количество встроенных статистических функций. Excel не стал исключением из правил. Статистические функции, как и любые другие функции, вставляются с помощью мастера функций посредством пункта меню Вставка, Функции или нажатием на кнопку панели инструментов. Мастер функций выполняется в два этапа: на первом задается функция (все описываемые функции находятся в категории «Статистические»), а на втором этапе выбираются аргументы данной функции.

Рассмотрим основные статистические функции. При этом необходимо отметить одну особенность. Для решения одной задачи имеется две практически одинаковые функции, например, СРЗНАЧ и СРЗНАЧА, вычисляют среднее значение в выборке. Первая функция игнорирует все ячейки, в которых содержится нечисловая информация, а вторая всем ячейкам с текстовой информацией автоматически придает значение 0. Аналогично для вычисления всех значений имеются две функции, при этом первая игнорирует все нечисловые ячейки, а вторая, заканчивающая на А, автоматически придает всем ячейкам, в которых находится текстовая или логическая информация, значение 0.

Функция ДИСПР вычисляет значение выборочной дисперсии, которая является смещённой оценкой реальной дисперсии. Иногда данное значение называют дисперсией для генеральной совокупности. Среднеквадратичное отклонение может быть вычислено как корень квадратный из дисперсии или посредством использования функции СТАНДОТКЛОН. Функция ДИСП вычисляет значения несмещённой оценкой дисперсии, которую также называют дисперсией по выборке, а для определения среднеквадратичного отклонения можно использовать функцию СТАНДОТКЛОНА. Все вышеперечисленные функции в качестве аргументов имеют один массив данных.

Функции КОВАР и КОРЕЛЛ вычисляют ковариацию и корреляцию между двумя массивами данных, а следовательно, аргументами данных функций являются два блока данных одинаковой размерности.

Рассмотрим пример использования данных функций. Исходные данные, в которых содержатся цена и спрос на некоторый товар, представлены в таблице 1.

Таблица 1

Номер наблюдения

Цена

x (р.)

Спрос

y (тыс.шт.)

1

15,09р.

125,1779

2

15,21р.

123,8094

3

15,28р.

121,175

4

15,49р.

116,9143

5

15,54р.

119,8643

6

15,62р.

118,0681

7

15,70р.

123,5887

8

15,91р.

117,0877

9

15,92р.

116,1699

10

15,95р.

118,3436

11

16,31р.

116,2008

12

16,33р.

111,4565

13

16,60р.

115,1026

14

16,69р.

110,1056

15

16,76р.

110,0231

Тогда документ Excel, в котором вычисляются значение выборочного среднего, выборочных дисперсий, а также корреляции и ковариации, может иметь вид, представленный в таблице 2.

Таблица 2

A

B

C

1

Номер наблюдения

Цена x (р.)

Спрос y (тыс.шт.)

2

1

15,09р.

125,1779

3

2

15,21р.

123,8094

4

3

15,28р.

121,175

5

4

15,49р.

116,9143

6

5

15,54р.

119,8643

7

6

15,62р.

118,0681

8

7

15,70р.

123,5887

9

8

15,91р.

117,0877

10

9

15,92р.

116,1699

Продолжение табл. 2

11

10

15,95р.

118,3436

12

11

16,31р.

116,2008

13

12

16,33р.

111,4565

14

13

16,60р.

115,1026

15

14

16,69р.

110,1056

16

15

16,76р.

110,0231

17

Выборочное среднее по x

=СРЗНАЧ(B2:B16)

18

Выборочное среднее по y

=СРЗНАЧ(C2:C16)

19

Выборочная дисперсия x

=ДИСП(B2:B16)

20

Выборочная дисперсия y

=ДИСП(C2:C16)

21

Ковариация

=КОВАР(B2:B16;C2:C16)

22

Корреляция

=КОРРЕЛ(B2:B16;C2:C16)

Вычисленные на основании этих формул значения будет равны:

Выборочное среднее по x = 15,89

Выборочное среднее по y = 117,53

Выборочная дисперсия x = 0,29

Выборочная дисперсия y = 22,34

Ковариация = –2,12

Корреляция = –0,88

Анализируя полученные результаты, можно только говорить о том, что разброс значений по y больше, чем разброс по x , поскольку значение дисперсии y намного больше дисперсии x , и зависимость между x и y близка к линейной убывающей зависимости, поскольку коэффициент корреляции отрицательный и по модулю близок к единице.

Основная особенность электронных таблиц заключается в том, что рабочее поле представляет собой совокупность ячеек, у каждой из которых имеется свой адрес. Функция заносится в определенную ячейку, в которую возвращается полученное значение. Для решения многих статистических и эконометрических задач использование только функций является существенным ограничением, поскольку часто результатом должно служить не одно число, а некоторый набор. С целью расширения возможностей в Excel реализованы надстройки, которые подключатся по мере необходимости и позволяют решать более специфические задачи.

Для выбора и подключения надстройки необходимо выбрать пункт меню Сервис, Надстройки . После этого появится диалоговое окно, изображенное на рисунке 1.

Все дополнительные возможности, которые осуществляют статистический анализ данных, находятся в надстройке Пакет анализа , поэтому данную надстройку необходимо отметить, то есть поставить галочку напротив соответствующего пункта. После нажатия на кнопку OK ничего визуально не изменится, однако после повторного выбора пункта меню Сервис появляется дополнительный подпункт Анализ данных . Выбор данного пункта приводит к появлению диалогового окна (рис. 2).

Рис. 1

Рис. 2

4

Выбрав конкретный инструментарий анализа и нажав на кнопку Справка , можно получить исчерпывающую информацию по данному инструменту от небольшой теоретической части до полного описания всей необходимой входной информации.

Инструментарий Генерация случайных чисел позволяет сгенерировать множество значений случайной величины, имеющей какой-либо закон распределения. Выбор данного инструмента приведет к появлению диалогового окна (рис. 3):

Рис. 3

Рассмотрим вначале обязательные параметры, которые необходимо задать при работе с данной надстройкой.

Во-первых — это тип распределения. Имеется возможность выбрать Нормальное , Равномерное , Пуассоновское , Биноминальное и некоторые другие виды распределений. При этом для каждого распределения необходимо задавать свои параметры. Мы в дальнейшем будем рассматривать случайные величины, имеющие нормальное и равномерное распределение. При выборе равномерного распределения в качестве параметра необходимо задать интервал , а при нормальном распределении необходимо задать Среднее и Стандартное отклонение .

Во-вторых — количество генерируемых чисел. Это можно сделать двумя способами: указать число строк и столбцов, Число переменных — число столбцов, а Число случайных чисел — число строк в которых разместятся сгенерированные числа. В данном случае набор случайных чисел будет помещен на новый лист. Однако часто необходимо получить набор случайных чисел в некотором диапазоне на рабочем листе. Для этого воспользуемся пунктом Параметры вывода , который задает месторасположение генерируемых чисел. В этом случае весь указанный диапазон на исходном листе будет заполнен случайными числами. Например, указав Выходной интервал в виде $B$5:$C$11, получим 14 случайных чисел, расположенных в этих ячейках.

Кроме вида распределения и количества случайных чисел можно менять параметр — Случайное рассеивание . В качестве значения данной опции указывается произвольное целое число. Данное значение необходимо для того, чтобы получать одинаковый набор случайных чисел.

Инструментарий Выборка позволяет сформировать какую-либо выборку из имеющегося набора чисел, при этом Параметры вывода имеют тот же самый смысл, то есть место, куда будет выдаваться значение. Входной интервал задает всю генеральную совокупность, из которой будет осуществлён выбор. Метод выборки задает способ формирования выборки: периодическая или случайная. В периодической выборке задается период и каждое последующее число с номером кратным периоду будет скопировано в выборку. Процесс создания выборки прекратится при достижении конца входного диапазона. В случайной выборке задается только число значений в конечной выборке, при этом любое исходное значение может быть выбрано более одного раза.

Предположим, что сгенерирована совокупность случайных чисел, отвечающая нормальному закону распределения с математическим ожиданием 0 и среднеквадратичным отклонением 1, которая содержит 100 строк и 100 столбцов, и помещена на 4-м листе. Тогда для того, чтобы выбрать 20 чисел и поместить их на новый лист можно указать параметры диалогового окна Выборка, показанные на рисунке 4.

Рис. 4

Надстройки Корреляция и Ковариация позволяют создавать корреляционную и ковариационную таблицы. Данные надстройки имеют одинаковые диалоговые окна и отличаются только заголовком. На рисунке 5 представлено диалоговое окно, которое появляется после выбора инструментария корреляция.

Рис. 5

Пункты Входной интервал и Параметры вывода задаются аналогично другим надстройкам, поэтому подробно не будем на них останавливаться. Переключатель Метки в первой строке позволяет выдавать в сгенерированной таблице заголовки столбцов и строк.

В отличие от функций, вычисления значений корреляции и ковариации КОВАР и КОРЕЛЛ, надстройки вычисляют корреляционную и ковариационную матрицы, для произвольного количества случайных величин. Поскольку данные матрицы являются симметричными, то выводится только одна часть, при этом в корреляционной матрице на диагонали находятся единицы, а в ковариационной матрице на диагонали находятся значения дисперсий во всей генеральной совокупности.

Если для данных из таблицы 1 вызвать надстройку Ковариация , указав входной интервал в виде диапазона A1:C16 и опцию Метка в первой строке , а также задав некоторые параметры вывода, будет автоматически сгенерирована таблица 3.

Таблица 3

Номер наблюдения

Цена x (р.)

Спрос y (тыс.шт.)

Номер наблюдения

18,66667

Цена x (р.)

2,248

0,276116

Спрос y (тыс.шт.)

–17,2239

–2,12699

20,85071

Нетрудно заметить, что полученное в данной таблице значение ковариации –2,12699 совпадает со значением полученными нами ранее посредством функции КОВАР, а значения дисперсий 0,276116 и 20,85071 отличаются, поскольку в данной таблице вычисляется значение дисперсии по всей генеральной совокупности.

Задания для самостоятельной работы

1. Для таблицы из приложения (номер варианта соответствует номеру вашего компьютера) найдите среднее значение, смещённую и несмещённую дисперсию, среднеквадратичное отклонение в каждом столбце.

2. Получите корреляционную и ковариационную таблицу для этих же данных. Сделайте заключения об имеющихся линейных связях.

3. На одном листе Excel сгенерируйте набор из 10000 случайных чисел, имеющих равномерное распределение на интервале от 0 до 10. Найдите значение среднего и дисперсии во всей таблицы случайных чисел, которую впоследствии будем ассоциировать со всей генеральной совокупностью. Это можно сделать посредством имеющихся в Excel формул. Создайте 10 выборок из данной генеральной совокупности по 20 элементов в каждой, используя 5 раз периодическую и 5 раз случайную выборки. Поместите каждую выборку на отдельный лист. С помощью статистических функций исследуйте данные выборки, а именно, найдите выборочное среднее, несмещённую (выборочную) и смещённую (по всей генеральной совокупности) оценки дисперсии.

Замечание

Если случайная величина X имеет равномерное распределение между значениями a и b , то математическое ожидание может быть вычислено по формуле , а дисперсия .

Лабораторная работа № 2

Метод наименьших квадратов

Цель: изучить возможности электронной таблицы Excel по обработке парной линейной регрессии.

Основные формулы и понятия:

у = a + b ×х + u — модели парной линейной регрессии;

y = а + b ×x — уравнение линейной регрессии;

— значение наблюдений ;

остаток в i-м наблюдении;

расчетное значение у в i-м наблюдении (точечный прогноз);

) — суммы квадратов остатков;

уравнения для параметров регрессии;

— общая сумма квадратов отклонений;

объясненная сумма квадратов отклонений;

необъясненная (остаточная) сумма квадратов отклонений;

— коэффициент детерминации.

Для парного регрессионного анализа выполняется условие: коэффициент детерминации R2 равен квадрату коэффициента корреляции, то есть

Электронная таблица Excel

Ранее изученных нами статистических функций вполне достаточно для непосредственного вычисления коэффициентов регрессии. Для нахождения значения параметра b достаточно уметь вычислять значение ковариации и дисперсии, а для значения a необходимы также средние значения. Эти параметры можно легко найти самостоятельно, однако в электронной таблице Excel имеется много достаточно разнородных инструментов для определения параметров регрессии. Среди них, что совершенно очевидно, имеются статистические функции, а также дополнительные средства — это надстройка и средства точечных диаграмм. Начнем рассмотрение со статистических функций.

Функция НАКЛОН возвращает наклон (коэффициент b в уравнении линейной регрессии). При этом аргументами являются два массива, в первом из которых задаются значения зависимой переменной y , а во втором значения регрессора x . Значение коэффициента a может быть найдено либо по соответствующей формуле, либо при помощи функции ОТРЕЗОК, которая имеет подобные аргументы. Функция ПРЕДСКАЗ вычисляет или предсказывает будущее значение по произвольному значению x . Данная функция имеет три аргумента. Первый — это значение x , а остальные имеют тот же смысл, что и в функциях НАКЛОН и ОТРЕЗОК.

К сожалению, нет специальных функций для вычисления коэффициента детерминации, а делать это на основании исходных формул достаточно затруднительно. Однако можно использовать то свойство, что коэффициент детерминации равен квадрату коэффициента корреляции.

Предположим, что исходные данные также располагаются в таблице 1, тогда в документ Excel параметры регрессии можно вычислить на основании следующих формул:

b =

= КОВАР( C 2: C 16; B 2: B 16)/ДИСПР( B 2: B 16)

b =

=НАКЛОН( C 2: C 16; B 2: B 16)

a =

= СРЗНАЧ( C 2: C 16)- НАКЛОН( C 2: C 16; B 2: B 16)* СРЗНАЧ( B 2: B 16)

a=

=ОТРЕЗОК( C 2: C 16; B 2: B 16)

R 2 =

=КОРРЕЛ( C 2: C 16; B 2: B 16)* КОРРЕЛ( C 2: C 16; B 2: B 16)

Прогноз

при x =17

=ПРЕДСКАЗ(17; C 2: C 16; B 2: B 16)

В данном случае предлагаются два способа вычисления параметров: на основании формул НАКЛОН и ОТРЕЗОК и через исходные формулы для параметров регрессии.

Вычисленные на основании этих формул значения будут равны:

b = –7,703

a = 239,96

R2 = 0,7868.

При цене, равной 17, прогнозируемый спрос будет равен 109,014.

Анализируя полученные данные, можно прийти к следующим выводам:

1. Поскольку b = –7,703, то можно предполагать, что увеличение цены на единицу в среднем уменьшает спрос на –7,703 тысячи штук, аналогично уменьшение цены на единицу увеличит спрос на –7,703 тысячи штук.

2. Значение константы в регрессионной модели равно 239,96, следовательно, именно такой должен быть спрос при цене равной нулю. Однако данное значение является во многом теоретическим и показывает только точку пересечения линии регрессии с осью oy .

3. Регрессионная модель имеет вид: y = 239,96 – 7,703x .

4. Прогнозируемый спрос при цене равной 17 будет составлять 109,014 тысячи единиц.

5. Коэффициент детерминации равен 0,7868. Данное значение может быть интерпретировано следующим образом: изменение зависимой переменной, в данном случае y на 78 %, описывается изменением независимой переменной (регрессора) x , что говорит о достаточной обоснованности использования данной модели.

Замечание. Описанные выше функции возвращают один параметр линейной регрессии. Однако имеется функция, которая одновременно возвращает оба параметра. Это функция ЛИНЕЙН(). Более подробно с данной функцией можно ознакомится по справочной системе.

Кроме указанных функций в Excel имеется возможность построить на диаграмме линию регрессии, которая называется линией линейного тренда. Для этого необходимо задать точечную диаграмму (диаграмма обязательно должна быть точечной), и выбрав произвольную точку в контекстном меню, можно выбрать пункт Добавить линию тренда . Хотя термин «тренд» имеет несколько другой смысл, применительно к временным рядам, в данном случае термины «тренд» и «линия регрессии» будем отождествлять друг с другом. Выбор пункта Добавить линию тренда приведет к появлению диалогового окна, у которого имеются две закладки — Тип и Параметры (рис. 6).

Рис. 6

На закладке Тип необходимо выбрать один из возможных видов уравнения регрессии. Если на диаграмме имеется несколько рядов точек, то линию регрессии можно построить для любой, задав значение соответствующего параметра — Построить на ряде .

На закладке Параметры можно задать дополнительную информацию, которая будет присутствовать на диаграмме. Во-первых, это возможность прогнозирования, что позволит построить линии тренда вперед или назад на соответствующее число единиц. Опция Показывать уравнение на диаграмме позволяет выдавать вид уравнения, а опция Поместить на диаграмму величину достоверности аппроксимации ( R^2) выводит значение коэффициента детерминации. Построив точечную диаграммы для данных, заданных в таблице 1, и линию тренда, можно получить диаграмму, которая изображена на рисунке 7.

Рис. 7

В данном случае результаты полностью совпадают с полученными ранее посредством статистических функций.

Использование встроенных функций, да и точечных диаграмм, имеет определенные ограничения, поскольку нет функций, вычисляющих стандартные отклонения коэффициентов регрессии и значение детерминации. Поэтому рассмотрим дополнительные возможности, которые доступны с помощью надстройки Анализ данных . Данная надстройка подключается с помощью пункта меню Сервис, Надстройки и запускается на выполнение с помощью пункта меню Сервис, Анализ данных . После выбора надстройки Регрессия появится диалоговое окно (рис. 8).

Данное диалоговое окно имеет множество дополнительных переключателей, которые приводят к выводу большого количества дополнительной информации. Основные параметры, которые необходимо задать — это Входной интервал Y и Входной интервал X , а также Параметры вывода . Если количество данных Y и X совпадает, то выдаются итоги построения модели парной регрессии (именно этот случай будем сейчас рассматривать), а если число переменных X в несколько раз больше числа Y , то — модель множественной регрессии. В противном случае будет выдано сообщение об ошибке. Если активизировать переключатель Метки , то во входные интервалы для X и Y можно добавить ячейки с названиями, и соответствующие метки появятся в итоговой таблице, что значительно облегчит её понимание.

Рис. 8

Если Входной интервал Y определить как C 1: C 16 , а В ходной интервал XB 1: B 16 , задать некоторым образом параметры вывода, а также установить опцию Метки , то автоматически на новом листе будет сгенерированна таблица 4.

Таблица 4

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,887036

R-квадрат

0,786833

Нормированный

R-квадрат

0,770435

Стандартная

ошибка

2,264609

Наблюдения

15

Продолжение табл. 4

Дисперсионный анализ

df

SS

MS

F

Значимость

F

Регрессия

1

246,0889

246,0889

47,985

1,04E–05

Остаток

13

66,66991

5,128455

Итого

14

312,7588

Коэффициенты

Стандартная

ошибка

t-

статистика

P-

значение

Нижние

95 %

Верхние

95 %

Y-пересечение

240,142

17,70861

13,56075

4,76E–09

201,8849

278,3991

Цена x (р.)

–7,71453

1,113671

–6,92712

1,04E–05

–10,1205

–5,30859

Данная таблица содержит большое количество информации, поэтому будем изучать её содержимое постепенно, в нескольких последующих работах. Представленные в этой таблице данные можно условно разделить на три раздела: регрессионная статистика , дисперсионный анализ и коэффициенты.

Весь раздел регрессионная статистика посвящен описанию коэффициента детерминации и его различным характеристикам. В пунктах множественный R и R-квадрат выводится значение коэффициента детерминации и его квадрата. Пункты меню нормированный R-квадрат и стандартная ошибка будут нами рассмотрены позднее, при изучении множественной регрессии. Кроме этого выдается общее количество наблюдений.

Рассмотрим раздел дисперсионный анализ . В столбце SS выдаются все виды сумм квадратов отклонений. В данном случае в первой строке, которая соответствует надписи Регрессия, выдается объясненная сумма квадратов отклонений RSS , во второй строке — Остаток — выдается необъясненная (остаточная) сумма квадратов отклонений ESS , в третьей строке — Итого — выдается общая сумма квадратов отклонений TSS .

В последнем разделе, который не имеет названия, будет интерпретироваться как раздел — коэффициенты , содержится полная информация по коэффициентам. Рассмотрим значения, полученные в столбце Коэффициенты. Пункт Y-пересечение выдает значение коэффициента a . Пункт Цена x (р.) выдает значение коэффициента b .

Представленные в таблице значения полностью совпадают с данными, полученными посредством статистических функций и линий тренда на точечной диаграмме.

В диалоговом окне Регрессия имеется целый раздел переключателей для получения дополнительной информации по остаткам. Например, указав опцию Остатки , наряду со стандартной таблицей регрессии будет выдана дополнительная таблица (табл. 5) следующего вида:

Таблица 5

ВЫВОД ОСТАТКА

Наблюдение

Предсказанное

Спрос y (тыс. шт.)

Остатки

1

123,7511

1,426776

2

122,7896

1,019821

3

122,2914

–1,11646

4

120,6462

–3,7319

5

120,2544

–0,39014

6

119,6494

–1,5813

7

119,0288

4,559903

8

117,4316

–0,34387

9

117,2931

–1,12322

10

117,0864

1,257187

11

114,353

1,847847

12

114,1298

–2,67328

13

112,0989

3,003645

14

111,4176

–1,31194

15

110,8662

–0,84306

В данной таблице получены результаты предсказанных значений и значения остатков отдельно для каждого наблюдения. Указав опции График подбора , График остатков и График нормального распределения можно получить множество дополнительной информации и некоторые диаграммы.

Использование трех описанных нами инструментов исследования можно рассматривать как последовательные шаги в изучении парной регрессионной модели. При использовании статистических функций можно получить только уравнение регрессии и некоторый прогноз. Использование точечной диаграммы позволяет сразу увидеть уравнение регрессии, а также получить значение коэффициента детерминации. Точечная диаграмма может позволить и визуально оценить точность построенной модели. И, наконец, надстройка — Регрессия . Используя данный инструмент можно получить полную информацию относительно регрессионной модели. Данная таблица достаточно громоздкая, могут появиться затруднения с интерпретацией полученных результатов. Поэтому рекомендуется начинать исследование модели с использования статистических функций и линии тренда на точечной диаграмме.

Задания для самостоятельной работы

1. Для начальных данных, представленных в таблице 1, найти значение параметров регрессии между y и x 1, используя функции дисперсии, ковариации и среднего.

2. Найдите коэффициент корреляции, а также полную информацию по регрессионной модели между значениями y и x 1, y и x 2, y и x 3 (данные взять из таблицы для лабораторной работы № 1—8);

3. На основании полученной информации найти лучшую регрессионную модель, то есть ту переменную, которая в большей степени влияет на y (эта модель, в которой значение коэффициента детерминации максимально).

Лабораторная работа № 3

Свойства коэффициентов регрессии

Цель: н аучиться использовать метод Монте-Карло для получения стандартных отклонений и проверки выполнения условий Гаусса — Маркова.

Основные формулы и понятия

Условия Гаусса — Маркова для модели парной регрессии :

1) случайный член регрессии в каждом наблюдении имеет нулевое математическое ожидание для любого i;

2) дисперсия случайного члена регрессии не зависит от номера наблюдения i;

3) случайные члены регрессии в разных наблюдениях не зависят друг от друга, то есть если i ¹ j;

4) случайный член регрессии и объясняющая переменная в каждом наблюдении независимы друг от друга, то есть для любого i .

Если выполняются условия Гаусса — Маркова, то параметры регрессии, найденные методом наименьших квадратов, являются несмещёнными, состоятельными и эффективными оценками.

стандартное отклонение параметра b;

стандартное отклонение параметра a;

стандартная ошибка параметра b;

стандартная ошибка параметра a.

Электронная таблица Excel

В общем случае нет возможности проверить условия Гаусса — Маркова и вычислить стандартные отклонения. Поэтому рассмотрим возможности использования эксперимента по методу Монте-Карло. Простейший возможный эксперимент состоит из трех частей.

Во-первых, выбираются истинные значения a и b , и в каждом наблюдении выбирается значение x .

Во-вторых, в каждом наблюдении генерируется значение u , используя некоторый процесс генерации случайных чисел. При этом необходимо, чтобы выполнялись условия Гаусса — Маркова.

В-третьих, применяется регрессионный анализ для оценивания параметров a и b с использованием полученных значений y и x . При этом можно видеть, являются ли а и b хорошими оценками a и b .

На первых двух шагах проводится подготовка к применению регрессионного метода. Полностью контролируем модель, которую создаем. На третьем этапе определяем, может ли поставленная нами задача решаться с помощью метода регрессии, т. е. насколько близки оценки а и b к истинным значениям параметров a и b при использовании только данных о значениях у и x .

Произвольно положим a = 2 и b = 0,5, так что истинная зависимость имеет вид:

y = 2 + 0,5х + u

Предположим, что имеется 20 наблюдений и x принимает значения от 1 до 20. Для случайной остаточной составляющей u будем использовать случайные числа, взятые из нормально распределенной совокупности с нулевым средним и единичной дисперсией, следовательно, и . Нам потребуется набор из 20 значений. Таблица чисел, имеющих подобное распределение, может быть генерирована с помощью надстройки Генерация случайных чисел . При таком задании случайного воздействия u автоматически будут выполняться условия Гаусса — Маркова.

Зная значения x и u в каждом наблюдении, можно вычислить значения y , используя уравнение. Это сделано в таблице 6.

Таблица 6

X

u

y

x

u

y

1

0,41

2,91

11

–0,89

6,61

2

–0,04

2,96

12

–0,49

7,51

3

1,22

4,72

13

1,29

9,79

4

1,22

5,22

14

–0,59

8,41

5

–1,25

3,25

15

–1,28

8,22

6

–0,54

4,46

16

–1,39

8,61

7

0,12

5,62

17

0,02

10,52

8

0,19

6,19

18

1,17

12,17

9

–1,7

4,8

19

1,12

12,62

10

0,05

7,05

20

0,56

12,56

Теперь при оценивании регрессионной зависимости у от x получим:

у = 1,95021 + 0,500932x .

В данном случае оценка а приняла меньшее значение по сравнению с a , а b немного выше по сравнению с b .

На основании данной таблицы можно просчитать среднее отклонение для коэффициентов регрессии . Для чего необходимо вычислить дисперсию x , , и среднее значение из квадратов x, . Тогда

, ,

, .

Вычислить стандартные отклонения мы смогли только потому, что заранее задали все параметры модели, в частности, дисперсию случайного члена . В реальных моделях данный параметр неизвестен, поэтому необходимо воспользоваться несмещённой оценкой данного параметра .

После того, как вычислили стандартные отклонения, можно вычислять стандартные ошибки. Однако для этого понадобятся дисперсия остатков, для чего используя соответствующую надстройку, получим значения остатков. Возможность нахождения остатков нами была рассмотрена ранее.

В данном случае дисперсия остатков будет , тогда . Полученное значение оценки немного превышает значение , которое мы положили равным единице, следовательно, все значения будут несколько превышать теоретические. Стандартные ошибки будут:

, ,

, .

Очевидно, что одного эксперимента такого типа едва ли достаточно для оценки качества метода регрессии. Он дал довольно хорошие результаты, но возможно это лишь счастливый случай. Для дальнейшей проверки повторим эксперимент с тем же истинным уравнением и с теми же значениями x , но с новым набором случайных чисел для остаточного члена, взятых из того же распределения. Используя эти значения u и значения x , получим новый набор значений у . Результаты оценивания регрессии между новыми значениями у и x , при различных наборах случайных величин u , представлены в таблице 7.

Таблица 7

Эксперимент

а

b

1

1,63

0,54

2

2,52

0,48

3

2,13

0,45

4

2,14

0,50

5

1,71

0,56

6

1,81

0,51

7

1,72

0,56

8

3,18

0,41

9

1,26

0,58

10

1,94

0,52

Можно заметить, что в одних случаях оценки принимают заниженные значения, а в других завышенные, однако, в целом значения а и b группируются вокруг истинных значений a и b , равных соответственно 2,00 и 0,50.

При очень большом числе повторений эксперимента можно построить таблицу частот для b и получить аппроксимацию функции плотности вероятности. Это нормальное распределение со средним 0,50 и стандартным отклонением 0,0388.

До сих пор вся работа выполнялась с помощью стандартных функций, однако большая часть информации может быть получена, если использовать надстройку Регрессия . Данная таблица уже рассматривалась нами ранее, но была разобрана только небольшая её часть. Выведем результаты работы надстройки Регрессии для данных из таблицы 6.
В этом случае получим итоговую таблицу 8.

Таблица 8

ВЫВОД ИТОГОВ

Регрессионная

статистика

Множественный R

0,951453

R-квадрат

0,905263

Нормированный

R-квадрат

0,9

Стандартная

ошибка

0,984977

Наблюдения

20

Дисперсионный анализ

df

SS

MS

F

Значимость

F

Регрессия

1

166,8706

166,8706

171,9998

1,19E-10

Остаток

18

17,46322

0,970179

Итого

19

184,3338

Коэффи

циенты

Стандартная

ошибка

t-статистика

P-

значение

Нижние

95 %

Верхние

95 %

Y-пересечение

1,950211

0,457553

4,262265

0,000469

0,988927

2,91149

X

0,500932

0,038196

13,11487

1,19E-10

0,420686

0,58117

В соответствующем столбце итоговой таблице имеются значения стандартных ошибок, которые полностью совпадают со значениями, полученными ранее, используя вычисления на основании исходных формул.

Задания для самостоятельной работы

1. Проведите подобные исследования, а именно получите стандартные ошибки параметров a и b в случае когда:

a) среднеквадратичное отклонение случайного члена регрессии u имеет удвоенное значение, т. е. ;

b) имеется в два раза больше наблюдений n = 40, при этом разность между соседними значениями x равна 0,5;

c) имеется 20 наблюдений, но расстояние между значениями x в два раза больше.

2. Проведите подобные исследования, взяв в качестве случайного члена регрессии u случайную величину, имеющую равномерное распределение на отрезке от –5 до 5. Чему в данном случае будет равна дисперсия u ?

3. Будут ли нарушены условия Гаусса — Маркова, если случайная составляющая имеет:

a) равномерное распределение с параметрами между 1 и 10;

b) равномерное распределение с параметрами между –4 и 4;

c) равномерное распределение с параметрами между –2 и 4;

d) Пуассоновское распределение с параметром 2;

нормальное распределение с параметрами 0 и 10.

Лабораторная работа № 4

Некоторые распределения

Цель: изучить возможности вычисления значений функций для нормального распределения, а также распределения Стьюдента и Фишера.

Основные формулы и понятия:

стандартная нормально распределенная случайная величина;

плотность распределения;

функция распределения;

нормально распределенная случайная величина;

плотность нормального распределения;

функция нормального распределения;

односторонняя критическая точка с уровнем a : ;

двусторонняя критическая точка с уровнем a : .

Пусть случайная величина X имеет нормальное распределение, тогда случайная величина Y= ex называется логарифмически нормальной. Можно показать, что плотность распределения этой величины определяется формулой

Пусть Х012 ,... , Xn имеют одно и то же нормальное распределение с параметрами m, s , тогда величина

­— имеет распределение хи-квадрат;

имеет распределение Стьюдента;

односторонняя критическая точка с уровнем a , ;

двусторонняя критическая точек с уровнем a: ,

где n — число степеней свободы;

распределение Фишера с k1 и k2 степенями свободы ;

критическая точка с уровнем a : .

Электронная таблица Excel

Для работы со случайными величинами имеется множество, на первый взгляд, очень сложных функций. Однако существуют некоторые правила, на основании которых они строятся. Например, все функции начинаются с названия распределения: НОРМ — нормальное распределение, НОРМСТ — стандартное нормальное распределение, ЛОГНОРМ — логарифмическое нормальное распределение, СТЬЮД — распределение Стьюдента и т. д. Если функция заканчивается словом РАСП, то она возвращает значение вероятность на основании некоторых параметров распределения, если ОБР, то данная функция является обратной и возвращает значение аргумента на основании вероятности, а именно возвращает значение критической точки. Хотя функции и определяются практически одинаково, в описании аргументов имеется ряд особенностей, на которых впоследствии будем останавливаться. Рассмотрим более подробно функции, которые обрабатывают распределения.

НОРМСТРАСП(z ) — возвращает значение вероятности для стандартного нормального распределения, то есть для случайной величины z = N (0,1). Нетрудно проверить, что значение данной функции при z = 0 будет равно 0,5. Для значений аргумента меньших, чем –8 данная функция выдает значение 0, а для больших 6 значение 1. С помощью данной функции можно проверить все табличные значения, а также построить функцию распределения нормального стандартного распределения. Функция НОРМСТОБР(вероятность) — возвращает обратное значение, на основании вероятности, то есть возвращает значение критической точки. Нетрудно проверить, что НОРМСТОБР(0,95) = 1,644853. Аналогично можно проверить все критические точки. Если вероятность =
= НОРМСТРАСП(z ), то НОРМСТОБР(вероятность) = x . Следовательно, данные функции являются взаимнооднозначными.

Функции НОРМРАСП и НОРМОБР — определены аналогичным образом, то есть возвращают либо значение функции распределения, либо обратное значение. Однако в данных функциях используются произвольные нормальные случайные величины x = N (m ,s ), поэтому в качестве аргументов должны присутствовать математическое ожидание и среднеквадратичное отклонение. Однако имеются отличия. Выбор функция НОРМРАСП приводит к появлению диалогового окна (рис. 9), где помимо основных параметров распределения необходимо задать логическое значение Интегральный . Если ввести значение Истина , то будет вычисляться значение функции распределения, в противном случае плотность распределения. Используя данную функцию и графические возможности Excel можно легко построить графики данных функций. Функция НОРМОБР работает аналогично функции для стандартного распределения и возвращает значение критической точки.

Рис. 9

Функции ЛОГНОРМОБР и ЛОГНОРМРАСП возвращают значение функции распределения нормального логарифмического распределения и обратное значение. При работе с данными функциями необходимо помнить, что функция распределения определена только для положительных значений.

Для обработки распределения Стьюдента также имеются две функции. Функции СТЬЮДРАСП (рис. 10) на основании введенного значения x (положительного) и числа степеней свободы выдает вероятность того, что случайная величина превзойдет данное значение x , то есть a = P(t > x ). Кроме этих, стандартных для распределения Стьюдента параметров,имеется дополнительный параметр, а именно значение переменной Хвосты . Если ввести данное значение равное 1, то всё будет вычисляться именно так, как было описано выше. Можно проверить, что значение функции СТЬЮДРАСП(0,5;10;1) равно 0,313.

Рис. 10

Однако, если значение Хвосты равно 2, то будет подсчитана вероятность того, что, случайная величина превзойдет по модулю значение x . Можно показать, что СТЬЮДРАСП(0,5;10;2) = 0,627. Поскольку функция плотности симметрична, то значение вероятности в первом случае в два раза меньше вероятности для второго случая.

При вызове функции СТЬЮДРАСПОБР необходимо в диалоговом окне задать только два параметра, а именно это значение вероятности и число степеней свободы, на основании которых будет вычислено значение односторонней критической точки.

Функции FРАСП и FРАСПОБР работают с распределением Фишера и запрашивают кроме стандартных аргументов значение двух степеней свободы. Если значение вероятности равно 0,05, то можно получить значения функции, например FРАСПОБР(0,05;1;1) = 161,4462, FРАСПОБР(0,05;10;100) = 1,926693. Данные функции являются обратными и нетрудно проверить, что FРАСП(0,9;5;7) = 0,529785; а FРАСПОБР(0,529;5;7) = 0,901545.

Описанных выше статистических функций Excel достаточно для вычисления значений распределений, однако мало для построения графиков как функций распределения, так и функций плотности. Поэтому кратко рассмотрим математический пакет MathCad.

Математический пакет MathCad

Для работы со случайными величинами в данном пакете имеется богатая библиотека встроенных функций, которые позволяют находить различные значения наиболее распространенных распределений. Каждое распределение представлено тремя функциями — плотность распределения, функция распределения и функция обратная к плотности распределения. Кроме этого имеется возможность генерировать выборки произвольно размера, с заданным законом распределения.

Например, для работы с нормальным распределением предназначены функции: pnorm(x, m, s ), dnorm(x, m, s ), qnorm(p, m, s ), rnorm(n, m, s ).

Функция dnorm(x, m, s ) возвращает значение функции плотности вероятности в точке x , при математическом ожидании m , и среднеквадратичное отклонение s . Функции pnorm(x, m, s ) возвращает значение функции распределения; а qnorm(p, m, s ) такое значение x , что F (x ) = p . Функция rnorm(n, m, s ) генерирует вектор длиной n случайных чисел, имеющих данное распределение.

Подобное правило действует для всех встроенных функций можно интерпретировать следующим образом. Ели имеется некоторое имя некоторого распределения, то начальная буква d означает функцию плотности, буква p означает функцию распределения, буква q значение критической точки. Буква r перед именем функции позволяет генерировать вектор с заданным распределением.

Приведем список функций, предназначенных для обработки основных распределений:

· Нормальное распределение pnorm(x, m, s ), dnorm(x, m, s ), qnorm(p, m, s ), rnorm(n, m, s ).

· Логарифмически нормальное распределение plnorm(x, m, s ), dlnorm(x, m, s ), qlnorm(p, m, s ), rlnorm(n, m, s ).

· Распределение хи -квадрат pchisd(x, d ), dchisd (x, d ), qchisd (p, d ), rchisd (n, d ).

· Распределение Стьюдента pt(x, d ), dt(x, d ), qt(p, d ), rt(n, d ).

· Распределение Фишера pF(x ,d 1 ,d 2 ), dF(x ,d 1 ,d 2 ), qF(p ,d 1 ,d 2 ), rF(n ,d 1 ,d 2 ).

· Равномерное распределение punif(x ,a ,b ), dunif(x ,a ,b ), qunif(p ,a ,b ), runif (n ,a ,b ).

Пример документа MathCad, в котором строятся графики функция плотности и распределения для стандартного нормального распределения, имеет вид:

Из данного документа очевидны свойства функции плотности и распределения, а именно:

1. Функция распределения, не убывая, изменяется от 0 до 1 (пунктирная линия);

2. Функция плотности неотрицательна и ограничивает площадь равную единице (сплошная линия).

Изменяя значения математического ожидания и среднеквадратичного отклонения, можно получить различные функции плотности и распределения.

Имеется возможность также построить функции плотности распределения Стьюдента и Фишера, при этом необходимо помнить, что распределение Стьюдента имеет в качестве параметра значение степеней свободы. При увеличении данного значения функция плотность стремится снизу к функции плотности стандартного нормального распределения. Аналогичным образом можно построить соответствующие функции распределения Фишера, при этом необходимо задавать две степени свободы.

Задания для самостоятельной работы

1. Найти значения критических точек нормального распределения с вероятностями 0,9; 0,95; 0,975; 0,99.

2. Построить график функции распределения и функции плотности для нормального распределения с параметрами m = 4, s 2 =0,3 на интервале от 0 до 8.

3. Работая с документом MathCad, построить:

a) функции плотности и функции нормального распределения

1) X ~ N (0,1),

2) X ~ N (5,1),

3) X ~ N (10,0.1),

4) X ~ N (-2,4),

5) X ~ N (100,0.6);

b) функции плотности для распределения Стьюдента с числом степеней свободы:

1) v = 7,

2) v = 3,

3) v =70,

4) v = 15,

5) v = 170;

c) распределение Фишера

1) k 1 = 6; k 2 = 6,

2) k 1 = 60; k 2 = 10,

3) k 1 = 100; k 2 = 6,

4) k 1 = 58; k 2 = 12,

5) k 1 = 80; k 2 = 80.

Для выполнения последнего задания необходимо активизировать внедренный документ и задать необходимые функции и аргументы.

Лабораторная работа № 5

Проверка гипотез

Цель: научиться обосновывать умозаключения о состоятельности регрессионной модели.

Основные формулы и понятия:

— доверительный интервал для b;

— доверительный интервал для a;

— стандартная ошибка для параметра b;

1. t-тест (тест Стьюдента). Тест на значимость коэффициента b.

Нулевая гипотеза H0: b = 0

Альтернативная гипотеза H1: b ¹ 0

t-статистика имеет вид:

область принятия нулевой гипотезы.

Если выполняется данное условие, то принимается нулевая гипотеза, и регрессор признается незначимым. В противном случае принимается альтернативная гипотеза, и регрессор признаётся значимым.

2. F-тест (тест Фишера). Тест на значимость всей регрессии.

Нулевая гипотеза H0 : R2 = 0

Альтернативная гипотеза H1 : R2 ¹ 0

область принятия нулевой гипотезы.

Если выполняется данное условие, то принимается нулевая гипотеза, и вся регрессионная модель признается незначимой. В противном случае принимается альтернативная гипотеза, и модель признаётся значимой.

3. t-тест (тест Стьюдента). Тест на значимость коэффициента корреляции во всей генеральной совокупности

Нулевая гипотеза H0: r x, y = 0

Альтернативная гипотеза H1: r x, y ¹ 0

t-статистика имеет вид:

область принятия нулевой гипотезы.

В парном регрессионном анализе результаты проверки всех трех гипотез эквивалентны.

Электронная таблица Excel

В лабораторной работе № 2 нами были проведено исследование зависимости спроса от цены на основании таблицы 1, для которой посредством надстройки была получена итоговая таблица 4 и регрессионная модель вида y = –7,7145x + 240,14. Часть полученной таблицы нами уже рассматривалась.

При этом мы не учитывали, что на диалоговом окне надстройки Регрессия (рис. 8) имеется независимый переключатель Уровень надежности , который по умолчанию равен 95 %. Уровень надежности — это то значение, посредством которого строятся доверительные интервалы для коэффициентов. Можно говорить о том, что Уровень надежности + Уровень значимости = 1, то есть уровень надежности в 95 % отвечает уровню значимости в 5 % и т. д. Данное значение может быть изменено. Для этого в диалоговом окне Регрессия необходимо отметить опцию Уровень надежности , после чего можно поставить любое числовое значение от 0 до 100. Чаще всего используются уровни надежности в 99 % или 90 %.

В итоговой таблице имеется значения t -тестов для каждого из коэффициентов регрессии и значение F -теста на состоятельность регрессии. Рассмотрим данную таблицу ещё раз.

Таблица 9

ВЫВОД ИТОГОВ

Регрессионная

статистика

Множественный R

0,887036

R-квадрат

0,786833

Нормированный

R-квадрат

0,770435

Стандартная

ошибка

2,264609

Наблюдения

15

Продолжение табл. 9

Дисперсионный анализ

df

SS

MS

F

Значимость

F

Регрессия

1

246,0889

246,0889

47,985

1,04E–05

Остаток

13

66,66991

5,128455

Итого

14

312,7588

Коэффи

циенты

Стандартная

ошибка

t-ста
тистика

P-
значение

Нижние

95 %

Верхние

95 %

Y-пересечение

240,142

17,70861

13,56075

4,76E–09

201,8849

278,3991

X

–7,71453

1,113671

–6,92712

1,04E–05

–10,1205

–5,30859

В разделе Дисперсионный анализ выдается значение F- теста. Данное значение равно 47,985. Однако не происходит проверки гипотезы с некоторым уровнем значимости, а находится само значение данного уровня. Поскольку, как правило, используются уровни в 5 % и 1 %, то при условии, что данное значение меньше 0,01, регрессия считается значимой, и при значении больше 0,05 — незначимой. В данном случае Значимость F равна 1,04E – 5 = 0,000104, то есть всю регрессионную модель можно признать значимой.

При желании можно самостоятельно найти критическое значение. Так, критическое значение с уровнем значимости 95 % можно найти по формуле FРАСПОБР(0,05;1;13) = 4,6671. Первое число степеней свободы равно числу регрессоров 1, а второе равно числу наблюдений, уменьшенному на 2, то есть 13.

В последнем разделе, где выводится значение коэффициентов, также имеется t -статистика для каждого коэффициента, их значимость и доверительные интервалы значений. В данном случае также не производится проверка с некоторым уровнем значимости, а выдаются значения t-статистики и P-значение для каждого параметра.

Анализ полученных значений происходит подобным образом. Если значение меньше чем 0,01, то нулевая гипотеза отвергается, и регрессор признается значимым, если это значение больше чем 0,05, то нулевая гипотеза принимается, и соответственно регрессор признается незначимым. Как правило, эти рассуждения касаются только гипотезы H0: b = 0. В данном случае значение статистики равно 1,04E-05, а, следовательно, регрессор можно признать значимым. При необходимости можно самостоятельно получить значения критических точек распределения Стьюдента для проверки гипотезы с некоторым уровнем значимости.
В последних двух столбцах раздела “Коэффициенты” выдаются доверительные интервалы с некоторым уровнем значимости.

Если в итоговой таблице регрессии имеются результаты о значимости коэффициентов регрессии и всей модели в целом, то гипотезу о значимости коэффициента корреляции необходимо проводить самостоятельно. (Хотя в случае парной регрессионной модели это может и не понадобиться, поскольку все гипотезы эквивалентны.)

Задания для самостоятельной работы

1. Проверить гипотезы о значимости параметров регрессии и всей регрессионной модели для данных своего варианта.

2. Найти 99 % доверительный интервал для параметров a и b .

3. Самостоятельно проверить гипотезу на значимость коэффициента корреляции (для этого необходимо вычислить значение соответствующей статистики, а затем проверить с критическим значением распределения Стьюдента).

Лабораторная работа № 6

Нелинейная регрессия

Цель: научиться выбирать наилучшую регрессионную модель.

Основные формулы и понятия:

Модели нелинейной регрессии

Полиноминальная (степени p)

Логарифмическая

Гиперболическая

Дробно-линейная

Показательная

Степенная

Логистическая

Средняя ошибка аппроксимации .

Электронная таблица Excel

В электронной таблице имеются возможности получения коэффициентов и значение детерминации для логарифмической, степенной, экспоненциальной функций и полинома произвольной степени. Для этого также, как и ранее, необходимо построить точечную диаграмму, а затем вызвать контекстное меню произвольной точки. В полученном меню необходимо выбрать пункт Добавить линию тренда , после него появится диалоговое окно (рис. 5), у которого на закладке Тип имеется возможность выбрать соответствующую нелинейную модель. Если кроме этого отметить опции Показывать уравнение на диаграмме и Поместить на диаграмму величину достоверности аппроксимации ( R^2, то на графике кроме самой линии тренда появятся уравнение модели и значение коэффициента детерминации.

Например, для данных таблицы 5, построив линейную, экспоненциальную и логарифмическую модели, можно получить диаграмму, изображенную на рисунке 11:

Рис. 11

То есть имеем

линейную модель: y = –7,7145x + 240,14 R2 = 0,786,

экспоненциальную модель: y = 334,76e–0,0659 x R2 = 0,789,

логарифмическую модель: y = –122,94Ln(x) + 457,51 R2 = 0,787.

Если имеется выбор между несколькими моделями, то самый простой способ — это задавать различные уровни тренда и выбрать ту модель, у которой значение коэффициента детерминации будет максимальным.

В данном случае значения коэффициентов детерминации несильно отличаются в различных моделях, поэтому нет объективных причин выбрать наилучшую, а следовательно, необходимо проводить дополнительные исследования либо используя среднюю ошибку аппроксимации, либо множественную регрессионную модель (которую мы будем рассматривать далее).

Хотя нами и получены модели, среди которых нельзя сразу выбрать лучшую, необходимо помнить о том, что прогноз, полученный на основании каждой модели, будет различным. Как было показано ранее (лабораторная работа № 2), прогноз, в случае использования линейной модели, при x = 17 будет равен 109,014. Прогноз, полученный на основании логарифмической модели, равен 109,1948, а на основании экспоненциальной модели — 109,1927. Эти значения получены подстановкой в уравнения моделей значения x = 17.

Использование результатов, полученных с помощью точечной диаграммы, имеет много недостатков. Во-первых, сам набор функций достаточно ограниченный, а одна из актуальных задач современной эконометрики заключается в подборе новых, более адекватных моделей, а во-вторых, проверять гипотезы о значимости коэффициентов, да и самой регрессии в целом придется вручную. К тому же посредством точечной диаграммы можно получить модель только для парного случая.

Поэтому иногда более удобно использовать преобразования, а уже затем надстройку Регрессия . Как мы уже знаем из теории, любая из предложенных нелинейных моделей может быть сведена к линейной либо заменой переменных, либо логарифмированием. Поэтому в таблицу исходных данных добавляют дополнительные столбцы, в которых находятся значения логарифмов, а затем строят регрессионную модель между необходимыми столбцами. Однако в этом случае нужно помнить о том, что, переходя к линейной модели, посредством логарифмирования получают изменённые значения параметров, которые затем необходимо восстанавливать.

Из экономической теории известно, что спрос является убывающей функцией цены, то есть при увеличении цены спрос убывает. Следовательно, разумной будет попытка найти лучшую модель среди убывающих функций. Имеется огромное количество функций, которые при некоторых значениях параметров являются убывающими, например, линейная, гиперболическая, показательная, с основанием меньше 1, и т. д. Рассмотрим способ построения показательной модели . После логарифмирования данная модель примет вид . Следовательно, для получения параметров модели необходимо значения x задавать как и прежде, а значения y заменить на значения логарифмов, то есть задать Входной интервал Y в виде D1: D16 . В этом случае исходная таблица данных, в которой имеется дополнительный столбец, будет иметь вид (табл. 10):

Таблица 10

Номер наблюдения

Цена

x (р.)

Спрос

y (тыс. шт.)

ln(y)

1

15,09р.

125,1779

4,829736

2

15,21р.

123,8094

4,818744

3

15,28р.

121,175

4,797236

4

15,49р.

116,9143

4,761441

5

15,54р.

119,8643

4,78636

6

15,62р.

118,0681

4,771261

7

15,70р.

123,5887

4,816959

8

15,91р.

117,0877

4,762923

9

15,92р.

116,1699

4,755054

10

15,95р.

118,3436

4,773592

11

16,31р.

116,2008

4,75532

12

16,33р.

111,4565

4,713635

13

16,60р.

115,1026

4,745824

14

16,69р.

110,1056

4,70144

15

16,76р.

110,0231

4,700691

После вызова надстройки Регрессия будет получена итоговая таблица (табл. 11).

Таблица 11

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,888266

R-квадрат

0,789016

Нормированный

R-квадрат

0,772787

Стандартная

ошибка

0,019221

Наблюдения

15

Продолжение табл. 11

Дисперсионный анализ

Df

SS

MS

F

Значимость

F

Регрессия

1

0,01796

0,01796

48,61611

9,73E–06

Остаток

13

0,004803

0,000369

Итого

14

0,022763

Коэффи-

циенты

Стандартная

ошибка

t-

статистика

P-

значение

Нижние

95 %

Верхние

95 %

Y-пересечение

5,813415

0,1503

38,67869

8,27E–15

5,488711

6,138119

Цена x (р.)

–0,06591

0,009452

–6,97253

9,73E–06

–0,08633

–0,04549

Используя раздел Коэффициенты можно записать итоговую модель вид .

После потенцирования будет . Аналогичным образом можно построить произвольную регрессионную модель.

При подборе оптимальной модели кроме коэффициента детерминации можно использовать и среднюю ошибку аппроксимации. Данные вычисления достаточно очевидны, и их рекомендуется выполнить самостоятельно на основании полученных после вызова надстройки данных.

Задания для самостоятельной работы

1. Подберите наиболее подходящую модель для таблицы своего варианта.

2. Просчитайте значение средней ошибки аппроксимации для каждой модели.

3. Смоделируйте выборку, которая отвечает показательной модели.

Глава 2. МОДЕЛЬ МНОЖЕСТВЕННОЙ РЕГРЕССИИ

Лабораторная работа № 7

Множественная регрессия

Цель: научиться обрабатывать множественную регрессионную модель и обосновывать её значимость и значимость каждого регрессора.

Основные формулы и понятия:

Регрессионная модель в случае двух регрессоров.

— модель, с двумя регрессорами;

— уравнение регрессии (плоскость регрессии);

Исходными данными для построения модели является выборка вида .

— уравнение для параметров регрессии.

Регрессионная модель с произвольным числом регрессоров.

модель множественной регрессии;

— уравнение множественной регрессии.

Исходные данные значений регрессоров имеют вид

,

где , , — значение j-го регрессора в i-м испытании.

Исходные данные значений зависимой переменной

уравнение для параметров регрессии;

— стандартное отклонение коэффициентов;

стандартных ошибок коэффициентов, где диагональный элемент матрицы ;

— коэффициент детерминации;

,

где rij — парные коэффициенты корреляции между регрессорами и , a ri 0 — парные коэффициенты корреляции между регрессором и y;

— скорректированный (нормированный) коэффициент детерминации.

Нулевая гипотеза H0 : b i = 0.

Альтернативная гипотеза H1 : b I ¹ 0.

t-статистика имеет вид:

,

область принятия нулевой гипотезы.

Если выполняется данное условие, то принимается нулевая гипотеза, и регрессор xi признается незначимым. В противном случае принимается альтернативная гипотеза, и регрессор признаётся значимым.

F-тест (тест Фишера) на значимость всей регрессии.

Нулевая гипотеза H0 : R2 = 0.

Альтернативная гипотеза H1 : R2 ¹ 0.

,

область принятия нулевой гипотезы.

Если выполняется данное условие, то принимается нулевая гипотеза, и вся регрессионная модель признается незначимой. В противном случае принимается альтернативная гипотеза, и модель признаётся значимой.

Математический пакет MathCad

Рассмотрение случая двух регрессоров можно опустить, поскольку в этом случае необходимо уметь вычислять средние значения, коэффициент ковариации и дисперсию. Способы получения данных параметров были изучены нами ранее (лабораторная работа № 1). Поэтому рассмотрим случай множественной регрессии.

Математический пакет MathCad содержит большое количество встроенных функций для обработки матриц, которые позволяют получить обратную и транспонированную матрицы, вычислить определителя, собственные значения и собственный вектор матрицы и т. д. Данные функции позволяют вычислить коэффициенты модели множественной регрессии и их стандартные отклонения, используя исходные формулы.

Для получения доступа к матричным функциям необходимо либо используя пункт меню Вид, Панель инструментов активизировать панель Матрицы , либо используя математическую панель инструментов, нажать на кнопку Векторные и матричные операции . В любом случае появится дополнительная панель инструментов (рис. 12).

Рис. 12

Нет необходимости описывать каждую из этих кнопок, поэтому рассмотрим только необходимые в нашем случае. Первая кнопка в верхнем ряду позволяет вставить матрицу произвольной размерности, а третья позволяет получить обратную матрицу. Необходимо отметить, что все доступные функции обработки матриц можно получить, используя пункт меню Вставка, Функции и в диалоговом окне выбрать категорию Вектора и Матрицы .

Продемонстрируем возможности пакета по обработки матриц на примере таблицы 1, в которой наряду с данными о спросе (y ) и цене (x 1 ), включены данные о ценах на некоторый подобный товар (x 2 ,x 3 ) и средний доход населения (x 4 ). Обобщённые данные представлены в таблице 12.

Таблица 12

Номер наблюдения

Цена x 1 (р.)

Цена на первый подобный товар x 2 (р.)

Цена на второй подобный товар x 3 (р.)

Средний доход населения x 4 (т. р.)

Спрос y (тыс. шт.)

1

15,09р.

24,30р.

12,85р.

5,09

125,1779

2

15,21р.

26,65р.

12,26р.

5,03

123,8094

3

15,28р.

25,22р.

13,42р.

4,80

121,175

4

15,49р.

26,59р.

12,05р.

4,95

116,9143

5

15,54р.

26,88р.

12,70р.

4,88

119,8643

6

15,62р.

24,74р.

12,41р.

4,96

118,0681

7

15,70р.

24,42р.

13,83р.

5,10

123,5887

8

15,91р.

25,79р.

13,10р.

4,90

117,0877

9

15,92р.

24,14р.

13,07р.

4,72

116,1699

10

15,95р.

26,70р.

12,40р.

4,81

118,3436

11

16,31р.

24,66р.

12,82р.

4,95

116,2008

12

16,33р.

24,04р.

12,48р.

4,88

111,4565

13

16,60р.

25,15р.

13,20р.

5,02

115,1026

14

16,69р.

24,10р.

12,40р.

4,80

110,1056

15

16,76р.

24,49р.

12,01р.

4,85

110,0231

Учитывая, что матрица X должна иметь на один столбец больше, чем число регрессоров, в котором находятся единицы [5, c. 69], и вектор-столбец Y содержит значение спроса, документ MathCad может иметь следующий вид:

На основании полученных данных можно записать множественную модель в виде: y = 113,938 – 6,095 x 1 + 0,534 x 2 + 2,588 x 3 + 10,995 x 4 .

Сравнивая полученные данные с результатами парного регрессионного анализа (y = 240,14 – 7,7145x), можно сделать следующие выводы:

1. Изменилось влияние цены на спрос. Если в модели парной регрессии увеличение цены на единицу приводило к уменьшению спроса на 7,714 тыс. шт., то при рассмотрении множественной модели увеличение цены на единицу приводит к уменьшению спроса на 6,095 тыс. шт. (Причина данного изменения влияния цены будет рассмотрена нами далее, при изучении проблемы лабораторной работы № 8.)

2. Изменилось значение константы. В парной модели это значение было равно 239,96, во множественной — 113,93. Именно таким должен быть спрос, при условии, что значение всех регрессоров равно нулю. Как и для случая парной регрессии, это значение является во многом теоретическим.

3. На конечный спрос влияет цена на подобные товары. Например, при увеличении на единицу цены на первый подобный товар, спрос увеличивается на 0,534, а для второго подобного товара это значение равно 2,588. То есть можно говорить о том, что второй подобный товар в большей степени влияет на спрос.

4. Кроме цен на спрос также влияет и средний доход населения. При увеличении дохода на единицу спрос увеличивается на 10,995 тыс. шт.

Полученная модель является во многом формальной, поскольку она хоть и получена на основании статистических данных, не были проверены гипотезы о значимости каждого регрессора, да и всей регрессии в целом. Трудность при работе в пакете MathCad заключается в том, что нет дополнительных встроенных возможностей для проверки гипотез, поэтому все вычисления необходимо производить вручную, создавая необходимый документ. Данная работа часто бывает затруднительна для конечного пользователя. К тому же имеется достаточно сложный механизм передачи данных между MathCad и Excel. Поэтому рассмотрим программные продукты, которые имеют необходимый для анализа множественной регрессии инструментарий.

Электронная таблица Excel

В электронной таблице Excel имеется необходимый набор матричных функций, среди них можно отметить функции: МОБР(), которая выводит обратную матрицу, МУМНОЖ(), вычисляющая произведение двух матриц, ТРАНСП(), выполняющая операцию транспортирования матрицы. Этих функций достаточно для вычисления параметров множественной регрессии, однако они являются матричными, что имеет некоторую специфику при работе с ними. Документ, в котором будут использоваться данные функции, будет выглядеть громоздким, поскольку необходимо отдельно хранить элементы выполнения каждой матричной операции. Поэтому рассмотрим другие возможности Excel.

Как и для случая парной регрессии, для множественной регрессии имеется возможность использовать ту же самую надстройку Регрессия , однако в этом случае количество значений X должно в несколько раз превышать количество Y .

Перенеся таблицу 10 в Excel, в диалоговом окне надстройки Регрессия задав Входной интервал Y в виде G1:G16 , а Входной интервал X в виде B1: F16 и установив опцию Метки , будет автоматически сгенерирована таблица 13.

Таблица 13

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,963541879

Продолжение табл. 13

R-квадрат

0,928412953

Нормированный

R-квадрат

0,899778134

Стандартная ошибка

1,496311516

Наблюдения

15

Дисперсионный анализ

df

SS

MS

F

Значимость

F

Регрессия

4

290,3694

72,59234

32,42252

1,06E–05

Остаток

10

22,38948

2,238948

Итого

14

312,7588

Коэффи-

циенты

Стандартная

ошибка

t-ста

тистика

P-

значение

Нижние

95 %

Верхние

95 %

Y-пересечение

113,1921888

36,06499

3,138562

0,010536

32,83438

193,55

Цена x1 (р.)

–6,080773549

0,900492

–6,75273

5,03E–05

–8,08719

–4,07435

Цена на первый

подобный товар x2 (р.)

0,55174938

0,452263

1,219975

0,250464

–0,45596

1,559454

Цена на второй

подобный товар x3 (р.)

2,620192945

0,85151

3,077112

0,011698

0,722909

4,517476

Средний доход

населения x4 (т. р.)

10,92686031

3,846179

2,840965

0,017519

2,357038

19,49668

Данная таблица нами рассматривалась уже не раз, поэтому остановимся только на том, что относится к случаю множественной регрессии. Например, в разделе Регрессионная статистика имеется пункт Нормированный R-квадрат , который содержит значение скорректированного коэффициента детерминации. При включении в модель незначимого регрессора данное значение будет уменьшаться.

В разделе Коэффициенты содержатся значения всех коэффициентов, которые совпадают со значениями, полученными посредством MathCad, а кроме этого, стандартные ошибки статистики, значимости и доверительные интервалы для коэффициентов.

На основании данной таблицы можно сделать выводы о значимости каждого регрессора и всей регрессии в целом:

1. Само уравнение регрессии является значимым, поскольку Значимость F равна 1,06E-05, что меньше, чем 0,01. Проверить значимость всей регрессии можно и самостоятельно, поскольку в таблице выдается значение F-статистики, а критический уровень можно, как и в парном случае, найти с помощью функции FРАСПОБР. Верхнее число степеней свободы в данном случае равно 4, а нижнее10.

2. Коэффициент b 1 является значимым при любом уровне значимости, поскольку его значимость равна 5,03E-05. Следовательно, цена на товар, а в наших обозначениях регрессор x 1 , влияет на спрос.

3. Коэффициенты b 3 , b 4 , можно признать значимыми, поскольку соответствующие значения равны 0,01169 и 0,01752, что несколько превосходит значение 0,01, но все же меньше, чем значение 0,05. Следовательно, на формирование значения спроса также влияет цена на второй подобный товар и средний доход населения.

4. Коэффициент b 2 является незначимым, поскольку соответствующее значение равно 0,25, следовательно, цена на первый подобный товар x 2 не влияет на значение спроса.

Исходя из всего вышесказанного, разумно построить регрессионную модель, в которой отсутствуют незначимые регрессоры. Для этого в электронной таблице Excel необходимо удалить тот столбец, в котором находятся значения переменой x 3 , и вызвать надстройку Регрессия .

Таблица 14

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0,9579

R-квадрат

0,9177

Нормированный

R-квадрат

0,8953

Стандартная ошибка

1,5291

Наблюдения

15

Дисперсионный анализ

df

SS

MS

F