1. Определите, на какой диаграмме показаны временные данные, а на какой пространственные (рис.1 и рис. 2).
Рисунок 1 – Структура использования денежных доходов за 2001 г
Рисунок 2 – Структура использования денежных доходов за 2001 г
Ответ:
Прогнозы часто осуществляются на основе некоторых статистических показателей, которые изменяются во времени. Если эти показатели имеют значения на определенные промежутки времени, следующие друг за другом, то образуются некоторые ряды данных с определенными тенденциями. Ряд расположенных в хронологической последовательности значений статистических показателей, представляют собой временной (динамический) ряд.
Динамическим рядом называется ряд чисел или ряд однородных статистических величин, показывающих изменения размеров какого-либо явления или признака во времени.
Каждый временной ряд состоит из двух элементов: отрезки времени (периоды), в рамках которых был зафиксирован определенный статистический показатель и статистические показатели, характеризующие объект исследования (уровни ряда). Эти данные представлены на рис. 1.
На рис. 2 представлены пространственные данные, т.е. совокупность каких-либо параметров (в данном случае структуры денежных расходов) за один временной период (за декабрь).
2. Дайте определение регрессии.
Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.
Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.
Аппроксимация данных с учетом их статистических параметров относится к задачам регрессии. Они обычно возникают при обработке экспериментальных данных, полученных в результате измерений процессов или физических явлений, статистических по своей природе (как, например, измерения в радиометрии и ядерной геофизике), или на высоком уровне помех (шумов). Задачей регрессионного анализа является подбор математических формул, наилучшим образом описывающих экспериментальные данные.
Математическая постановка задачи регрессии заключается в следующем. Зависимость величины (числового значения) определенного свойства случайного процесса или физического явления Y от другого переменного свойства или параметра Х, которое в общем случае также может относиться к случайной величине, зарегистрирована на множестве точек xk множеством значений yk, при этом в каждой точке зарегистрированные значения yk и xk отображают действительные значения Y(хk) со случайной погрешностью sk, распределенной, как правило, по нормальному закону. По совокупности значений yk требуется подобрать такую функцию f(xk, a0, a1, … , an), которой зависимость Y(x) отображалась бы с минимальной погрешностью. Отсюда следует условие приближения:
yk = f(xk, a0, a1, … , an) + sk.
Функцию f(xk, a0, a1, … , an) называют регрессией величины y на величину х. Регрессионный анализ предусматривает задание вида функции f(xk, a0, a1, … , an) и определение численных значений ее параметров a0, a1, … , an, обеспечивающих наименьшую погрешность приближения к множеству значений yk. Как правило, при регрессионном анализе погрешность приближения вычисляется методом наименьших квадратов (МНК). Для этого выполняется минимизация функции квадратов остаточных ошибок:
Для определения параметров a0, a1, … , an функция остаточных ошибок дифференцируется по всем параметрам, полученные уравнения частных производных приравниваются нулю и решаются в совокупности относительно всех значений параметров. [3]
Таким образом, регрессия – это односторонняя вероятностная зависимость между случайными величинами: y = f(x)
Аналитическое выражение связей между признаками может быть представлена виде уравнений регрессии:
yx = a0+a1x
где х – значение факторного признака
у – значение результативного признака (эмпирические)
ух – теоретические значения результативного признака, полученные по уравнению регрессии.
а0 и а1 – это коэффициенты регрессии, которые определяются путем решения следующей системы уравнений:
na0+a1∑x = ∑y
a0∑x+a1∑x = ∑xy2
В основе решения данной системы уравнений лежит метод наименьших квадратов, сущность которого заключается в минимизации суммы квадратов отклонений эмпирических значений признака от теоретических, полученных по уравнению регрессии:
∑(yi-yx)2 → min
а0 - показывает влияние неучтенных в модели факторов и четкой интерпретации не имеет
а1 – показывает на сколько в среднем изменяется значение результативного признака при изменении факторного признака на единицу собственного измерения [5]
2. По Российской Федерации за 2001 год известны значения двух признаков (табл. 1):
Таблица 1
Месяц
Расходы на покупку продовольственных товаров в общих расходах, % (y)
Средний денежный доход на душу населения, руб. (x)
Январь
69
1954,7
Февраль
65,6
2292,0
Март
60,7
2545,8
Апрель
…
…
Май
…
…
Июнь
…
…
Июль
…
…
Август
…
…
Сентябрь
…
…
Октябрь
53,3
3042,8
Ноябрь
50,9
3107,2
Декабрь
47,5
4024,7
Для оценки зависимости y от x построена парная линейная регрессионная модель с помощью метода наименьших квадратов:
Значит, с увеличением среднего денежного дохода на 1 руб. доля расходов на покупку продовольственных товаров снижается в среднем на 0,0051 %.
Линейный коэффициент парной корреляции
rxy = 1/ (-196) * 78 = -0,39
(связь умеренная, обратная)
Найдем коэффициент детерминации
rxy2 = (-0,39)2 = 0,158. Вариация результата на 15,8 % объясняется вариацией фактора x.
Средняя ошибка аппроксимации А = 196/46 + 4,6 = 8,86, что говорит о высокой ошибке аппроксимации (недопустимые пределы). В среднем расчетные значения отклоняются от фактических на 8,86 %.
Проверяем F-критерий Фишера. Для этого сравним Fтабл. и Fфакт.
Fтабл. = 4,96
Fфакт.=103
Fтабл. < Fфакт. (4,96<103), значит гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость и надежность с вероятностью 0,95.
Вывод: линейная парная модель плохо описывает изучаемую закономерность.
Задание 3
В табл. 2 приведены данные, формирующие цену на строящиеся квартиры в двух различных районах.
Таблица 2
Район, а/б
Жилая площадь, м2
Площадь кухни, м2
Этаж, средние/крайние
Дом, кирпич/панель
Срок сдачи, через сколько мес.
Стоимость квартиры, тыс. долл
1
17,5
8
1
1
6
17,7
1
20
8,2
1
2
1
31,2
2
23,5
11,5
2
2
9
13,6
…
…
…
…
…
…
…
1
77
17
2
1
1
56,6
2
150,5
30
2
2
2
139,2
2
167
31
2
1
5
141,5
Имеется шесть факторов, которые могут оказывать влияние на цену строящегося жилья:
район, где расположена строящаяся квартира (а или б);
жилая площадь квартиры;
площадь кухни;
этаж (средний или крайний);
тип дома (панельный или кирпичный);
срок сдачи квартиры (через сколько месяцев).
Определите минимальный объем выборки Nmin. Для оценки зависимости y от х построена линейная множественная регрессионная модель с помощью метода наименьших квадратов:
y = a0 + a1x1 + a2x2 + a3x3 + a4x4 + a5x5 + a6x3 + e
где a0 = -196/11,5
a1 = -196/8-10
a2 = 1/196+0,79
a3 = 0,1-1/196
a4 = 196/5 - 16
a5 = 0,12*196
a6 = 1/196-0,4
Какие фиктивные переменные были использованы в модели? Дайте экономическую интерпретацию полученной модели.
Решение:
Найдем минимальный объем выборки Nmin. Число факторов, включаемых в модель, m = 6, а число свободных членов в уравнении n = 1.
y = a0 – 34,55x1 + 0,79x2 + 0,095x3 + 23,2x4 + 23,52x5 -0,39x3 + e
Экономическая интерпретация полученной модели: квартиры в районе а стоят на 34,55% дешевле, чем в районе b. При увеличении жилой площади на 0,79 % стоимость квартиры возрастает на 0,095 %. Квартиры на средних этажах стоят на 0,095 % дороже, чем на крайних. Квартиры в кирпичных домах стоят на 23,2 % дороже, чем в панельных. При увеличении срока сдачи дома на 1 % стоимость квартиры уменьшается на 0,39%.
Фиктивные переменные – это район (принимает значения а или б), этаж (средний или крайний); тип дома (панельный или кирпичный).
Постройте модель сезонных колебаний дохода торгового предприятия, используя первую гармонику ряда Фурье, по данным, приведенным в табл. 2, изобразите графически.
Таблица 2
Месяц
Доход, тыс. руб.
Январь
58,33+112* (1/196) = 58,90
Февраль
52+112* (1/196) = 52,57
Март
43,67+112* (1/196) = 44,24
Апрель
41,02+112* (1/196) = 41,59
Май
42,77+112* (1/196) = 43,34
Июнь
50,01+112* (1/196) = 50,58
Июль
56,6+112* (1/196) = 57,17
Август
64,74 + 112* (1/196) = 65,31
Сентябрь
71,04+112* (1/196) = 71,61
Октябрь
73,54+112* (1/196) = 74,11
Ноябрь
72,16+112* (1/196) = 72,73
Декабрь
66,3+112* (1/196) = 66,87
Воспользуйтесь вспомогательной таблицей 3.
Таблица 3
t
соs t
sin t
0
1,00
0,00
0,523599
0,87
0,50
1,047198
0,50
0,87
1,570796
0,00
1,00
2,0944395
-0,50
0,87
2,617994
-0,87
0,50
3,141593
-1,00
0,00
3,665191
-0,87
-0,50
4,18879
-0,50
-0,87
4,712389
0,00
-1,00
5,235988
0,50
-0,87
5,759587
0,87
-0,50
Решение:
Если мы рассматриваем год как цикл, то n = 12. Параметры уравнения могут быть найдены по формулам:
a0 = ∑y/n
a1 =2/n ∑y соs t
b1 =2/n ∑y sin t
Составим вспомогательную табл. 4.
Таблица 4
Доход, тыс. руб.
соs t
y соs t
sin t
y sin t
58,90
1,00
58,85
0,00
0,00
52,57
0,87
45,69
0,50
26,26
44,24
0,50
22,09
0,87
38,44
41,59
0,00
0,00
1,00
41,54
43,34
-0,50
-21,64
0,87
37,66
50,58
-0,87
-43,96
0,50
25,56
57,17
-1,00
-57,12
0,00
0,00
65,31
-0,87
-56,77
-0,50
-32,63
71,61
-0,50
-35,78
-0,87
-62,26
74,11
0,00
0,00
-1,00
-74,06
72,73
0,50
36,34
-0,87
-63,23
66,87
0,87
58,13
-0,50
-33,41
∑= 699,02
5,83
96,13
Получили:
a0 = 699,02/12 = 58,25
a1 =2/12 *5,83 = 0,97
b1 =2/12 *96,13 = 16,02
Получили
yt = 58,25+0,97 соs t + 16,02 sin t
Подставим фактические значения t в полученную первую гармонику ряда Фурье (табл. 5).
Таблица 5
Месяц
t
yt
Январь
0
58,25+0,97*1 +16,02 *0 = 59,22
Февраль
0,523599
58,25+0,97*0,87 +16,02 *0,5 = 67,1
Март
1,047198
58,25+0,97*0,5 +16,02 *0,87 = 72,67
Апрель
1,570796
58,25+0,97*0 +16,02 *1 = 74,27
Май
2,0944395
58,25+0,97*(-0,5) +16,02 *0,87 = 71,7
Июнь
2,617994
58,25+0,97*(-0,87) +16,02 *0,5 = 65,41
Июль
3,141593
58,25+0,97*(-1) +16,02 *0 = 57,28
Август
3,665191
58,25+0,97*(-0,87) +16,02 *(-0,5) = 49,40
Сентябрь
4,18879
58,25+0,97*(-0,5) +16,02 *(-0,87) = 43,82
Октябрь
4,712389
58,25+0,97*(0) +16,02 *(-1) = 42,23
Ноябрь
5,235988
58,25+0,97*(0,5) +16,02 *(-0,87) = 44,79
Декабрь
5,759587
58,25+0,97*(0,87) +16,02 *(-0,5) = 51,08
Строим график исходных данных и первой гармоники ряда Фурье (рис. 3)
В торгово-розничную сеть поступило 3 вида взаимозаменяемой продукции разных производителей: А1, А2, А3. Предположим, что покупатели приобретают продукцию только одного из них. Пусть в среднем они стремятся поменять ее не более одного раза в год, и вероятности таких изменений постоянны.
Результаты маркетинговых исследований покупательского спроса на продукцию дали следующее процентное соотношение:
Х1 % покупателей продукции А1 переходит на продукцию А2,
Х2 % покупателей продукции А2 - на продукцию А3,
Х3 % покупателей продукции А3 – на продукцию А1,
Где Х1 = (196 – 90)/3
Х2 = (315-196)/5
Х3 = (196 – 90)/4
Требуется:
Построить граф состояний
Составить матрицу переходных вероятностей для средних годовых изменений
Предположить, что общее число покупателей постоянно, и определить, какая доля из их числа будет покупать продукцию А1, А2 и А3 через 2 года
Определить, какая продукция будет пользоваться наибольшим спросом
Решение:
Найдем значения Х1, Х2 и Х3.
Х1 = (196 – 90)/3 = 35,33
Х2 = (315-196)/5 = 24
Х3 = (196 – 90)/4 = 26,5
Построим граф состояний (рис. 4):
Рисунок 4 – Граф состояний системы
Составим матрицу переходных вероятностей:
||Pij|| =
=
Зададим вектор начальных вероятностей
Р(0) =
Т.е. Р1 (0) = 1
Р2 (0) = 1
Р3(0) = 1
Определим вероятности состояния Рi (k) после первого шага (после первого года):
Вывод: через два года 84,8% покупателей будут приобретать продукцию А1, около 98,3 % покупателей – А3, число покупателей продукции А2 увеличится в 1,67 раза.
Продукция А2 будет пользоваться наибольшим спросом.