Самостійна робота №7
Багатофакторна і нелінійна регресія
Мета роботи - отримання навичок
апроксимації множини статистичних параметрів
рівняннями нелінійної регресії.
Завдання
для самостійного розв’язання
1. Забудовник оцінює вартість групи офісних будівель в
традиційному діловому районі міста. При цьому відому наступні вихідні дані
Ціна
будівлі, $ |
Загальна
площа, м2 |
Кількість
офісів |
Кількість
входів |
Час
експлуатації, роки |
142
000 |
2310 |
2 |
2 |
20 |
144
000 |
2333 |
2 |
2 |
12 |
151
000 |
2356 |
3 |
1,5 |
33 |
150
000 |
2399 |
3 |
2 |
43 |
139
000 |
2402 |
2 |
3 |
53 |
179 000 |
2425 |
4 |
2 |
23 |
126
000 |
2448 |
2 |
1,5 |
99 |
142
900 |
2451 |
2 |
2 |
34 |
163
000 |
2494 |
3 |
3 |
23 |
179 000 |
2417 |
4 |
4 |
55 |
149
000 |
2540 |
2 |
3 |
22 |
Висунули припущення, що існує множина
лінійна залежність ціни будівлі від площі, кількості офісів, кількості входів,
часу експлуатації.
Необхідно:
1. Побудувати
множину регресійну модель.
2. Оцінити
коефіцієнти кореляції та детермінації, стандартну помилку, дати пояснення
отриманим результатам.
3. Провести F-тест
та t-тест, дати пояснення отриманим результатам.
2.
Маємо часовий ряд – Офіційний курс гривні до
100$ США, встановлений Національним банком України, середній за період з 2005
по 2015рр. Визначити, який вид функції найкраще підходить для
опису тренду заданого часового ряду. Зробити
прогноз на наступний рік.
2005 |
2006 |
2007 |
2008 |
2009 |
2010 |
512,47 |
505,00 |
505,00 |
526,72 |
779,12 |
793,56 |
2011 |
2012 |
2013 |
2014 |
2015 |
2016 |
2017 |
796,76 |
799,10 |
799,30 |
1188,67 |
2184,47 |
2591.18 |
2712,56 |
3. Дана динаміка зміни цін
на паливо марки А 95, грн./л за місяць липень вказаного року. Визначити,
який вид функції найкраще підходить для опису тренду заданого часового ряду.
Зробити прогноз на наступний рік.
2005 |
2006 |
2007 |
2008 |
2009 |
2010 |
2011 |
3,35 |
3,85 |
3,98 |
6,36 |
6,77 |
7,74 |
10,34 |
2012 |
2013 |
2014 |
2015 |
2016 |
2017 |
10,80 |
10,91 |
15,37 |
20,03 |
22,32 |
24,59 |
За умовами задач 2 і 3 встановити вид
залежності між курсом гривні до долара і ціною на бензин в Україні від 2005 по
2017рр. Оцінити коефіцієнт кореляції між даними.
2. Зміни
чисельності населення в Україні та місті Києві по роках відображена в таблиці.
Визначити оптимальні рівняння регресії для двох графіків. Записати прогноз
кількості населення на 2020р.
Рік |
1990 |
1992 |
1994 |
1996 |
1998 |
2000 |
Україна |
51 838,5 |
52 056,6 |
52 114,4 |
51 297,1 |
50 370,8 |
49 429,8 |
м.
Київ |
2
624,4 |
2
651,3 |
2
653,5 |
2
638,7 |
2
629,3 |
2
631,9 |
2002 |
2004 |
2006 |
2008 |
2010 |
2012 |
2014 |
2016 |
48 457,1 |
47 622,4 |
46 929,5 |
46 372,7 |
45 962,9 |
45633,6 |
45 426,2 |
42 760,5 |
2 611,3 |
2
639,0 |
2
693,2 |
2
740,2 |
2
785,1 |
2
814,3 |
2
868,7 |
2
906,6 |
Приклад
розв’язання
1. Для реалізації
процедури множинної (багатофакторної) регресії в MS Excel (2007+) обираємо у меню «Сервис» пакет «Анализ данных» та інструмент аналізу «Регрессия», параметрами якого є масиви і результативного
показника. В результаті отримаємо модель множинної лінійної регресії по
параметрах хі , а також:
-
коефіцієнт
множинної кореляції R – показує
тісноту зв’язку вихідної змінної від вхідних;
-
коефіцієнт
детермінації R2 – показує наскільки вихідна змінна, яка визначена
на основі побудованої моделі відповідає реальним даним. Якщо R2 близький
до 0, то це означає низьку значимість моделі, відсутні лінійна залежність між
параметрами.
-
стандартна
помилка - показує середню величину відхилення
вихідної змінної y*, яка обрахована на основі моделі, від наявних статистичних
значень вихідної змінної y.
-
F-тест та t-тест проводять для оцінки значущості моделі. Для цього використовують порівняння
так званих фактичних та табличних (теоретичних) значень F-критерію (критерій
Фішера) та t-критерію (критерій
Стьюдента).
t-тест
(або t-критерій) досліджує лінійну залежність між кожною окремою вхідною
змінною (Xi) і вихідною змінною (Y), F-тест (або F-критерій)
досліджує лінійну залежність для всієї моделі, тобто між НАБОРОМ вхідних
змінних (X1, X2,..., Xn) та вихідною змінною (Y) рис.1.
Рис.1.
Пояснення критерію Фішера та Стьюдента.
Табличні (критичні) значення F-критерію можна визначити або
зі спеціальної таблиці, або за допомогою функції FРАСПОБР в Excel:
1. Стаємо
в будь-яку комірку.
2. Запускаємо
функцію FРАСПОБР і
задаємо:
· «Вероятность» –
0,05
· «Степени_свободы1» – m
(m – кількість вхідних змінних Xi).
· «Степени_свободы1» – n-m-1
(n – кількість спостережень).
Якщо, Fфакт>Fтабл, то між усіма вхідними змінними в
цілому та вихідною змінною існує лінійна залежність. Також кажуть, що лінійна модель
є значущою.
В t-тесті
потрібно співставити фактичні t-критерії
та критичний (табличний) t-критерій.
Якщо |tфакт|>tкрит для
конкретної змінної, то кажуть, що змінна статистично значуща або між даною
змінною та вихідною змінною існує лінійний зв’язок.
Обчислення tкрит можна
робити за допомогою спеціальних таблиць або функції СТЬЮДРАСПОБР.
Стаємо у будь-яку комірку і запускаємо
функцію СТЬЮДРАСПОБР:
-
«Вероятность» – 0,05
-
«Степени_свободы» – n-m-1 (n – кількість
спостережень, m – кількість вхідних змінних Xi).
В
результаті отримуємо, що tкрит і порівнюємо з tфакт
для кожної окремої змінної
Хі..
2. Для знаходження нелінійного однофакторного рівняння регресії, необхідно
побудувати точковий графік по заданих факторних і результативних даних (хі, yi)
, поставити курсор на будь-яку точку та натиснути праву кнопку миші. У меню,
яке після цього з’являється на екрані, обрати команду «Добавить линию тренда». У діалоговому вікні вибрати тип лінії
тренду:
-
лінійна;
-
логарифмічна
-
поліноміальна (вибрати степінь полінома)
-
степенева
-
експоненційна.
В підменю «Параметры»
відмітити команду «показывать уравнение на диаграмме» та «поместить на диаграму величину достоверности
аппроксимации (R^2)». На графіку отримаємо вид рівняння регресії і
значення коефіцієнта детермінації рис.1.
Рис.1. Визначення рівняння нелінійної
регресії в функції «Лінія тренду»
Підставивши в отримане рівняння значення
факторного параметра хі отримаємо теоретичні значення залежної змінної . Порівняти якість отриманої моделі з різними типами ліній
регресії можна порівнявши суми квадратів відхилень результативних даних
і теоретичних,
отриманих з рівняння регресії
:
менше значення
відхилень показує кращу якість апроксимації.
Контрольні
запитання
1. Одно- і багатофакторна регресійна залежність.
2.
Лінійна і нелінійна регресійна залежність.
3.
Вибір виду функції регресії.
4.
Зведення нелінійних апроксимуючих функцій до лінійного вигляду.
5.
Застосування методу МНК для побудови множинної лінійної регресії.
6.
Оцінка F-тесту множинної кореляції.
7.
Оцінка t -тесту множинної кореляції.
8.
Визначення рівняння нелінійної регресії за допомогою трендів.
9.
Порівняння якості різних типів ліній регресії.