Самостійна робота №7

Багатофакторна і нелінійна регресія

Мета роботи - отримання навичок апроксимації множини статистичних параметрів  рівняннями нелінійної регресії.

 

Завдання для самостійного розв’язання

1. Забудовник оцінює вартість групи офісних будівель в традиційному діловому районі міста. При цьому відому наступні вихідні дані

Ціна будівлі, $

Загальна площа, м2

Кількість офісів

Кількість входів

Час експлуатації, роки

142 000

2310

2

2

20

144 000

2333

2

2

12

151 000

2356

3

1,5

33

150 000

2399

3

2

43

139 000

2402

2

3

53

179 000

2425

4

2

23

126 000

2448

2

1,5

99

142 900

2451

2

2

34

163 000

2494

3

3

23

179 000

2417

4

4

55

149 000

2540

2

3

22

 

Висунули припущення, що існує множина лінійна залежність ціни будівлі від площі, кількості офісів, кількості входів, часу експлуатації.

Необхідно:

1.    Побудувати множину регресійну модель.

2.    Оцінити коефіцієнти кореляції та детермінації, стандартну помилку, дати пояснення отриманим результатам.

3.    Провести F-тест та t-тест, дати пояснення отриманим результатам.

 

2. Маємо часовий ряд – Офіційний курс гривні до 100$ США, встановлений Національним банком України, середній за період з 2005 по 2015рр.  Визначити, який вид функції найкраще підходить для опису тренду заданого часового ряду.  Зробити прогноз на наступний рік.

2005

2006

2007

2008

2009

2010

512,47

505,00

505,00

526,72

779,12

793,56

 

2011

2012

2013

2014

2015

2016

2017

796,76

799,10

799,30

1188,67

2184,47

2591.18

2712,56

 

3. Дана динаміка зміни цін на паливо марки А 95, грн./л за місяць липень вказаного року.  Визначити, який вид функції найкраще підходить для опису тренду заданого часового ряду. Зробити прогноз на наступний рік.

2005

2006

2007

2008

2009

2010

2011

3,35

3,85

3,98

6,36

6,77

7,74

10,34

 

2012

2013

2014

2015

2016

2017

10,80

10,91

15,37

20,03

22,32

24,59

За умовами задач 2 і 3 встановити вид залежності між курсом гривні до долара і ціною на бензин в Україні від 2005 по 2017рр. Оцінити коефіцієнт кореляції між даними.

 

2.  Зміни чисельності населення в Україні та місті Києві по роках відображена в таблиці. Визначити оптимальні рівняння регресії для двох графіків. Записати прогноз кількості населення на 2020р.

Рік

1990

1992

1994

1996

1998

2000

Україна

51 838,5

52 056,6

52 114,4

51 297,1

50 370,8

49 429,8

м. Київ

2 624,4

2 651,3

2 653,5

2 638,7

2 629,3

2 631,9

 

2002

2004

2006

2008

2010

2012

2014

2016

48 457,1

47 622,4

46 929,5

46 372,7

45 962,9

45633,6

45 426,2

42 760,5

2 611,3

2 639,0

2 693,2

2 740,2

2 785,1

2 814,3

2 868,7

2 906,6

 

Приклад розв’язання

1.  Для реалізації процедури множинної (багатофакторної) регресії в  MS Excel (2007+) обираємо у меню «Сервис» пакет «Анализ данных» та інструмент аналізу «Регрессия», параметрами якого є масиви і результативного показника. В результаті отримаємо модель множинної лінійної регресії по параметрах хі , а також:

-         коефіцієнт множинної  кореляції R – показує тісноту зв’язку вихідної змінної від вхідних;

-         коефіцієнт детермінації R2 – показує наскільки вихідна змінна, яка визначена на основі побудованої моделі відповідає реальним даним. Якщо R2 близький до 0, то це означає низьку значимість моделі, відсутні лінійна залежність між параметрами.

-         стандартна помилка - показує середню величину відхилення вихідної змінної y*, яка обрахована на основі моделі, від наявних статистичних значень вихідної змінної y.

-         F-тест та t-тест проводять для оцінки значущості моделі. Для цього використовують порівняння так званих фактичних та табличних (теоретичних) значень F-критерію (критерій Фішера) та t-критерію (критерій Стьюдента).

t-тест (або t-критерій) досліджує лінійну залежність між кожною окремою вхідною змінною (Xi) і вихідною змінною (Y), F-тест (або F-критерій) досліджує лінійну залежність для всієї моделі, тобто між НАБОРОМ вхідних змінних (X1, X2,..., Xn) та вихідною змінною (Y) рис.1.

Рис.1. Пояснення критерію Фішера та Стьюдента.

 

Табличні (критичні) значення F-критерію можна визначити або зі спеціальної таблиці, або за допомогою функції FРАСПОБР в Excel:

1.    Стаємо в будь-яку комірку.

2.    Запускаємо функцію FРАСПОБР і задаємо:

·         «Вероятность» – 0,05

·         «Степени_свободы1» – m (m – кількість вхідних змінних Xi).

·         «Степени_свободы1» – n-m-1 (n – кількість спостережень).

Якщо, Fфакт>Fтабл, то між усіма вхідними змінними в цілому та вихідною змінною існує лінійна залежність. Також кажуть, що лінійна модель є значущою.

В t-тесті потрібно співставити фактичні  t-критерії та критичний (табличний) t-критерій. Якщо |tфакт|>tкрит для конкретної змінної, то кажуть, що змінна статистично значуща або між даною змінною та вихідною змінною існує лінійний зв’язок.

Обчислення  tкрит  можна робити за допомогою спеціальних таблиць або функції СТЬЮДРАСПОБР.

Стаємо у будь-яку комірку і запускаємо функцію СТЬЮДРАСПОБР:

-  «Вероятность» – 0,05

-   «Степени_свободы» – n-m-1 (n – кількість спостережень, m – кількість вхідних змінних Xi).

В результаті отримуємо, що tкрит і порівнюємо з tфакт для кожної окремої змінної Хі..

2. Для знаходження нелінійного однофакторного рівняння регресії, необхідно побудувати точковий графік по заданих факторних і результативних даних (хі, yi) , поставити курсор на будь-яку точку та натиснути праву кнопку миші. У меню, яке після цього з’являється на екрані, обрати команду «Добавить линию тренда». У діалоговому вікні вибрати тип лінії тренду:

-   лінійна;

-   логарифмічна

-   поліноміальна (вибрати степінь полінома)

-   степенева

-   експоненційна.

В підменю «Параметры»  відмітити команду «показывать уравнение на диаграмме» та «поместить на диаграму величину достоверности аппроксимации (R^2)». На графіку отримаємо вид рівняння регресії і значення коефіцієнта детермінації  рис.1.

 

Рис.1. Визначення рівняння нелінійної регресії в функції «Лінія тренду»

 

Підставивши в отримане рівняння значення факторного параметра хі отримаємо теоретичні значення  залежної змінної . Порівняти якість отриманої моделі з різними типами ліній регресії можна порівнявши суми квадратів відхилень результативних даних  і теоретичних, отриманих з рівняння регресії :  менше значення відхилень показує кращу якість апроксимації.

 

Контрольні запитання

1.  Одно- і багатофакторна регресійна залежність.

2. Лінійна і нелінійна регресійна залежність.

3. Вибір виду функції регресії.

4. Зведення нелінійних апроксимуючих функцій до лінійного вигляду.

5. Застосування методу МНК для побудови множинної лінійної регресії.

6. Оцінка F-тесту  множинної кореляції.

7. Оцінка t -тесту  множинної кореляції.

8. Визначення рівняння нелінійної регресії за допомогою трендів.

9. Порівняння якості різних типів ліній регресії.