Тема: Парна регресії в фінансовому прогнозуванні.
Мета роботи: отримання практичних навичок регресійного
аналізу для автоматизованого
пошуку раніше невідомих
закономірностей даних з подальшим використанням отриманої інформації для підготовки
управлінських рішень на основі
побудованого прогнозу .
Обладнання: ПК.
Програмне забезпечення для ЕОМ: MS Excel, MathCAD, Statistica 5.0 for Windows, система GRETL.
Теоретичні відомості про лінійний регресійний аналіз
Метою регресійного аналізу є оцінка функціональної
залежності
Формула (4.2) представляє собою лінійну
модель множинної регресії.
де y — фактичне
значення результативного признака;
ai – параметр регресійної моделі;
Оцінювання параметрів лінійної моделі засноване
на звичайному або однокроковому методі найменших
квадратів (1МНК або OLS - Ordinary Least
Squares).
Цей метод дозволяє
отримати такі оцінки параметрів,
при яких сума квадратів відхилень фактичних значень
результативної ознаки (y) від розрахункових (теоретичних) мінімальна, формула (4.3).
Статистичне моделювання зв'язку методом лінійного регресійного
аналізу здійснюється в 3 етапи:
a)
Оцінка параметрів лінійної регресійної моделі
методом 1МНК
Вектор оцінок параметрів
моделі (4.1) визначається виразом
(4.4).
b)
Перевірка адекватності регресійної моделі (перевірки
значущості індивідуальних оцінок коефіцієнтів моделі
за допомогою t-критерію Стьюдента та оцінка значимості
рівняння регресії в цілому за допомогою F-критерію
Фішера)
На першому кроці перевірки адекватності (якості)
моделі оцінюється істотність впливу кожної пояснюватиме перемінної
де
На другому кроці перевірки
адекватності моделі оцінюється її значимість (придатність) в цілому,
використовуючи показники: F-критерій Фішера, формула (4.6), коефіцієнт
детермінації, формула (4.7), (Unadjusted R2 і Adjusted R2), сума квадратів
залишків (RSS Sum of squared residuals), стандартна помилка регресії (Standard
error of residuals), інформаційні критерії (Akaike information criterion,
Schwarz Bayesian criterion, Hannan-Quinn criterion).
Значимість регресії перевіряється
шляхом перевірки нульової гіпотези про рівність нулю всіх параметрів моделі (для
обраного рівня значущості).
де
k - число коефіцієнтів факторів.
При
аналізі адекватності рівняння регресії досліджуваного процесу можливі наступні варіанти:
-
Побудована модель на основі її перевірки за F-критерієм Фішера в цілому
адекватна, і всі коефіцієнти регресії значущі. Така модель може бути
використана для прийняття рішень до здійснення прогнозів.
-
Модель по F-критерієм Фішера адекватна, але частина коефіцієнтів регресії
незначущі. У цьому випадку модель придатна для прийняття деяких рішень, але не
для виробництва прогнозів.
-
Модель по F-критерієм Фішера адекватна, але всі коефіцієнти регресії незначущі.
Тому модель повністю вважається неадекватною. На її основі не приймаються
рішення і не здійснюються прогнози.
с) Аналіз
виконання передумов 1МНК (умов Гаусса-Маркова).
Регресійний
аналіз лінійних функцій, заснований на звичайному або однокроковому методі
найменших квадратів (1МНК) повинен задовольняти чотирьом умовам
Гаусса-Маркова:
1.
Математичне очікування випадкової складової, М(ui) в будь-якому спостереженні має дорівнювати нулю.
2.
Дисперсія випадкової складової повинна бути постійна для всіх спостережень.
Якщо ця умова не дотримується, то має місце гетероскедастичності. Наявність
гетероскедастичності можна визначити за допомогою тесту Уайта, який дозволяє
перевірити значущість регресії квадратів залишків щодо комплексу змінних моделі
та їх квадратів. При цьому формулюється нульова гіпотеза про гомоскедастічності
залишків (рівність нулю всіх коефіцієнтів моделі).
3.
Відсутність систематичного зв'язку між значеннями випадкової складової ui в будь-яких двох
спостереженнях. Відсутність автокореляції залишків.
Автокореляція
залишків означає наявність кореляції між залишками поточних і попередніх
(наступних) спостережень. Оцінити цю залежність можна обчисливши коефіцієнт
кореляції між цими залишками за формулою (4.8).
4.
Випадкова характер
залишків. Випадкова складова повинна бути розподілена
незалежно від змінних yi і xi.
Опис
засобів системи GRETL для виконання регресійного аналізу
Оцінка параметрів регресійної моделі методом 1МНК (OLS) та перевірка
адекватності моделі
У пакеті програм
GRETL параметри моделі
можна оцінити із застосуванням
методу найменших квадратів,
зокрема, однокрокового 1МНК (Ordinary Least Squares - OLS) для оцінки лінійних
регресійних моделей для зрізів даних (cross-sectional data type).
Вікно специфікації моделі, що оцінюється із застосуванням 1МНК, викликається функцією меню Model\Ordinary Least Squares ...
В цьому вікні Y (Dependent variable) вибирається за допомогою кнопки «Choose», а пояснюючі змінні (Independent variable) - за допомогою кнопки "Add".
Приклад 1
Відкриємо вбудований набір даних attend.gdt на закладці Wooldridge (File\Open Data\Sample File\ attend.gdt) і звернемося до
функції Model\Ordinary Least Squares, щоб побудувати лінійну регресійну модель, що відображає
залежність змінної Final (оцінка за підсумковий
іспит) від змінних attend (число відвіданих
занять), termGPA (середній бал за
семестр), priGPA (середній бал на
початок семестру), ACT (оцінка за вступного тесту ACT), hwrte (відсоток зданих домашніх робіт). У вікні специфікації моделі
виберемо відповідні залежну і незалежні змінні за допомогою кнопок «Choose" і "Add", потім
натиснемо кнопку ОК (рис 4.1).
Рисунок 4.1 –
Вікно специфікації моделі із застосуванням 1МНК
Отримані результати представлені
на рис. 4.2. За
даними спостережень attend.gdt
була складена модель
(4.9).
Розглядаючи значення параметрів моделі для даної
окремої вибірки, можна
відзначити істотність залежності
змінної final від
змінних termgpa (сильний позитивний зв'язок, 3,54) і ACT (позитивний зв'язок 0,272), інші коефіцієнти мають значення близькі до
0 і не роблять істотного впливу на результуючу
ознаку. Необхідно встановити наскільки ймовірно, що залежність, подібна знайденої, підтвердиться на даних
іншої вибірки, витягнутої з
тієї самої генеральної
сукупності, тобто чи можна властивості даної
вибірки перенести на всю генеральну сукупність.
Рисунок 4.2 –
Вікно результатів моделювання із застосуванням 1МНК
Розглянемо
сутність показників (таблиця 4.1), які використовуються в таблиці регресії
вікна результатів моделювання (рис. 4.2):
Таблиця 4.1- Показники таблиці
регресії
Variable - |
незалежна змінна, істотність впливу якої необхідно оцінити. |
Coefficient- |
коефіцієнт (параметр) моделі |
Std. Error- |
стандартна помилка параметра моделі, є оцінкою середньоквадратичного відхилення параметра регресії від його дійсного значення, дає загальну оцінку ступеня точності параметра. |
T-STATISTIC- |
розрахункові значення t-критерію Стьюдента,
відношення значення параметра |
P-value- |
показує ймовірність того, що відповідне значення критерію для генеральної сукупності може виявитися більше, ніж розрахункове значення по розглянутій вибірці. Якщо p-value не перевищує рівень значимості, то коефіцієнт є значимим і приймається альтернативна гіпотеза. |
Mean of dependent variable- |
cереднеє значення залежної змінної (y). |
Standard deviation of dep. var.- |
стандартне (середньоквадратичне) відхилення залежної змінної (y) - корінь квадратний з дисперсії, міра розкиду даних. |
Sum of squared residuals - |
сума квадратів залишків (RSS = |
Standard error of residuals- |
стандартна помилка регресії (середньоквадратичне відхилення помилки), оцінює ступінь відповідності моделі емпіричним даним і якість оцінювання; вимірює величину квадрата помилки, що припадає на одну ступінь свободи моделі (RSS2\(n-k))1\2. |
Unadjusted R2- |
нескоригований коефіцієнт детермінації - показує частку поясненої (рівнянням регресії) дисперсії залежної змінної y, формула (7). |
Adjusted R2 - |
скоригований коефіцієнт детермінації, який використовується при необхідності обліку кількості спостережень і оцінюваних параметрів, щоб забезпечити порівнянність різних моделей. |
F-statistic- |
розрахункове значення F-критерію Фішера, формула (6), відношення поясненої суми квадратів (в розрахунку на одну незалежну змінну) до залишкової суми квадратів (в розрахунку не одну ступінь свободи) |
Log-likelihood - |
логарифмічна функція правдоподібності. Функція правдоподібності - це щільність розподілу y. |
Akaike information criterion- |
інформаційний критерій Акайке, аналізує правильність специфікації моделі. Дозволяє вибирати найкращу модель з безлічі різних специфікацій. |
Schwarz Bayesian criterion- |
інформаційний байєсівський критерій Шварца, аналізує правильність специфікації моделі, дозволяє вибирати найкращу модель з безлічі різних специфікацій. |
Hannan-Quinn criterion- |
інформаційний критерій Хенна - Куїнна, аналізує правильність специфікації моделі |
OLS |
1МНК |
Model 2: estimates using 674 observations
from 1-680 |
модель2: використовує для оцінки 674 спостереження з 680 |
Missing or incomplete observations dropped |
число пропущених спостережень |
Dependent
variable |
залежна змінна (y) |
Приклад перевірки адекватності регресійної моделі
1.
Крок. Оцінимо суттєвість впливу кожної пояснюватиме
змінної (attend, termGPA, priGPA, ACT, hwrte згідно з наведеним вище наприклад, формула (4.9), на залежну
змінну final, для цього необхідно
оцінити значимість отриманих параметрів (рис. 4.2), використовуючи t-критерій
Стьюдента.
Сформулюємо нульову гіпотезу про не
значущості коефіцієнта (= 0, і лише в силу випадкових обставин виявився рівним
величині, що перевіряється) та альтернативну - про ai ≠ 0), а також виберемо рівень значимість
(1%, 5%, або 10% (максимально допустима ймовірність помилкового прийняття
альтернативної гіпотези).
У оцінюваної моделі (формула 4.9) (рис. 4.2)
суттєві параметри при рівні значущості 1% позначені ***, 5% - **, 10% - *.
Позначення зірочками полегшує швидке оцінювання значущості параметрів. В
розглянутому прикладі істотними є тільки константа const і коефіцієнти
при змінних termGPA і ACT (у всіх трьох
випадках ймовірність помилки при прийнятті гіпотези про їх значущість P-VALUE =
0,001%)).
В останньому стовпчику представляється
емпіричний рівень значущості P-VALUE (ймовірність допустити помилку при
прийнятті альтернативної гіпотези, тобто ймовірність того, що значення
t-критерію для генеральної сукупності перевищить його розрахункове значення по
даній вибірці), який дозволяє перевірити гіпотези про значимість кожного
коефіцієнта і здійснити відбір істотних (P-value менше обраного
рівня значущості) і найбільш слабких змінних моделі (P-value більше
обраного рівня значущості). У розглянутому прикладі найслабкішої є змінна PriGPA - ймовірність помилки при прийнятті гіпотези про її значимості
86,5%, на яку також вказує повідомлення в останньому рядку вікна.
Значення стовпця Т-Stat (рис. 4.2), що
представляють собою відношення відповідних величин у стовпцях COEFFICIENT і
STDERROR, показують розрахункові значення t-критерій Стьюдента. Згідно з
методом відбору пояснюючих змінних a posteriori передбачається виключення змінних з мінімальними (по модулю)
значенням t-критерію, в даному випадку - змінних attend, priGPA, і hwrte.
2 Крок. Оцінимо значимість (придатність)
моделі (формула 9) у цілому, використовуючи показники: F-критерій Фішера,
коефіцієнт детермінації (Unadjusted R2
і Adjusted R2), сума квадратів залишків (RSS, Sum of squared residuals), стандартна помилка
регресії (Standard error of residuals), інформаційні критерії (Akaike information criterion, Schwarz Bayesian criterion, Hannan-Quinn criterion).
У розглянутому прикладі F-критерій
Фішера F-statistic (5, 668) = 66,6869 для
p-value <0,00001. Оскільки p-value менше обраного рівня значущості (p = 1%) приймається рішення
про прийняття альтернативної гіпотези, тобто про адекватність моделі в цілому.
Однак R2 = 33,3%, що свідчить про
невисокий рівень пояснення моделлю фактичних даних, проте згідно F-тесту, він
може бути визнаний досить істотним.
Т.ч. в результаті аналізу даної моделі
на адекватність можна зробити висновок: модель за F-критерієм Фішера адекватна,
але три коефіцієнти регресії (при змінних attend, priGPA, і hwrte) незначущі. У цьому
випадку модель придатна для прийняття деяких рішень щодо залежності змінної
final від змінних termgpa і ACT, але не для
виробництва прогнозів.
Приклад 2
Згідно вищевикладеним рекомендаціям
виключимо з отриманої в Прикладі 1. моделі, формула (9), змінні attend, priGPA, і hwrte і повторимо розглянуту послідовність дій для отримання лінійної
регресійної моделі, яка встановлює залежність змінної FINAL від ACT і termgpa. Отримаємо скориговану модель final = 10,8 +0,339 ACT + 2,87
termgpa + u (рис. 4.3), в якій всі змінні істотні і модель в цілому придатна
для практичного використання (згідно розглянутим вище критеріям) для прийняття
рішень та складання прогнозів.
Рисунок 4.3 -
Вікно результатів моделювання із застосуванням 1МНК, скорегована модель
Збережемо значення залишків даної моделі як окрему змінну
RESIDUALS набору attend.gdt за допомогою функції Save\Residuals вікна результатів моделювання (рис. 4.3). Після натискання
кнопки ОК діалогового
вікна, дана змінна додасться в список
змінних аналізованого набору даних attend.gdt. Аналогічним
чином збережемо модельні
значення результативної ознаки (final) як FITSfinal за
допомогою функції Save\Fitted Values.
Приклад побудови графіка регресійної
моделі
Для графічного відображення фактичних і модельних даних розглянутого
Приклада 2. необхідно
звернутися до команди Graphs\Fitted, Actual Plot\Against ACT and
Termgpa вікна результатів моделювання (рис. 4.3).
Отримаємо графічне зображення фактичних
і модельних даних (рис. 4.4). Лівою кнопкою
миші можливо обертати
дане зображення для зручності перегляду.
Рисунок 4.4 –
Вихідні данні та графік функції final= 10,8+0,339ACT+ 2,87termgpa+u
Аналіз
виконання передумов 1МНК
Перевіримо умови Гаусса-Маркова за
допомогою інструментарію GRETL для даних прикладу 2:
1.
Нульова середня величина (математичне
очікування) залишків, М(ui) = 0.
Для перевірки цього твердження виберемо
клацанням миші раніше створену змінну RESIDUALS в списку змінних стартового
екрану і звернемося до функції View\Summary Statistics (рис. 4.5), у вікні,
середнє значення залишків (mean) дорівнює 0.
Рисунок 4.5 - Загальна
статистика для змінної RESIDUALS
2.
Перевірка умови гомоскедастичності залишків:
Перевірку можна виконати
у вікні поточної моделі (рис. 4.3), для чого в меню слід
вибрати Tests\heteroskedasticity. Вікно результатів у цьому випадку має вигляд, представлений на рис. 4.6. Значення P-value =
0, 734603 більше
рівня значущості 0,01 свідчить
про те, що нульову
гіпотезу слід прийняти
і умова гомоскедастичності
залишків виконується.
Рисунок 4.6 -
Тест Уайта на гетероскедастичність залишків
3. Відсутність
систематичного зв'язку між значеннями випадкової складової ui в будь-яких двох спостереженнях (відсутність
автокореляції залишків).
Визначимо
наявність автокореляції залишків даної моделі.
Експортуємо
ряд значень створених в Прикладі 2. змінній Residuals (залишки
моделі) в файл Residuals.csv (File\Export data\CSV ..., поставивши прапорець comma (,) у розділі decimal point character). Створимо у файлі Residuals.csv нову
змінну Residuals1, яка відрізняється на один лаг від змінної Residuals (довжина рядів скорочується на одне спостереження), потім
збережемо файл у форматі Residuals.xls. Створимо новий набір даних в Gretl (File\New dataset) і імпортуємо в нього
дані з файлу Residuals.xls (File\Open Data\Import\Excel), відповівши «no» на питання про зміну типу даних.
Розрахуємо
коефіцієнт кореляції між даними змінними, звернувшись до функції View\Correlation matrix, вибравши змінні Residuals і Residuals1. Отримаємо коефіцієнт -0,1488, що свідчить про несуттєву
кореляцію (кореляція вважається сильною, якщо її коефіцієнт вище | 0,6 |).
4.
Випадкова складова повинна бути розподілена
незалежно від змінних x і y (випадковий характер залишків).
Для
перевірки будується графік залежності залишків ui від теоретичних значень
результативної ознаки Y і x.
Способом,
аналогічним описаному вище, побудуємо парну регресію помилки RESIDUALS від
модельних значень результативного ознаки FitsFINAL (рис. 4.7). В результаті
отримаємо нульове значення коефіцієнта і одиничне значення p-value, а також
розташування залишків на графіку у вигляді горизонтальної смуги, що свідчить
про відсутність даної залежності і про випадковий характер залишків.
Рисунок 4.7 -
Перевірка випадкового характеру залишків
Перевірку залежності залишків від змінних termgpa і ACT можна здійснити
з вікна моделі final = 10,8 +0,339 ACT + 2,87 termgpa + u (рис. 4.3), побудувавши відповідні графіки
Graphs\Residual Plot\Against termgpa (Againts ACT) (рисунок 4.8, 4.9 ).
На отриманих графіках залишки також розташовані у вигляді горизонтальних смуг, що свідчить
про відсутність відповідних залежностей.
Рисунок 4.8 -
Графік залежності залишків від змінної termpga
Рисунок 4.9 -
Графік залежності залишків від змінної ACT
З вищесказаного можна встановити, що виконуються
всі передумови для застосування 1МНК для
визначення параметрів даної моделі (отриманої в
прикладі 2.). Побудована
модель final =
10,8 +0,339 ACT + 2,87 termgpa + u на основі її перевірки за F-критерієм
Фішера в цілому
адекватна, і всі коефіцієнти
регресії значущі (в
результаті перевірки за t-критерієм
Стьюдента). Така модель
може бути використана
для прийняття рішень
і здійснення прогнозів.
Порядок
виконання практичної роботи
Завдання 1
1. Відкрити набір даних File\Open Data\Sample File (закладка Wooldridge) відповідно з номером варіанту (рис. 10). Для кожного
варіанта також вказані номери змінних ID # для
y, x1, x2, інформацію про які можна
переглянути, звернувшись до команди Data\Print Description.
2. Провести оцінку параметрів лінійної регресійної моделі методом
1МНК.
3. Оцінити адекватність регресійної моделі в цілому і значимість
її окремих параметрів.
4. Перевірити чи були всі передумови до
того, щоб застосовувати 1МНК
і лінійне рівняння регресії до вихідних даних.
Рисунок 4.10 -
Варіанти завдань: назва файлу на вкладці Wooldridge,
номера варіанту
та змінних.
Завдання 2. Парна регресія
Фірмі “А”
необхідно отримати прогноз обсягів виробництва одягу на 15 кварталів вперед.
Дані про обсяги їх виробництва за попередні 20 кварталів надані в таблиці 4.2
(студент обирає свій варіант із файлу з завданням).
1.
Побудувати рівняння лінійної регресії та знайти нижню та
верхню межу інтервалів прогнозу при прогнозуванні на 15 кварталів. Зробити
висновки про отримані прогнози.
2.
Визначити, чи описує модель лінійної регресії початкові дані,
шляхом проведення тестів рекурсивної оцінки коефіцієнтів регресії, значень Y та
помилок регресії. Зробити висновки та запропонувати альтернативну модель
прогнозування.
Таблиця 4.2 – Поквартальний обсяг виробництва одягу за
варіантами
Порядковий № кварталу |
1
варіант |
2
варіант |
3
варіант |
4
варіант |
5
варіант |
1 |
30 |
33,6 |
45,36 |
44,45 |
42,23 |
2 |
33,81 |
38 |
51,3 |
50,27 |
47,76 |
3 |
34,62 |
39 |
52,65 |
51,6 |
49,02 |
4 |
35 |
39,2 |
52,92 |
51,86 |
49,27 |
5 |
30,72 |
34 |
45,9 |
44,98 |
42,73 |
6 |
33,16 |
37 |
49,95 |
48,95 |
46,5 |
7 |
42,41 |
47 |
63,45 |
62,18 |
59,07 |
8 |
54,17 |
61 |
72 |
68 |
64,6 |
9 |
47,07 |
53 |
71,55 |
70,12 |
66,61 |
10 |
48,42 |
54 |
72,9 |
71,44 |
67,87 |
11 |
50,3 |
50 |
67,5 |
71 |
67,45 |
12 |
48,2 |
54 |
72,9 |
71,44 |
67,87 |
13 |
63,14 |
71 |
80 |
78,4 |
74,48 |
14 |
53,64 |
60 |
81 |
75 |
71,25 |
15 |
57,76 |
60 |
81 |
79 |
75,05 |
16 |
53,07 |
59 |
79,65 |
78,06 |
74,16 |
17 |
56,38 |
63 |
85,05 |
83,35 |
79,18 |
18 |
71,07 |
79 |
106,65 |
100 |
95 |
19 |
79 |
88,48 |
119,45 |
117,06 |
111,21 |
20 |
78 |
87,36 |
117,94 |
115,58 |
109,8 |
Продовження таблиці 4.2 – Поквартальний обсяг
виробництва одягу
Порядковий № кварталу |
6
варіант |
7
варіант |
8
варіант |
9
варіант |
10
варіант |
1 |
21,12 |
35 |
65 |
63 |
69 |
2 |
23,88 |
29 |
69 |
74 |
34 |
3 |
24,51 |
51 |
55 |
42 |
28 |
4 |
24,64 |
37 |
44 |
29 |
38 |
5 |
21,37 |
39 |
37 |
64 |
69 |
6 |
23,25 |
27 |
57 |
44 |
27 |
7 |
29,54 |
27 |
26 |
42 |
65 |
8 |
32,3 |
27 |
63 |
53 |
29 |
9 |
33,31 |
71 |
31 |
33 |
66 |
10 |
33,94 |
39 |
48 |
35 |
50 |
11 |
33,73 |
40 |
39 |
52 |
43 |
12 |
33,94 |
39 |
61 |
42 |
38 |
13 |
37,24 |
37 |
46 |
43 |
44 |
14 |
35,63 |
74 |
62 |
38 |
38 |
15 |
37,53 |
29 |
60 |
66 |
50 |
16 |
37,08 |
67 |
44 |
54 |
56 |
17 |
39,59 |
47 |
47 |
51 |
27 |
18 |
47,5 |
55 |
69 |
54 |
54 |
19 |
55,61 |
69 |
72 |
33 |
35 |
20 |
54,9 |
69 |
40 |
42 |
64 |
Продовження таблиці 4.2 – Поквартальний обсяг
виробництва одягу
Порядковий № кварталу |
11
варіант |
12
варіант |
13
варіант |
14
варіант |
15
варіант |
1 |
71 |
54 |
29 |
41 |
32 |
2 |
40 |
59 |
35 |
57 |
58 |
3 |
61 |
57 |
68 |
46 |
62 |
4 |
45 |
65 |
43 |
75 |
29 |
5 |
53 |
61 |
58 |
51 |
63 |
6 |
33 |
59 |
64 |
61 |
56 |
7 |
29 |
30 |
67 |
51 |
52 |
8 |
63 |
43 |
54 |
27 |
70 |
9 |
33 |
37 |
40 |
55 |
57 |
10 |
59 |
28 |
61 |
37 |
71 |
11 |
63 |
69 |
35 |
51 |
43 |
12 |
30 |
51 |
39 |
73 |
68 |
13 |
45 |
33 |
69 |
38 |
45 |
14 |
40 |
52 |
27 |
35 |
70 |
15 |
29 |
44 |
55 |
43 |
34 |
16 |
55 |
36 |
33 |
60 |
41 |
17 |
27 |
43 |
35 |
36 |
32 |
18 |
28 |
27 |
37 |
27 |
36 |
19 |
60 |
28 |
44 |
40 |
42 |
20 |
67 |
47 |
73 |
44 |
34 |
Методичні
вказівки до виконання завдання 1
Приклад: дані про обсяги виробництва за попередні 18
кварталів надані в таблиці 4.3.
Таблиця 4.3 – Обсяги виробництва за попередні 18
кварталів
Порядковий № кварталу, X |
Об'єм виробництва, Y |
1 |
27,45 |
2 |
33,81 |
3 |
34,62 |
4 |
36,2 |
5 |
30,72 |
6 |
33,16 |
7 |
42,41 |
8 |
54,17 |
9 |
47,07 |
10 |
48,42 |
11 |
50,3 |
12 |
48,2 |
13 |
63,14 |
14 |
53,64 |
15 |
57,76 |
16 |
53,07 |
17 |
56,38 |
18 |
71,07 |
Знайдемо рівняння
лінійної регресії за формулою:
Для знаходження рівняння можна скористуватися можливістю
табличного процесора, яка полягає в побудові лінійного тренду і виводу його
рівняння при побудові графіку початкових даних. В результаті отримано рівняння
регресії, що має вигляд: y = 2,0557x + 27,226. Підставив значення Х в рівняння,
отримаємо прогноз на 22 квартали вперед. Результат представлений в таблиці 4.4.
Таблиця 4.4 – Прогноз обсягів виробництва на 22 квартали
вперед
Порядковий № кварталу, Х |
Об'єм виробництва, Y |
Змодельовані значення, |
1 |
27,45 |
29,28 |
2 |
33,81 |
31,34 |
3 |
34,62 |
33,39 |
4 |
36,2 |
35,45 |
5 |
30,72 |
37,50 |
6 |
33,16 |
39,56 |
7 |
42,41 |
41,62 |
8 |
54,17 |
43,67 |
9 |
47,07 |
45,73 |
10 |
48,42 |
47,78 |
11 |
50,3 |
49,84 |
12 |
48,2 |
51,89 |
13 |
63,14 |
53,95 |
14 |
53,64 |
56,01 |
15 |
57,76 |
58,06 |
16 |
53,07 |
60,12 |
17 |
56,38 |
62,17 |
18 |
71,07 |
64,23 |
19 |
|
66,28 |
20 |
|
68,34 |
21 |
|
70,40 |
22 |
|
72,45 |
23 |
|
74,51 |
24 |
|
76,56 |
25 |
|
78,62 |
26 |
|
80,67 |
27 |
|
82,73 |
28 |
|
84,79 |
29 |
|
86,84 |
30 |
|
88,90 |
31 |
|
90,95 |
32 |
|
93,01 |
33 |
|
95,06 |
34 |
|
97,12 |
35 |
|
99,18 |
36 |
|
101,23 |
37 |
|
103,29 |
38 |
|
105,34 |
39 |
|
107,40 |
40 |
|
109,45 |
Для знаходження інтервалу прогнозування скористуємося
наступними формулами:
|
(4.10) |
де
n – період, за який надано початкові
дані;
an-2
– значення t-критерія Ст’юдента;
|
(4.11) |
|
(4.12) |
s – стандартна помилка регресії, яка
визначається:
|
(4.13) |
де е – залишки моделі.
В результаті застосування наведеної формули для даних
прикладу було визначено інтервали прогнозування. Для розрахунку було визначено:
n = 18;
an-2
= 2,12;
s = 5,28;
Sxi
= 484,50
Результати розрахунку інтервалів
представлені в таблиці 4.5.
Таблиця 4.5 – Інтервали прогнозування
Порядковий № кварталу |
Об'єм виробництва |
Змодельовані значення |
Нижня межа інтервалу прогнозу |
Верхня межа інтервалу прогнозу |
1 |
27,45 |
29,28 |
|
|
2 |
33,81 |
31,34 |
|
|
3 |
34,62 |
33,39 |
|
|
4 |
36,2 |
35,45 |
|
|
5 |
30,72 |
37,50 |
|
|
6 |
33,16 |
39,56 |
|
|
7 |
42,41 |
41,62 |
|
|
8 |
54,17 |
43,67 |
|
|
9 |
47,07 |
45,73 |
|
|
10 |
48,42 |
47,78 |
|
|
11 |
50,3 |
49,84 |
|
|
12 |
48,2 |
51,89 |
|
|
13 |
63,14 |
53,95 |
|
|
14 |
53,64 |
56,01 |
|
|
15 |
57,76 |
58,06 |
|
|
16 |
53,07 |
60,12 |
|
|
17 |
56,38 |
62,17 |
|
|
18 |
71,07 |
64,23 |
|
|
19 |
|
66,28 |
53,82 |
78,75 |
20 |
|
68,34 |
55,67 |
81,01 |
21 |
|
70,40 |
57,50 |
83,29 |
22 |
|
72,45 |
59,32 |
85,59 |
23 |
|
74,51 |
61,12 |
87,89 |
24 |
|
76,56 |
62,91 |
90,22 |
25 |
|
78,62 |
64,68 |
92,55 |
26 |
|
80,67 |
66,45 |
94,90 |
27 |
|
82,73 |
68,20 |
97,26 |
28 |
|
84,79 |
69,93 |
99,64 |
29 |
|
86,84 |
71,66 |
102,02 |
30 |
|
88,90 |
73,38 |
104,41 |
31 |
|
90,95 |
75,09 |
106,81 |
32 |
|
93,01 |
76,79 |
109,22 |
33 |
|
95,06 |
78,49 |
111,64 |
34 |
|
97,12 |
80,17 |
114,07 |
35 |
|
99,18 |
81,85 |
116,50 |
36 |
|
101,23 |
83,52 |
118,94 |
37 |
|
103,29 |
85,19 |
121,38 |
38 |
|
105,34 |
86,85 |
123,84 |
39 |
|
107,40 |
88,50 |
126,29 |
40 |
|
109,45 |
90,15 |
128,75 |
На рисунку 4.11 представлені
результати отриманих інтервалів прогнозування. Можна прийти до висновку, що при
збільшенні горизонту прогнозування точність прогнозу зменшується, оскільки його
інтервали розширюються.
Рис.4.11 – Інтервали прогнозування
Для дослідження рівняння лінійної
регресії на предмет її відповідності початковим даним скористуємося тестами
рекурсивної оцінки.
Тест рекурсивної оцінки коефіцієнтів
регресії.
Проведемо ex post прогнози для
початкових даних. Дані розділемо на 2 частини: 13 і 5 кварталів. Спочатку
знайдемо рівняння регресії для перших 13 кварталів і визначемо параметри b1 і
b2 рівняння регресії. Потім аналогічно знайдемо коефіцієнти регресії для перших
14, …, 17 кварталів. За приведеними нижче формулами (4.14) і (4.15) визначемо
95% довірчі інтервали для b1 і b2:
|
(4.14) |
|
(4.15) |
Результати проведених розрахунків
наведені в таблиці 4.6.
Таблиця 4.6 – Тест рекурсивної оцінки
коефіцієнтів регресії
Початкові дані |
b1 |
b2 |
95% довірчі інтервали для b1 |
95% довірчі інтервали для b2 |
||
нижня |
верхня |
нижня |
верхня |
|||
13 кв |
25,4 |
2,4 |
18,3 |
32,5 |
1,5 |
3,3 |
14 кв |
26,2 |
2,3 |
20,0 |
32,4 |
1,5 |
3,0 |
15 кв |
26,5 |
2,2 |
20,8 |
32,2 |
1,6 |
2,8 |
16 кв |
27,6 |
2 |
21,8 |
33,3 |
1,4 |
2,6 |
17 кв |
28,2 |
1,9 |
22,7 |
33,7 |
1,4 |
2,4 |
Динаміка
змін b2 і відповідних 95%-ких інтервалів для b2
представлені на рис. 4.12.
Рис. 4.12
– Динаміка змін b2 і відповідних 95%-ких інтервалів для b2
Для
кожного значення k (13 £ k £ 17) відповідний 95%-кий інтервал з центром в b2(k)
з вірогідністю 95% містить параметр b2. Оскільки b2 є
параметром моделі і не залежить від k, то той факт, що смуга на рис. 2 не має
поступальної ходи вгору або вниз, а скоює коливальні рухи навкруги деякого
числа, указує на те, що процес слідує моделі лінійної регресії.
Тест
рекурсивної оцінки значень Y.
В
результаті знайдених рівнянь регресії за 13-17 квартали по ex post прогнозам
визначемо
Таблиця 4.7 – Тест рекурсивної оцінки значень Y
Початкові дані |
Значення Y |
Значення ex post прогнозів Y |
95%рекурсивні інтерва прогнозу ∆ |
|
нижня |
верхня |
|||
14 кв |
53,64 |
59,2 |
46,30 |
72,10 |
15 кв |
57,76 |
60 |
47,40 |
72,60 |
16 кв |
53,07 |
61,65 |
49,70 |
73,60 |
17 кв |
56,38 |
61,75 |
49,40 |
74,10 |
18 кв |
71,07 |
62,45 |
50,30 |
74,60 |
95%-ві
рекурсивні інтервали прогнозу для значень Y представлені на рисунку 4.13.
Рис.
4.13 – 95%-ві рекурсивні інтервали прогнозу для значень Y
Червона
лінія на рис. 4.13 показує значення ex post прогнозів
Тест
рекурсивної оцінки помилок регресії.
На
основі проведеного тесту значень Y визначимо межі для помилок прогнозів. Нижня
межа помилки розраховується шляхом віднімання від нижньої межі інтервалу для Y
значення е. Верхня межа розраховується шляхом віднімання від верхньої межі
інтервалу для Y значення е. Значення е – це помилка, яка розраховується, як Y –
Таблиця
4.8 – Тест рекурсивної оцінки помилок регресії.
Початкові дані |
Значення Y |
Значення ex post прогнозів |
Помилки |
95%рекурсивні інтерва прогнозу ∆ |
Верхні граничні значення 95% інтервалів
прогнозу для помилок (L) |
||
нижня |
верхня |
нижня |
верхня |
||||
14 кв |
53,64 |
59,2 |
-5,56 |
46,30 |
72,10 |
-12,90 |
12,90 |
15 кв |
57,76 |
60 |
-2,24 |
47,40 |
72,60 |
-12,60 |
12,60 |
16 кв |
53,07 |
61,65 |
-8,58 |
49,70 |
73,60 |
-11,95 |
11,95 |
17 кв |
56,38 |
61,75 |
-5,37 |
49,40 |
74,10 |
-12,35 |
12,35 |
18 кв |
71,07 |
62,45 |
8,62 |
50,30 |
74,60 |
-12,15 |
12,15 |
Помилки
ex post прогнозів і відповідні 95%-ві рекурсивні інтервали прогнозу для помилок
е наведені на рисунку 4.14.
Рис. 4.14 – Помилки ex
post прогнозів і відповідні 95%-ві рекурсивні інтервали прогнозу для помилок е
На
рис. 4.14 синя та зелена лінії розташовані симетрично щодо горизонтальної осі,
представляють межі 95%-вих рекурсивних інтервалів прогнозу для помилок е. Самі
помилки представлені лінією між ними. Хоча значення помилок і не виходять за
межі смуги, прогнозист може вирішити, що вони дуже великі. У більшості випадків
вони складають більше 10% від відповідних значень Y. Він може вирішити, що для
отримання більш точного прогнозу потрібно врахувати вплив економічних і інших
умов. Це, у свою чергу, зажадає знання моделі множинної регресії.
Значення
меж не мають поступового руху вгору або вниз, а також значення помилки не
виходить за їх рамки, і тому можна сказати, що процес описується моделлю
лінійної регресії. Даний висновок підтверджується і 2 тестами, зробленими
раніше. Тому побудовану модель можна використовувати для прогнозування обсягів
виробництва.
Контрольні питання:
1.
Який вид має рівняння парної регресії?
2.
Чи описуються Ваші дані лінійною моделлю?
3.
Яким чином проводиться оцінка параметрів лінійної регресійної
моделі?
4.
Яким чином проводиться перевірка адекватності регресійної
моделі?
5.
Яким чином проводиться аналіз виконання передумов 1МНК (умов
Гауса-Маркова)?
6.
Як знаходять нижню та верхню межу інтервалів прогнозу?
7.
Чи підтверджують Ваші висновки тести рекурсивної оцінки?
8.
В чому сутність рекурсивної оцінки коефіцієнтів регресії?
9.
В чому сутність рекурсивної оцінки значення Y?
10.В чому сутність рекурсивної оцінки
помилок регресії?
Бібліографічний
список
1. Себер Дж.
Линейный регрессионный анализ/ Дж. Себер. - М.: Мир, 1980-200c.
2. Демиденко
Е. З. Линейная и нелинейная регрессия/ Е.З. Демиденко.- М.: Финансы и
статистика, 1981 -320c.
3. Куфель Т.
Эконометрика. Решение задач с применением пакета программ GRETL / Т.
Куфель. - М.: Горячая линия – Телеком, 2007. – 200с.
4. Using gretl for Principles of Econometrics, 3rd
Edition Version 1.01 Lee C. Adkins Professor of Economics Oklahoma State
University // http://www.learneconometrics.com/gretl.html
ДОДАТОК А
(довідковий)
Основні описові статистики
Основні статистики для опису змінних
можна отримати різними способами. Наприклад, можна відзначити кілька змінних і
викликати функцію View\Summary Statistics або вибрати в
контекстному меню, викликаному натисканням правою кнопкою миші на вибраній
змінної, команду Summary statistics.
Приклад 1. Відкриємо файл example1.gdt,
виділимо змінні X1 і X2. Отримаємо основні описові статистики для даних
змінних: View\Summary Statistics. Вікно результатів має
такий вигляд (рис. А.1)
Рисунок А.1 -
Основні описові статистики змінних X1 и X2
У вікні результатів подаються:
- середнє арифметичне (mean),
- медіана (median),
- мінімальне (min) і максимальне (max) значення,
- середньоквадратичне відхилення (S.D.),
- коефіцієнт мінливості (варіації) (C.V. = S.D./mean),
- коефіцієнт асиметрії (SKEW = центральний момент третього
порядку/S.D.3) – величина, що характеризує асиметрію розподілу даної
випадкової величини (ступінь асиметричності щільності ймовірності щодо осі, що
проходить через її центр ваги)
Центральний момент третього порядку визначається як математичне
сподівання куба різниці випадкової величини (X1) та її математичного
сподівання.
- Коефіцієнт концентрації (EXCSKURT = центральний момент
четвертого порядку / S.D.4-3) - коефіцієнт ексцесу (kurtosis)
вибірки випадкових даних X1 характеризує ступінь зглаженості щільності
ймовірності навколо головного максимуму. Він показує, наскільки гостру вершину
має щільність ймовірності в порівнянні з нормальним розподілом. Якщо коефіцієнт
ексцесу більше нуля, то розподіл має гострішу вершину, ніж розподіл Гауса, якщо
менше нуля, то більш плоску.
ДОДАТОК Б
(довідковий)
Статистичні таблиці в GRETL
Gretl передбачає
безпосередній доступ до статистичних таблицях. Пакет Gretl містить
вбудовані статистичні таблиці для наступних розподілів: нормального,
t-розподілу Стьюдента, F-розподілу Фішера, хі-квадрат, Пуассона, біноміального
та розподілу Дарбіна-Уотсона.
- Tools\Statistical tables - за допомогою
даної функції можна отримати критичні значення для перерахованих вище критеріїв
шляхом зазначення параметрів (числа ступенів свободи, стандартного відхилення,
середнього і т.д.) і рівня значущості (максимально допустимої ймовірності
помилкового прийняття альтернативної гіпотези).
- Tools\P-value finder дозволяє знайти ймовірність того, що значення критерію буде
перевищувати розрахунковий (p-value).
- Tools\Distribution Graphs виводить
графіки перерахованих вище розподілів
Приклад 2.
1. Виберемо закладку t-розподіл
Стьюдента, введемо число ступенів свободи (5 = число спостережень -1).
Передбачаючи рівень значимості 5%, введемо його половинне значення (0.025),
оскільки критерій двосторонній і натиснемо ОК (рисунок Б.1).
Рисунок Б.1
- Знаходження критичних
значень критерію за заданими рівнем значущості і числу ступенів свободи
Critical
value -
верхнє критичне значення
t-критерію 2,57 (верхня
межа області прийняття гіпотези і критичної області відкидання
гіпотези Ho).
Two-trailed probability -
імовірність того, що значення t-критерію
буде по модулю більше
критичного значення 2,57, тобто знаходитиме в
критичній області, де нульова гіпотеза Ho
відхиляється.
Right-trail probability -
імовірність того, що значення t-критерію
буде більше критичного значення 2,57.
2. Функція Tools\P-value finder дозволяє
знайти ймовірність того,
що значення критерію буде перевищувати зазначену (розрахункове). Введемо число ступенів
свободи (df) 5, а розрахункове значення критерію
(value = 3) перевищує критичне (гіпотеза Ho відхиляється),
тоді в результаті отримаємо значення p-value = 0,03 або 3%
(рис. Б.2). Т.ч.
якщо р-value менше
обраного рівня значимості, то нульова гіпотеза Ho
відхиляється, а якщо
більше - приймається.
Рисунок Б.2 - Знаходження
P-value по розрахунковим значенням критерію і числу ступенів свободи
3. Використовуючи функцію Tools\Distribution Graphs побудуємо графік t-розподілу для
df = 5
ДОДАТОК
В
(довідковий)
побудова графіків
Пакет програм
GRETL володіє великими можливостями побудови графіків.
Найбільш різноманітний перелік можливих графіків
для даних у формі
тимчасових рядів. Графіки будуються із
застосуванням групи функцій View\Graph specified vars \ ....
Функція View\Graph specified vars\3D plot дозволяє створювати тривимірні графіки
і за допомогою миші обертати зображення для
отримання необхідного ракурсу.
Функція View\Multiple Graphs\X-Y scatters ...
дозволяє створювати вікна,
містять декілька графіків. У даному вікні можна
створювати від двох
до шести графіків. Вікно з декількома графіками
може мати тільки одну
категорію X або
Y і не більше шести
інших категорій.
Приклад. 3.
Побудуємо тривимірний
графік, що відображає залежність між змінними Y,
X1 і X2 (файл example1.gdt):
View\Graph specified vars\3D plot. Використовуємо
кнопку Choose для
вибору відповідних змінних і натиснемо кнопку
ОК (рисунок В.1).
Для найкращого розгляду
графіка розгорнемо його за допомогою миші на
90 градусів в горизонтальній
площині (рис. В.2).
Рисунок В.1 -
Побудова тривимірних графіків
Рисунок В.2 - Графічне відображення
залежності між Y, X1 і X2
Побудуємо діаграми розсіювання X1-Y,
X2-Y і X3-Y, звернувшись до функції View\Multiple Graphs\X-Y scatters у вікні виберемо значення відповідних змінних кнопками Choose і Add і натиснемо кнопку ОК
(рисунок В.3). Отримані графіки показані на рис. В.4.
Рисунок В.3 -
Побудова декількох графіків в одному вікні
Рисунок В.4 -
Діаграми рзсіюванняY-X1,Y-X2 и Y-X3