Практична робота № 6

Парна Лінійна регресія

Мета: набуття навичок апроксимації множини статистичних параметрів рівнянням лінійної регресії.

 

Основні відомості

Зв’язки між вхідними і вихідними даними довільної системи можуть бути функціональними і статистичними. Статистичною називають залежність, при якій зміна однієї з величин веде до зміни розподілу іншої, зокрема кореляційним називається зв’язок між статистичними змінними Х і Y, за якими при зміні ознаки Х змінюється середнє значення ознаки Y. Строга функціональна залежність зустрічається рідко, оскільки вхідні і вихідні величини підпадають під дію випадкових впливів (факторів). Встановлення функціональної залежності змінних моделі за результатами спостережень називають апроксимацією.

Регресійний аналіз полягає у визначенні аналітичного виразу зв'язку між масивами випадкових даних (вхідних і вихідних параметрів системи) у вигляді рівняння регресії  – це рівняння, що описує кореляційну залежність між вихідними параметром і одним або декількома вхідними. Найпростішою буде парна залежність, коли є один вхідний аргумент. Якщо ж аргументів більше, ніж один, то залежність називається множинною.

Якщо функція задана таблицею, то задача апроксимації полягає у визначенні аналітичного виразу функції, значення якої при  мало відрізнялись би від табличних даних. Геометрично задача апроксимації полягає в проведенні графіка функції f(x) якомога ближче до системи точок .

Побудова емпіричної функції складається з двох етапів:

– вибору загального виду цієї функції;

– визначення кращих її параметрів.

 

Порядок розв’язання

1.Визначення тісноти лінійного взаємозв’язку між вхідними і вихідними даними системи за допомогою кореляційно-регресійного аналізу.

Нехай деяка парна залежність результативної величини від факторної задана таблицею значень для n дослідів.

Таблиця 1

№ досліду

1

2

N

Вхідна величина

Х1

Х2

Хв.

Вихідна величина

Y1

Y2

Yn

 

Припустимо існування лінійної залежності між вхідними і вихідними змінними: .

Для виявлення сили взаємозв’язку між вхідними і вихідними параметрами в обчислюється парний коефіцієнт лінійної кореляції.

Використовуючи MS Excel за допомогою спеціальної функції КОРРЕЛ (меню Статистичні функції) з параметрами:

- Масив 1 – масив вхідних даних;

- Масив 2 – масив вихідних даних

отримуємо значення коефіцієнта кореляції R в межах від 0 до ±1. Якщо коефіцієнт кореляції дорівнює нулю, то зв'язок відсутній, а якщо одиниці, то зв’язок функціональний. Знак при коефіцієнті кореляції вказує на напрям зв’язку ("+" − прямий, "-" − обернений). Функціональна залежність вважається значимою при , тобто існує лінійний взаємозв’язок між параметрами.

Величина коефіцієнта кореляції

Характер зв’язку

до ± 0,3

Практично відсутній

± 0,3 - ± 0,5

Слабкий

± 0,5 - ± 0,7

Помірний

± 0,7 - ± 1,0

Сильний

 

2. Визначимо параметри рівняння регресії  теоретично і засобами MS Excel.

2.1. Для розрахунку параметрів a i b вибраної емпіричної функції скористаємося методом найменших квадратів МНК і методом двох точок.

Для знаходження коефіцієнтів a i b методом найменших квадратів необхідно скласти систему рівнянь часткових похідних по незалежних змінних a i b функції суми квадратів різниць значень функції і табличних даних. Для нашого випадку − розв’язати систему двох рівнянь:

Підставивши значення  знайдемо значення коефіцієнтів лінійної залежності a i b. Запишемо вираз для лінійної залежності .

2.2. Для знаходження коефіцієнтів a i b методом двох точок необхідно на заданому відрізку змінних  обрати дві точки, які достатньо надійні і, за можливістю, далеко розташовані одна від одної, наприклад, крайні точки з координатами  і і скласти систему двох рівнянь підставивши значення даних точок в вибрану функцію :

В результаті розв’язання отримаємо апроксимуючу функцію .

2.3. Порівняємо точність визначення коефіцієнтів апроксимуючої функції двома методами. Знайдемо відхилення значень теоретичних функцій  і  від табличних значень обрахувавши суму квадратів відповідних різниць:

,

При меншому значенні абсолютної похибки функція краще відображає вихідні дані задачі. Для наочності зобразити графіки вхідних даних і обох функцій  і .

2.4. Для таблиці даних, що описують деякий процес і представлених діаграмою, у MS Excel є ефективний інструмент регресійного аналізу – додавання лінії тренду до графіка залежності результативних даних від факторних, що дозволяє:

- будувати на основі методу найменших квадратів і додавати в діаграму п'яти типів регресій, що з тим чи іншим ступенем точності моделюють досліджуваний процес;

- додавати до діаграми рівняння побудованої регресії;

- визначати ступінь відповідності обраної регресії відображуваним на діаграмі даним.

Покажемо наявність взаємозв’язку між масивами xі та yі у вигляді графіка, для чого використаємо «Мастер діаграм – Тип – Точкова».

Для того, щоб на графіку додати лінію регресії, необхідно поставити курсор на будь-яку точку графіка та натиснути праву кнопку миші. У меню, яке після цього з’являється на екрані, обрати команду «Додати лінію тренду». У діалоговому вікні вибрити тип «Лінійна», зайти в підменю «Параметри» та відмітити команду «Показувати рівняння на діаграмі».

В результаті на графіку буде зображено кореляційне поле, лінію регресії та виведено лінійне рівняння регресії. Лініями тренду можна доповнити ряди даних, представлені на діаграмах типу графік, гістограма, плоскі ненормовані діаграми з областями, лінійчаті, крапкові, бульбашкові і біржові. Не можна доповнити лініями тренду ряди даних на об'ємних, нормованих, пелюсткових, кругових і кільцевих діаграмах.

Рис 1. Визначення рівняння регресії за допомогою трендів.

 

2.5. Для реалізації процедури регресія в MS Excel (2007+) існує пакет функцій регресійного аналізу даних.

Для розв’язання завдання обираємо у меню «Сервіс» пакет «Аналіз даних» та інструмент аналізу «Регресія», параметрами якого є масиви факторного і результативного показника xі та yі.

Рис.2.Розрахунок параметрів регресійно-кореляційного аналізу.

Результати регресійного аналізу показані на рис. 2. Тут розраховані наступні дані:

- коефіцієнти регресії (на рис. комірки В17, В18) ;

- лінійний коефіцієнт кореляції (А4) R=0,98;

- коефіцієнт детермінації (А5) (показує що зміна y зумовлюється зміною х на 96%);

- стандартна помилка (А7) = 0,27;

- кількість спостережень (А8) =20;

Рис. 3. Графік вхідних значень результативного фактору y та передбачених значень згідно рівняння регресії.

 

Завдання для самостійного розв’язання

Нехай задана таблиця замірів часу на обслуговування клієнтів в супермаркеті в залежності від кількості товарів в їх кошиках:

- визначити коефіцієнт кореляції між факторними і результативними змінними, зробити висновок про тісноту зв’язку між ними;

- знайти рівняння лінійної регресії залежності часу обслуговування клієнта від кількості товару різними способами;

- порівняти отримані регресійні моделі, обчисливши для кожної величину відхилень теоретичних значень функції від табличних даних .

Кі-сть товарів, шт.

Час на обслуг., с

Кі-сть товарів, шт.

Час на обслуг., с

Кі-сть товарів, шт.

Час на обслуг., с

10

56

1

20

1

30

6

65

7

29

1

55

10

55

16

79

7

149

41

142

1

12

39

238

1

32

22

135

13

60

52

142

7

35

28

95

9

66

9

65

1

23

20

305

12

88

42

133

23

106

3

50

6

50

3

27

38

171

1

39

3

53

16

129

9

46

4

52

12

74

12

82

 

По виду знайденої лінійної залежності  робимо висновки:

а – вказує на час (секунди), які затрачуються на сканування штрих-коду одного товару;

b – час, який йде на отримання готівки за покупку чи опрацювання кредитної картки клієнта. Також сюди може входити пакування працівником супермаркету товарів, куплених клієнтом.

З цього випливає, що мінімальний час обслуговування одного клієнта з одним товаром складає , с. (Отримані дані є усередненими).