ЛАБОРАТОРНА РОБОТА №5.

Тема. Кластерний аналіз з використанням пакету статистичного аналізу даних Statistica.

Мета: Закріплення теоретичного матеріалу за темою «Використання пакету статистичного аналізу даних Statistica для прийняття управлінських рішень». Набуття практичних навичок роботи в модулі Cluster Analysis пакету Statistica.

Завдання:

1. Побудувати моделі класифікації підприємств, використовуючи метод К-середніх в модулі Cluster Analysis ППП Statistica.

2. Зробити висновки.

Хід роботи.

1. Обрати для дослідження об’єкти (підприємства певної галузі) і показники (наприклад, х₁ – продуктивність праці, х₂ – рентабельність капіталу, х₃ – фондовіддача). Сформувати таблицю даних.

2. Вибрати модуль Cluster Analysis , для чого слід ввійти в позицію меню Statistics / Multivariate Exploratory Techniques / Cluster Analysis. Підтвердити вибір цього модуля.

3. На стартовій панелі модуля вибрати напрям аналізу, тобто метод класифікації: Joining tree clustering (деревоподібна кластеризація); K-means clustering (метод k-середніх); Two-way joining (двовходова кластеризація).

4. Вибрати метод K-means clustering (метод K-середніх), підвердити свій вибір, після чого слід задати параметри для проведення кластеризації: Variable (Змінні), Cluster (Об’єкти кластеризації), Number of clusters (кількість кластерів), Number of iterations (кількість ітерацій), Initial cluster centers (початкові центри кластерів) (рис. 5.1).

Рис. 5.1. Вікно Cluster Analysis: K-means clustering (метод K-середніх)

Кнопка Variables дозволяє вибрати змінні беруть участь у класифікації. Натиснемо на кнопку Variables і виберемо всі змінні Select All.

У рядку Cluster вказується як ведеться класифікація: при запуску встановлено режим Variables (colums) – класифікуються змінні на підставі їхніх спостережень, однак у переважній більшості випадків використовується режим Cases (rows) – класифікуються спостереження. Для того щоб включити режим Cases (rows), треба натиснути на кнопку у кінці рядка, після чого у віконці, підвести курсор на напис Cases (rows) і натиснути ліву кнопку

У рядку Number of iterations вказується кількість ітерацій в розрахунках кластерів. Як правило, встановлених за замовчуванням 10 ітерацій цілком достатньо. У рядку Missing data встановлюється режим роботи з тими спостереженнями (або змінними, якщо встановлено режим Variables (columns) у рядку Cluster) в яких пропущені дані. Якщо встановити режим Subsituted by means (Замінювати на середнє), то замість пропущеного числа буде використано середнє по цій змінній (або спостереженню). Переключення в режим Subsitituted by means виконується аналогічно перемикання в рядку Cluster. Після відповідного вибору натиснемо кнопку OK. Будуть проведені обчислення і з’явиться нове вікно: «K-Means Clustering Results» (рис. 5.2).

Рис. 5.2. Результати застосування методу «K-Means Clustering Results»

Висновок за результатами та їх аналіз.

У верхній частині вікна (у тому ж порядку, як вони йдуть на екрані):

• Кількість змінних.

• Кількість спостережень.

• Класифікація спостережень (або змінних, залежить від установки в попередньому вікні в рядку Cluster) методом K-середніх.

• Спостереження з пропущеними даними видаляються (або: змінюються середніми значеннями. Залежить від установки в попередньому вікні в рядку Missing data).

• Кількість кластерів.

• Розв’язок отримано після: кількість ітерацій.

5. У вікні аналізу результатів у верхній частині буде основна інформація та обрані процедури дослідження, у нижній частині вікна на вкладці Advanced опції, призначені для аналізу результатів кластеризації: Summary: Cluster means & Euclidean distances (евклідові відстані та середні значення станів кластерів); Analysis of variance (дисперсійний аналіз); Graf of means (графік середніх значень); Descriptive statistics for each cluster (описові статистики для кластерів); Members of each cluster & distances (члени кластерів та їх відстані до центру кластера); Save classifications and distances (збереження результатів кластерізації).

6. Ініціювавши клавішу Summary: Cluster means & Euclidean distances, отримаємо евклідові відстані та середні значення станів кластерів. Під головною діагоналлю матриці знаходяться значення евклідових вістаней, а над головною діагоналлю – квадрат еквклідових відстаней (рис. 5.3).

Рис. 5.3. Евклідова відстань у кластерах.

У таблиці (рис. 5.3) наведені відстані між класами. І по вертикалі, і по горизонталі вказані номери кластерів. Таким чином при перетині рядків і стовпців вказані відстані між відповідними класами. Причому вище діагоналі (на якій стоять нулі) вказані квадрати, а нижче просто евклідова відстань.

7. Ініціювавши клавішу Graf of means, отримаємо графік середніх значень для кластерів станів (рис. 5.4).

Graph of means представляє собою графічне зображення інформації, яка міститься в таблиці, що виводиться при натисканні кнопки Analysis of Variance (аналіз дисперсії). На графіку показані середні значення змінних для кожного кластера.

По горизонталі відкладені змінні, що приймають участь в класифікації, а по вертикалі – середні значення змінних у розрізі одержуваних кластерів.

Рис. 5.4. Графічне зображення середньої відстані між кластерами.

8. Ініціювавши клавішу Analysis of variance, отримаємо результати дисперсійного аналізу оцінки якості показників у вигляді таблиці, в якій наведені значення міжгрупових і внутрішньогрупових дисперсій признаків. Чим менше значення внутрішньогрупової дисперсії і більше значення міжгрупової, тим краще ознака характеризує приналежність об’єктів до кластера. Параметри F і p визначають внесок ознаки в класифікацію (рис. 5.5).

Рис. 5.5. Analysis of Variance (аналіз дисперсії).

В рядках – змінні (спостереження), в стовпчиках – показники для кожної змінної: дисперсія між кластерами, число ступенів свободи для міжкласової дисперсії, дисперсія всередині кластерів, число ступенів свободи для внутрікласової дисперсії, F - критерій, для перевірки гіпотези про нерівність дисперсій.

9. Ініціювавши клавішу Descriptive statistics for each cluster, отримаємо описові статистики для виділених кластерів, а саме: середнє, середньоквадратичне відхилення та дисперсія.

10. Ініціювавши клавішу Members of each cluster & distances, отримаємо члени кластерів та їх відстані до центру відповідного кластеру у вигляді таблиці, дані якої дозволяють визначити склад кожного кластеру.

11. Save classifications and distances дозволяє зберегти у форматі програми статистика таблицю, в якій містяться значення всіх змінних, їх порядкові номери, номери кластерів до яких вони віднесені, і евклідові відстані від центру кластера до спостереження. Записана таблиця може бути викликана будь-яким блоком або піддана подальшій обробці

12. Зробити висновки та подати економічну інтерпретацію отриманих результатів кластерних утворень.

Література: [4; 22].