ЛАБОРАТОРНА РОБОТА №3.

 

Тема. Методи та моделі кластерного аналізу.

 

Мета: Закріплення теоретичного матеріалу за темою «Статистичні методи аналізу великих масивів даних». Набуття практичних навичок роботи в модулі Cluster Analysis ППП Statistica.

 

Завдання:

1. Побудувати моделі класифікації підприємств, використовуючи різні методи та стратегії класифікації в модулі Cluster Analysis ППП Statistica.

2. Зробити висновки.

 

Хід роботи.

1)    Обрати для дослідження об’єкти (підприємства певної галузі) і показники (наприклад, х1 – продуктивність праці, х2 – рентабельність капіталу, х3 – фондовіддача). Сформувати таблицю даних.

2)    Вибрати модуль Cluster Analysis , для чого слід ввійти в позицію меню Statistics / Multivariate Exploratory Techniques / Cluster Analysis. Підтвердити вибір цього модуля.

3)    На стартовій панелі модуля вибрати напрям аналізу, тобто метод класифікації: Joining tree clustering (деревоподібна кластеризація); K-means clustering (метод k-середніх); Two-way joining (двовходова кластеризація).

4)    Частина 1. На першому етапі вибрати метод Joining tree clustering (деревоподібна кластеризація), підвердити свій вибір, після чого слід задати параметри для проведення кластеризації: Variable (Змінні), Cluster (Об’єкти кластеризації), Amalgamation rule (Правила кластеризації), Distance measure (Міру подібності).

5)    Із можливих правил ієрархічного об’єднання (Single linkage – одиночного зв’язку;  Complete linkage – повних зв’язків; Unweighted pair-group average – незваженого попарного середнього; Weighted pair-group average – зваженого попарного середнього; Unweighted pair-group centroid – незваженого центроїдного; Weighted pair-group centroid – зваженого центроїдного; Ward’s method – метод Уорда) вибрати процедуру Single linkage (одиночного зв’язку), підтвердити свій вибір.

6)    Із можливих метрик для оцінювання міри подібності (Euclidean distances – евклідова метрика; Square Euclidean distances – квадрат евклідової метрики; City-block (Manhattan) distancesМангеттенська відстань; Chebychev distances metric – відстань Чебишева; Power metric – степенева відстань Мінковського; Percent disagreement – відсоток незгоди (для категоріальних даних); (1 – Personal r) – (1 – коефіцієнт кореляції Пірсона) вибрати Euclidean distances – евклідову метрику, підтвердити свій вибір.

7)    У вікні аналізу результатів у верхній частині буде основна інформація та обрані процедури дослідження, у нижній частині вікна на вкладці Advanced опції, призначені для аналізу результатів кластеризації: Horizontal hierarchical tree plot (горизонтальна деревоподібна діаграма); Vertical icicle plot (вертикальна деревоподібна діаграма – дендрограма); Amalgamation schedule (правило об’єднання в кластери); Graf of amalgamation schedule (графік порядку об’єднання); Distance matrix (матриця відстаней); Descriptive statistics (описові статистики).

8)    Ініціювавши клавішу Vertical icicle plot, отримаємо дендрограму класифікації, де на осі абсцис подані об’єкти дослідження, а на осі ординат – відстані між ними.

9)    Ініціювавши клавішу Distance matrix, отримаємо матрицю відстаней.

10)           Ініціювавши клавішу Amalgamation schedule, отримаємо матрицю об’єднання.

11)           Отримати і проаналізувати дендрограму класифікації за методом Уорда.

12)           Частина 2. На другому етапі на стартовій панелі модуля Cluster Analysis вибрати метод K-means clustering (метод k-середніх), підвердити свій вибір, після чого слід задати параметри для проведення кластеризації: Variable (Змінні), Cluster (Об’єкти кластеризації), Number of clusters (кількість кластерів), Number of iterations (кількість ітерацій), Initial cluster centers (початкові центри кластерів).

13)           У вікні аналізу результатів у верхній частині буде основна інформація та обрані процедури дослідження, у нижній частині вікна на вкладці Advanced опції, призначені для аналізу результатів кластеризації: Summary: Cluster means & Euclidean distances (евклідові відстані та середні значення станів кластерів); Analysis of variance (дисперсійний аналіз); Graf of means (графік середніх значень); Descriptive statistics for each cluster (описові статистики для кластерів); Members of each cluster & distances (члени кластерів та їх відстані до центру кластера); Save classifications and distances (збереження результатів кластерізації).

14)           Ініціювавши клавішу Summary: Cluster means & Euclidean distances, отримаємо евклідові відстані та середні значення станів кластерів. Під головною діагоналлю матриці знаходяться значення евклідових вістаней, а над головною діагоналлю – квадрат еквклідових відстаней.

15)           Ініціювавши клавішу Graf of means, отримаємо графік середніх значень для кластерів станів.

16)           Ініціювавши клавішу Analysis of variance, отримаємо результати дисперсійного аналізу оцінки якості показників у вигляді таблиці, в якій наведені значення міжгрупових і внутрішньогрупових дисперсій признаків. Чим менше значення внутрішньогрупової дисперсії і більше значення міжгрупової, тим краще ознака характеризує приналежність об’єктів до кластера. Параметри F і p визначають внесок ознаки в класифікацію.

17)           Ініціювавши клавішу Descriptive statistics for each cluster, отримаємо описові статистики для виділених кластерів, а саме: середнє, середньоквадратичне відхилення та дисперсія.

18)           Ініціювавши клавішу Members of each cluster & distances, отримаємо члени кластерів та їх відстані до центру відповідного кластеру у вигляді таблиці, дані якої дозволяють визначити склад кожного кластеру.

19)           Зробити висновки та подати економічну інтерпретацію отриманих результатів кластерних утворень.

 

Література: [1; 2; 6; 18; 19].