ЛАБОРАТОРНА РОБОТА №3.
Тема. Методи та моделі кластерного аналізу.
Мета: Закріплення теоретичного матеріалу
за темою «Статистичні методи аналізу великих масивів даних». Набуття практичних
навичок роботи в модулі Cluster Analysis ППП Statistica.
Завдання:
1. Побудувати моделі класифікації підприємств,
використовуючи різні методи та стратегії класифікації в модулі Cluster Analysis ППП Statistica.
2. Зробити висновки.
Хід роботи.
1) Обрати для дослідження об’єкти (підприємства
певної галузі) і показники (наприклад, х1
– продуктивність праці, х2 – рентабельність капіталу, х3 – фондовіддача).
Сформувати таблицю даних.
2) Вибрати модуль Cluster Analysis , для
чого слід ввійти в позицію меню Statistics / Multivariate Exploratory
Techniques / Cluster Analysis.
Підтвердити вибір цього модуля.
3) На стартовій панелі модуля вибрати напрям
аналізу, тобто метод класифікації: Joining tree clustering (деревоподібна кластеризація); K-means clustering (метод k-середніх);
Two-way joining (двовходова кластеризація).
4) Частина 1. На першому етапі вибрати метод Joining tree clustering (деревоподібна кластеризація), підвердити
свій вибір, після чого слід задати параметри для проведення кластеризації: Variable (Змінні), Cluster (Об’єкти кластеризації), Amalgamation rule (Правила кластеризації), Distance measure (Міру подібності).
5) Із можливих правил ієрархічного об’єднання (Single linkage – одиночного зв’язку; Complete linkage – повних
зв’язків; Unweighted pair-group average – незваженого попарного середнього; Weighted pair-group average – зваженого попарного середнього; Unweighted pair-group centroid – незваженого центроїдного;
Weighted pair-group centroid – зваженого центроїдного; Ward’s method – метод Уорда)
вибрати процедуру Single linkage (одиночного зв’язку), підтвердити свій вибір.
6) Із можливих метрик для оцінювання міри подібності (Euclidean distances –
евклідова метрика; Square Euclidean distances – квадрат евклідової метрики; City-block (Manhattan) distances – Мангеттенська
відстань; Chebychev distances metric – відстань Чебишева;
Power metric – степенева відстань Мінковського; Percent disagreement – відсоток незгоди (для категоріальних даних); (1 – Personal r) – (1 – коефіцієнт кореляції
Пірсона) вибрати Euclidean distances – евклідову метрику, підтвердити свій
вибір.
7) У вікні аналізу результатів у верхній частині
буде основна інформація та обрані процедури дослідження, у нижній частині вікна
на вкладці Advanced опції, призначені для аналізу результатів кластеризації: Horizontal hierarchical tree plot (горизонтальна деревоподібна діаграма); Vertical icicle plot (вертикальна деревоподібна діаграма – дендрограма);
Amalgamation schedule (правило об’єднання в кластери); Graf of amalgamation
schedule (графік
порядку об’єднання); Distance matrix (матриця відстаней); Descriptive statistics (описові статистики).
8) Ініціювавши клавішу Vertical icicle plot, отримаємо дендрограму класифікації,
де на осі абсцис подані об’єкти дослідження, а на осі ординат – відстані між
ними.
9) Ініціювавши клавішу Distance matrix, отримаємо матрицю відстаней.
10)
Ініціювавши клавішу Amalgamation schedule, отримаємо матрицю об’єднання.
11)
Отримати і проаналізувати дендрограму
класифікації за методом Уорда.
12)
Частина 2. На другому етапі на стартовій панелі модуля Cluster Analysis вибрати метод K-means clustering (метод k-середніх), підвердити свій вибір, після чого слід задати параметри для
проведення кластеризації: Variable (Змінні), Cluster (Об’єкти кластеризації), Number of clusters (кількість кластерів), Number of iterations (кількість ітерацій), Initial cluster centers (початкові центри кластерів).
13)
У вікні аналізу результатів у верхній частині
буде основна інформація та обрані процедури дослідження, у нижній частині вікна
на вкладці Advanced опції, призначені для аналізу результатів кластеризації: Summary: Cluster means & Euclidean distances (евклідові
відстані та середні значення станів кластерів); Analysis of variance (дисперсійний аналіз); Graf of means (графік середніх значень); Descriptive statistics for each cluster (описові статистики для кластерів); Members of each
cluster & distances (члени кластерів та їх відстані до центру кластера); Save classifications and distances (збереження результатів кластерізації).
14)
Ініціювавши клавішу Summary: Cluster means & Euclidean distances, отримаємо
евклідові відстані та середні значення станів кластерів. Під головною діагоналлю матриці знаходяться значення
евклідових вістаней, а над головною діагоналлю – квадрат еквклідових відстаней.
15)
Ініціювавши клавішу Graf of means, отримаємо графік середніх значень для
кластерів станів.
16)
Ініціювавши клавішу Analysis of variance, отримаємо результати дисперсійного аналізу оцінки якості
показників у вигляді таблиці, в якій наведені значення міжгрупових
і внутрішньогрупових дисперсій
признаків. Чим менше значення внутрішньогрупової
дисперсії і більше значення міжгрупової, тим краще
ознака характеризує приналежність об’єктів до кластера. Параметри F і p
визначають внесок ознаки в класифікацію.
17)
Ініціювавши клавішу Descriptive statistics for each cluster, отримаємо описові статистики для виділених кластерів, а саме:
середнє, середньоквадратичне відхилення та дисперсія.
18)
Ініціювавши клавішу Members of each
cluster & distances, отримаємо члени кластерів та їх відстані до центру
відповідного кластеру у вигляді таблиці, дані якої дозволяють визначити склад
кожного кластеру.
19)
Зробити висновки та подати
економічну інтерпретацію отриманих результатів кластерних утворень.
Література: [1; 2; 6; 18; 19].