ЛАБОРАТОРНА РОБОТА №3.
Тема. Методи та моделі кластерного аналізу.
Мета: Закріплення теоретичного матеріалу
за темою «Статистичні методи аналізу великих масивів даних». Набуття практичних
навичок роботи в модулі Cluster Analysis ППП Statistica.
Завдання:
1. Побудувати моделі класифікації підприємств,
використовуючи різні методи та стратегії класифікації в модулі Cluster Analysis ППП Statistica.
2. Зробити висновки.
Хід роботи.
1) Обрати для дослідження об’єкти (підприємства
певної галузі) і показники (наприклад, х1
– продуктивність праці, х2 – рентабельність капіталу, х3 – фондовіддача).
Сформувати таблицю даних.
2) Вибрати модуль Cluster Analysis , для
чого слід ввійти в позицію меню Statistics / Multivariate
Exploratory
Techniques
/
Cluster Analysis.
Підтвердити вибір цього модуля.
3) На стартовій панелі модуля вибрати напрям
аналізу, тобто метод класифікації: Joining
tree clustering
(деревоподібна кластеризація); K-means clustering
(метод k-середніх);
Two-way
joining
(двовходова кластеризація).
4) Частина 1. На першому етапі вибрати метод Joining
tree clustering
(деревоподібна кластеризація), підвердити
свій вибір, після чого слід задати параметри для проведення кластеризації: Variable
(Змінні), Cluster
(Об’єкти кластеризації), Amalgamation
rule
(Правила кластеризації), Distance
measure
(Міру подібності).
5) Із можливих правил ієрархічного об’єднання (Single linkage – одиночного зв’язку; Complete linkage – повних
зв’язків; Unweighted pair-group average – незваженого попарного середнього; Weighted pair-group average – зваженого попарного середнього; Unweighted pair-group centroid – незваженого центроїдного;
Weighted pair-group centroid – зваженого центроїдного; Ward’s method – метод Уорда)
вибрати процедуру Single
linkage
(одиночного зв’язку), підтвердити свій вибір.
6) Із можливих метрик для оцінювання міри подібності (Euclidean distances –
евклідова метрика; Square Euclidean distances – квадрат евклідової метрики; City-block (Manhattan) distances – Мангеттенська
відстань; Chebychev distances metric – відстань Чебишева;
Power metric – степенева відстань Мінковського; Percent disagreement – відсоток незгоди (для категоріальних даних); (1 – Personal r) – (1 – коефіцієнт кореляції
Пірсона) вибрати Euclidean distances – евклідову метрику, підтвердити свій
вибір.
7) У вікні аналізу результатів у верхній частині
буде основна інформація та обрані процедури дослідження, у нижній частині вікна
на вкладці Advanced
опції, призначені для аналізу результатів кластеризації: Horizontal
hierarchical tree plot
(горизонтальна деревоподібна діаграма); Vertical
icicle plot
(вертикальна деревоподібна діаграма – дендрограма);
Amalgamation
schedule
(правило об’єднання в кластери); Graf
of amalgamation
schedule
(графік
порядку об’єднання); Distance
matrix
(матриця відстаней); Descriptive
statistics
(описові статистики).
8) Ініціювавши клавішу Vertical
icicle plot
, отримаємо дендрограму класифікації,
де на осі абсцис подані об’єкти дослідження, а на осі ординат – відстані між
ними.
9) Ініціювавши клавішу Distance
matrix
, отримаємо матрицю відстаней.
10)
Ініціювавши клавішу Amalgamation
schedule
, отримаємо матрицю об’єднання.
11)
Отримати і проаналізувати дендрограму
класифікації за методом Уорда.
12)
Частина 2. На другому етапі на стартовій панелі модуля Cluster Analysis вибрати метод K-means clustering
(метод k-середніх), підвердити свій вибір, після чого слід задати параметри для
проведення кластеризації: Variable
(Змінні), Cluster
(Об’єкти кластеризації), Number
of clusters
(кількість кластерів), Number
of iterations
(кількість ітерацій), Initial
cluster centers
(початкові центри кластерів).
13)
У вікні аналізу результатів у верхній частині
буде основна інформація та обрані процедури дослідження, у нижній частині вікна
на вкладці Advanced
опції, призначені для аналізу результатів кластеризації: Summary
: Cluster means & Euclidean distances
(евклідові
відстані та середні значення станів кластерів); Analysis
of variance
(дисперсійний аналіз); Graf
of means
(графік середніх значень); Descriptive
statistics for each cluster
(описові статистики для кластерів); Members
of each
cluster & distances
(члени кластерів та їх відстані до центру кластера); Save
classifications and distances
(збереження результатів кластерізації).
14)
Ініціювавши клавішу Summary
: Cluster means & Euclidean distances
, отримаємо
евклідові відстані та середні значення станів кластерів. Під головною діагоналлю матриці знаходяться значення
евклідових вістаней, а над головною діагоналлю – квадрат еквклідових відстаней.
15)
Ініціювавши клавішу Graf
of means
, отримаємо графік середніх значень для
кластерів станів.
16)
Ініціювавши клавішу Analysis
of variance
, отримаємо результати дисперсійного аналізу оцінки якості
показників у вигляді таблиці, в якій наведені значення міжгрупових
і внутрішньогрупових дисперсій
признаків. Чим менше значення внутрішньогрупової
дисперсії і більше значення міжгрупової, тим краще
ознака характеризує приналежність об’єктів до кластера. Параметри F і p
визначають внесок ознаки в класифікацію.
17)
Ініціювавши клавішу Descriptive
statistics for each cluster
, отримаємо описові статистики для виділених кластерів, а саме:
середнє, середньоквадратичне відхилення та дисперсія.
18)
Ініціювавши клавішу Members
of each
cluster & distances
, отримаємо члени кластерів та їх відстані до центру
відповідного кластеру у вигляді таблиці, дані якої дозволяють визначити склад
кожного кластеру.
19)
Зробити висновки та подати
економічну інтерпретацію отриманих результатів кластерних утворень.
Література: [1; 2; 6; 18; 19].