ТЕМА 8.
ВИКОРИСТАННЯ ПАКЕТУ СТАТИСТИЧНОГО АНАЛІЗУ ДАНИХ STATISTICA ДЛЯ ПРИЙНЯТТЯ УПРАВЛІНСЬКИХ РІШЕНЬ.
1. Призначення
та розробники пакету Statistica.
2. Модулі
обробки статистичних даних пакету Statistica: базова версія та додаткова
комплектація спеціалізованими модулями.
3. Послідовність
дій в роботі з пакетом Statistica.
4. Описові
статистики.
5. Кореляційний
аналіз.
6. Регресійний
аналіз.
7. Дисперсійний
аналіз.
8. Дискримінантний
аналіз.
9. Кластерний
аналіз.
1. Призначення
та розробники пакету Statistica.
Пакет прикладних програм STATISTICA – універсальний пакет статистичного аналізу, в якому
реалізовані основні математичні методи аналізу даних.
Розробником пакету є фірма StatSоft, Inc
(США). У 2014 р. ця фірма була поглинута корпорацією Dell, яка включила пакет
STATISTICA до складу власної лінійки програмного забезпечення проблематики
великих даних.
2. Модулі обробки статистичних даних пакету Statistica: базова версія та додаткова комплектація спеціалізованими
модулями.
STATISTICA дозволяє проводити різні процедури
(модулі) обробки статистичних даних (в термінології програми – аналізи):
1. Розрахунок описових статистик.
2. Аналіз динамічних рядів й прогнозування.
3. Множинна регресія.
4. Дискримінантний аналіз.
5. Аналіз відповідностей.
6. Кластерний аналіз.
7. Факторний аналіз.
8. Дисперсійний аналіз і та ін.
Крім загальних статистичних і графічних
засобів STATISTICA має спеціалізовані модулі: для проведення соціологічних або
біомедичних досліджень, вирішення технічних і, що дуже важливо, промислових
завдань: карти контролю якості, аналіз процесів і планування експерименту.
За допомогою вбудованої мови програмування
STATISTICA BASIC можна створювати рішення, які просто інтегруються до інших
додатків.
Слід зауважити, що склад модулів відчутно
розрізняється залежно від версії та типу ліцензії пакету. Наприклад, базова
версія може додатково комплектуватися спеціалізованими модулями: Power Analysis
(планування статистичних досліджень), Neural Networks (нейромереживний аналіз)
і т. ін.
Перша версія пакета була створена в 1991 р.
Остання версія програми 13.3 (2016 р.).
3. Послідовність дій в роботі з пакетом Statistica.
У загальному випадку робота із системою
передбачає таку послідовність дій:
1. Визначити структуру даних.
2. Ввести первині дані.
3. Провести дослідження даних на помилки.
4. За необхідності здійснити попереднє
перетворення даних, наприклад групування або ранжування.
5. Розрахувати описові статистики.
6. Здійснити візуалізацію даних.
7. Застосувати конкретний метод аналізу.
За допомогою тестової версії Statistica
Desktop можна тестувати Statistica протягом 30 днів. У тестовій версії доступні
численні функції:
-
візуалізація
даних;
-
підготовка
даних;
-
основні та
вдосконалені статистичні методи;
-
промислова
статистика;
-
статистика
багатоваріантного процесу;
-
видобуток
даних тощо.
4. Описові статистики.
За допомогою описових статистик
визначаються найбільш загальні властивості емпіричних даних, які
дають загальне уявлення відносно значень, що набуває змінна. До них належать
середня, вибіркова дисперсія, стандартне відхилення, медіана, мода, максимальне
та мінімальне значення, розмах варіації та квартилі.
Для розрахунку описових статистик слід
виконати такі дії.
1. Виділити змінну або змінні, для якої
слід розрахувати показники. Для цього достатньо просто
клацнути на заголовку змінної. Але вибір змінної можна здійснити
і пізніше у вікні модуля, що містить кнопку «Змінні» («Variables»). Натискання цієї кнопки
ініціює появу вікна «Виберіть змінні для аналізу» («Select the variables for the analysis»). Після
вибору змінної праворуч від кнопки «Змінні» відображається ім’я вибраної
змінної. Надалі використовуйте цей алгоритм для вибору змінної або
змінних.
2. Завантажити модуль «Основні статистики і таблиці» («Bases
Statistics/Tables»). З’явиться вікно «Основні статистики і таблиці» («Basic Statistics and Tables»).
3. Вибрати зі списку вікна пункт «Описові
статистики» («Descriptive Statistics», описові
статистики).
4. Натиснути «ОК». З’явиться вікно «Описові
статистики» («Descriptive
Statistics»).
5. За замовчуванням розраховуються середня,
стандартне відхилення, а також визначаються кількість спостережень, максимальне і мінімальне
значення. Якщо потрібно розрахувати інші описові статистики, то слід перейти на
вкладку «Додатково» («Advanced») і встановити
позначку біля показників, що потрібно розрахувати.
6. Розрахунок показників ініціюється
натисканням кнопки «ОК», після чого з’явиться вікно з таблицею
результатів на ім’я «Описові статистики» («Descriptive Statistics»).
Розрахунок також ініціюється натисканням кнопки «Детальні описові
статистики» («Summary: Descriptive statistics»), що розташована, зокрема на
вкладці «Швидкий» («Quick»).
Після
розрахунку вікно з результатами можна просто закрити, а можна
зберегти у форматі STW. Надалі до збережених результатів можна буде
звернутися у будь-який час, не звертаючись при цьому до первинних
даних.
При переході
до іншого режиму вікно «Описові
статистики» («Descriptive Statistics») не закривається, а згортається на панель стану. За
необхідності до нього можна надалі в будь-який момент звернутися,
навіть якщо закрити вікно з результатами. При цьому у вікні
зберігаються всі встановлені раніше параметри. Якщо вікно з
результатами аналізу не закривати, то спроба повторного звернення до модуля «Основні статистики і таблиці» («Bases Statistics/Tables») призведе до появи вікна-попередження, в
якому вказується, що аналіз такого типу вже виконується, і буде
запропоновано або продовжити цей аналіз або завантажити новий.
За
необхідністю під час розрахунку описових статистик можна
виконати додаткові дії:
1. Здійснити
групування даних. Кнопка «Таблиці частот» («Frequency tables») дозволяє
побудувати таблиці частот.
2.
Побудувати графік за допомогою інструмента (кнопки) «Гістограми» («Histograms»). При цьому на вкладці «Нормальність» («Normality») і «Диаграммы» («Prob. & Scatterplots») можна задати
додаткові параметри побудови гістограм і діаграм розсіяння, наприклад,
побудову 3-вимірної гістограми («3М гистограми», «3D histograms»).
3.
Розрахувати критерії для перевірки нормальності Колмогорова-Смірнова і Шапіро-Уїлка,
а також одержати теоретичні частоти для нормального розподілу.
Описові
статистики можна розрахувати для будь-якого діапазону даних, в якості якого
може бути діапазон клітинок, одна або кілька змінних (стовпчиків), одне або
кілька спостережень (рядків) і навіть одна клітинка таблиці. Це
здійснюється за допомогою так званих блокових статистик (Statistics of Block
Data) і виконується
за таким алгоритмом:
1. Виділити
потрібні дані.
2. Виконати
команду Аналіз Блокові статистики По стовпчиках (По радках) ...
(Statistics Statistics of Block Data Block Columns (Block Rows) ... Якщо слід
розрахувати всі показники, то слід вибрати з меню останній
пункт «Все» («All»), якщо – якісь конкретний, то слід вибрати з
меню потрібний. Ті самі дії можна виконати, якщо викликати
контекстне меню на виділених даних і вибрати послідовно пункти
Блокові статистики
По стовпчиках (По рядках) ... (Statistics
of Block Data Block Columns (Block Rows) ...).
5. Кореляційний аналіз.
Якщо статистичні методи застосовують тільки
для однієї змінної, то такі методи називають одновимірні. Проте одним з найважливіших
завдань статистичного аналізу даних є виявлення й аналіз
взаємозв’язків між змінними, для чого використовуються багатовимірні
методи, зокрема, кореляційний і регресійний аналіз.
В економіці кореляційний аналіз
використовується під час маркетингових обстежень, для аналізу
діяльності господарської діяльності суб’єктів господарювання. Досить
часто при проведенні досліджень (наприклад, маркетингових) саме вивчення
кореляційних зв’язків є наступим етапом аналізу даних.
При проведенні аналізу даних особлива увага
приділяється аналізу зв’язку між змінними з метою
перевірки гіпотези щодо існування такого зв’язку.
Під час дослідження взаємозв’язків потрібно
дати відповідь на три питання:
1. Чи існує залежність між змінними?
2. Яка інтенсивність цієї залежності?
3. Який напрям і характер цієї залежності?
Критерій кількісної оцінки залежності між
змінними називають коефіцієнтом кореляції. Для змінних, що належать порядковій
шкалі, застосовується коефіцієнт Спірмена, а для змінних, що
належать до інтервальної шкали – коефіцієнт кореляції Пірсона. Слід
мати на увазі, що кожну змінну, що належить до номінальної
шкали і має дві категорії, можна розглядати як порядкову.
При цьому використання коефіцієнта
кореляції Пірсона передбачає виконання двох обов’язкових
умов:
1. розподіл значень обох змінних є
нормальним;
2. зв’язок між змінними є лінійним.
Залежно від наявних даних для проведення
кореляційного аналізу використовуються різні аналізи модуля
«Основні статистики і таблиці» («Bases
Statistics/Tables»).
Визначення парних взаємозв’язків відразу
для кількох змінних вирішується шляхом побудови матриці
кореляції. Для цього виконуються такі дії.
1. Завантажити модуль «Основні статистики і таблиці» («Bases
Statistics/Tables»), після чого з’явиться однойменне вікно.
2. У вікні вибору модуля вибрати пункт «Парні і частинні кореляції» («Correlation
matrices»).
3. Вибрати змінні, між якими слід визначати
кореляцію. Це можна здійснити за допомогою двох
інструментів.
- Інструмент «Квадратна матриця». При
використанні цього інструмента коефіцієнти кореляції
розраховуються попарно для всіх комбінацій відібраних змінних.
- Інструмент «Прямокутна матриця». При використанні цього інструмента
коефіцієнти кореляції розраховуються для всіх комбінацій
змінних з першого та другого списків.
4. Натиснути кнопку «Матриця парних кореляцій» («Summary:
Correlation matrices»), що викличе появу вікна з матрицею
коефіцієнтів кореляції.
5. Водночас з розрахунком коефіцієнтів
кореляції здійснюється оцінка їх статистичної значущості, тобто перевіряється нульова
гіпотеза щодо наявності зв’язку між змінними. Якщо значення
коефіцієнта кореляції виділено червоним кольором, то це свідчить
про те, що між змінними визнається існування зв’язку для певного
рівня значущості.
6. Параметр «Рівень значущості для виділення» знаходиться у вікні на вкладці «Опції» («Options») і за
замовчуванням дорівнює «0,05». У статистиці при перевірці
суттєвості зв’язків прийнято використовувати рівні значущості a = 0 05, і a = 0 01. Ці рівні означають, що за
відсутності зв’язку між змінними лише в 5 чи 1 випадку
із 100 теоретичне (критичне) значення коефіцієнта кореляції
може перевищувати фактичне його значення. Якщо фактичне
значення коефіцієнта кореляції більше за критичне, то робиться висновок, що
зв’язок між змінними є суттєвим. Зрозуміло, що зі
збільшенням рівня значущості підвищується шанс визнання
існування зв’язку між змінними.
Необхідно відмітити, що вибір певного рівня значущості, вище за
який результати відкидаються як помилкові, є досить довільним. На практиці значення «0,05» є прийнятою
межею статистичної значущості, проте слід пам’ятати, що цей рівень означає досить
велику вірогідність помилки (5%). Результати з рівнем значущості
0,01 зазвичай розглядаються як статистично значущі, а результати
з рівнем 0,005 або 0,001 як високо значущі. Проте ця класифікація
рівнів значущості довільна і ґрунтується лише на результатах
практичного досвіду в певній галузі дослідження.
6. Регресійний аналіз.
Алгоритм проведення регресійного аналізу.
1. Виконати команду Аналіз – Множинна регресія (Statistics – Multiply Regression). З’явиться стартове вікно модуля «Множинна регресія» («Multiple Linear Regression», Множинна лінійна регресія).
2. Вибрати змінні для аналізу. Для цього потрібно натиснути
кнопку «Змінні» («Variables»), після чого з’явиться вікно для вибору. У правому списку вікна вибирається
незалежна (факторна) змінна (Independent), у лівому
списку – залежна (результативна) (Dependent).
3. Натиснути «ОК» для повернення до
стартового вікна модуля. В полях «Незалежна» («Independent») і «Залежна» («Dependent»)
відобразяться імена вибраних змінних.
4. Натиснути «ОК» у стартовому вікні
модуля. З’явиться вікно «Результати
множинної регресії» («Multiple Regression
Results»).
Верхня
частина вікна містить такі показники:
1. Після тексту «Залежна змінна» («Dependent») знаходиться
ім’я залежної змінної;
2. Кількість спостережень (No. of cases).
3. R. Коефіцієнт множинної
кореляції (Multiple).
4. R2. Квадрат коефіцієнта множинної
кореляції, тобто коефіцієнт детермінації. Цей показник є найважливішім,
оскільки він визначає частку розсіювання навколо середнього значення, що
«пояснює» побудована регресія. Значення коефіцієнта детермінації знаходиться в
межах від «0» до «1». Чим більше його значення наближається до «1», тим більше
регресія пояснює розсіювання значень залежної змінної відносно вибіркової
середньої.
5. Скоррект. (adjusted) R2.
Коефіцієнт детермінації, скоригований на число
ступенів свободи.
6. p. Рівень значущості.
7. Стандартна похибка оцінювання (Standard error of estimate), яка є мірою розсіювання
значень спостережень відносно лінії регресії.
8. Вільний член (Intercept). Значення вільного
члена рівняння регресії, тобто значення коефіцієнта b0 в рівнянні
регресії.
9. Ст. похибка (Std.Error). Стандартна похибка оцінювання
вільного члена.
Середня частина інформаційного вікна містить стандартизований
коефіцієнт регресії – бета, що був би отриманий у випадку стандартизації
змінних, тобто за таким перетворенням, коли середні змінних дорівнювали б «0»,
а стандартні відхилення – «1».
Розрахунок бета дозволяє оцінити, якою мірою
значення залежної змінної описуються незалежними змінними. Цей показник
є корисним особливо тоді, коли є кілька незалежних змінних з різними
одиницями виміру. У цьому випадку бета відображає питомий
внесок кожної незалежної змінної у варіацію залежної змінної.
Якщо незалежна змінна тільки одна, то коефіцієнт бета співпадає зі
значенням коефіцієнта множинної кореляції. Якщо
стандартизований коефіцієнт регресії виділений червоним
кольором, то регресія є значущою.
Нижня частина
вікна «Результаты
множеинної регресії» містить кілька інструментів, за допомогою
яких можна деталізувати результати. Так, після
натискання кнопки «Підсумкова таблиця регресії» («Summary: Regression results») відбувається
розрахунок підсумкових результатів оцінювання регресійної
моделі.
Стовпці
таблиці результатів містять такі показники:
1. БЕТА:
стандартизований коефіцієнт рівняння регресії.
2. Стандартна похибка Бета (Std.Err. of Beta).
3.
Коефіцієнти рівняння регресії: клітинка першого рядка «Вільний член» (Intercept) містить вільний член рівняння регресії,
інші – коефіцієнти при незалежних змінних.
4. Стандартні похибки B (Std.Err.
of B) для коефіцієнтів рівняння регресії.
5. Значення
t-критерію Стьюдента (t(кількість_ступенів_свободи)).
Це значення використовується для перевірки нульової гіпотези про те, що
коефіцієнти рівняння дорівнюють «0».
6. р-рівень (p-value).
Ймовірність похибки для нульової гіпотези.
Оцінка адекватності моделі.
Важливим елементом проведення регресійного аналізу є оцінка
адекватності моделі: після того, як адекватність моделі доведена, її з високою
ймовірністю можна використовувати на практиці для прогнозування. Аналіз адекватності моделі базується на
аналізі залишків. Залишки – це різниці між
фактичними (емпіричними) значеннями спостереження і теоретичними,
розрахованими за моделлю. Відповідно за фактичними даними
будується емпірична крива розподілу, а за теоретичними –
теоретична. Теоретична крива розподілу відображає закономірність
певного типу розподілу в чистому вигляді, тобто в тому випадку,
коли на розподіл не впливають випадкові причини.
Аналіз оцінки адекватності моделі
складається з двох етапів:
1. Залишки перевіряються на нормальність їх
розподілу.
2. Дисперсія залишків повинна залишатися
незмінною на всьому діапазоні значень змінних.
Алгоритм перевірки залишків на нормальність
їх розподілу може бути таким:
1. У вікні «Результати множинної регресії» перейти на вкладку «Залишки/припущення/прогнозування» («Residuals/assumptions/prediction»).
2. Натиснути кнопку «Аналіз залишків»
(«Perform residual analysis»). З’явиться вікно «Аналіз залишків» («Residual Analysis»).
3. Оскільки критерієм адекватності моделі
можна вважати нормальність залишків, то гістограма
розподілу залишків повинна бути наближена до графіка нормального
розподілу. Для перевірки цього у вікні «Аналіз залишків» слід перейти на вкладку «Залишки» («Residuals»). У групі полів «Тип залишків» («Type of
residual») встановити
перемикач у положення «Вихідні» («Raw residuals», по рядку) і натиснути кнопку «Гістограма залишків»
(«Histogram of residuals»).
4. З’явиться гістограма розподілу залишків.
Якщо вона наближається до графіка нормального
розподілу, то це й вказує на адекватність моделі.
Використання
регресійної моделі для прогнозування Для прогнозування значень залежної змінної
слід виконати такі дії.
1. У вікні «Результати множинної регресії» перейти на вкладку «Залишки/припущення/прогнозування» і натиснути
кнопку «Прогноз залежної
змінної» («Predict dependent variable»), що викличе появу вікна «Задайте значення незалежних змінних» («Specify values for
indep. Vars»).
2. У полі з
назвою незалежної змінної ввести прогнозне значення. Якщо незалежних змінних
буде кілька, то буде відповідно і кілька таких полів.
3. Натиснути
«ОК». З’явиться вікно «Прогнозоване значення» («Predicting Values for»), в якому рядок «Прогнзоване» («Predicted») містить прогнозне значення.
7. Дисперсійний аналіз.
Дисперсійний аналіз є одним з методів
математичної статистики, спрямованим на пошук залежностей експериментальних даних шляхом
дослідження значущості різниць середніх значень. При
цьому оброблюються кілька вибірок, що об’єднані в єдиній таблиці. На відміну від t-критерію, цей метод
дозволяє порівнювати середні значення трьох і більше груп.
Метод розроблено біологом Р. Фішером в 1925
р. саме для аналізу результатів експериментальних
досліджень у рослинництві. Іншими сферами застосування
дисперсійного аналізу є експерименти у медицині,
педагогіці, психології. Його також достатньо широко
використовують в економіці, наприклад під час вивчення оцінки
впливу різнорідної сировини на якість продукції, впливу кількості
добрив на урожайність сільськогосподарської продукції.
Сутністю
методу є вивчення
впливу одного або кількох незалежних чинників (факторів) на залежну
(результативну) змінну. Залежні змінні подаються у вигляді шкал.
У літературі для дисперсійного аналізу
залежно від кількості включених в нього факторів застосовують назву ANOVA (від англ. ANalysis Of Variance), якщо здійснюється однофакторний аналіз і MANOVA – для багатофакторного.
Алгоритм проведення дисперсійного аналізу.
1. Виконати команду Аналіз Дисперсійний
аналіз (Statistics ANOVA). З’явиться вікно «Загальний ДА» («General ANOVA/MANOVA», Загальний дисперсійний аналіз).
2. Вибрати зі списку «Вид аналізу» («Type of analysis») пункт «Однофакторний ДА» («One-way ANOVA»).
3. Натиснути
«ОК». З’явиться вікно «Однофакторний ДА».
4. Натиснути
кнопку «Змінні»
(«Variables») і вибрати залежну (dependent) і незалежну (predictor)
змінні у вікні «Виберіть залежні змінні і категоріальний предиктор (фактор)» («Select dependent
variables and a categorical predictor (factor)»). Предиктор – це незалежна
змінна. Якщо її значення поєднуються у групи (категорії), то вона називається
категоріальною, а якщо ні – то неперервною.
5. Натиснути
«ОК». З’явиться вікно «Результаты анализа» («ANOVA Results»).
6. Натиснути
кнопку «Всі ефекти» («All
effects»). З’явиться вікно «Одновимірний критерій значущості...» для вибраної залежної змінної.
7. У вікні з
результатами дисперсійного аналізу:
- рядок з
назвою незалежної змінної відображає міжгрупову варіацію;
- рядок «Помилка» («Error») відображає внутрішньогрупову варіацію.
Якщо
значення в рядку з
назвою незалежної змінної виділені червоним кольором, то це свідчить про те,
що розбіжності між груповими середніми є істотними, тобто
нульова гіпотеза про відсутність розбіжностей між груповими середніми
результативної змінної відхиляється. Рядок з назвою незалежної змінної у
колонці «F» містить значення F-критерію Фішера. У
рядках з назвою незалежної змінної і «Помилка» («Error») відображаються значення ступенів свободи
(Degr. of freedom), що надалі можна використати для розрахунку
критерію Фішера.
Додатковий
аналіз визначення впливу незалежної змінної на залежну
здійснюється за допомогою F-критерію Фішера:
1. За
командою Аналіз – Ймовірнісний калькулятор – Розподіли...
завантажити ймовірнісний калькулятор.
2. У списку «Розподіл» («Distribution») вибрати «F (Фішера)».
3. У полях «ст. св. 1» і «ст. св. 2» ввести значення ступенів свободи 1 і
2, обчисливши їх відповідно за формулами (m – 1) і (n – m), де n – кількість спостережень, m – кількість вибірок.
4. У полі «р» задати ймовірність. Оскільки зазвичай для суспільно-економічних
явищ приймають α=0,05 або α=0,01, то ввести у
цьому полі значення «0,95» або «0,99».
5. Натиснути
кнопку «Обчислити» («Compute»).
6. Порівняти
обчислене значення F-критерію зі значенням, що було
розраховане під час проведення дисперсійного аналізу.
8. Дискримінантний аналіз.
Дискримінантний аналіз – це один з методів
багатовимірного статистичного аналізу.
Його мета
полягає в тому, щоб на підставі вимірювання значень ознак об’єкта класифікувати його, тобто віднести до однієї з кількох груп (класів) деяким оптимальним способом. Під оптимальним способом розуміють або мінімум
математичного очікування втрат або мінімальну ймовірність
хибної класифікації.
Аналіз називають багатовимірним, оскільки вимірюються як мінімум дві
ознаки.
Типові області застосування
дискримінантного аналізу: медицина, економіка, геологія, контроль якості.
Наприклад, в економіці важливо віднести клієнта до певної групи при наданні кредиту.
Алгоритм
проведення дискримінантного аналізу.
1.
Звернутися до модуля дискримінантного аналізу за командою Аналіз – Багатовимірний розвідувальний аналіз – Дискримінантний аналіз. Відкриється вікно
«Дискримінантний аналіз».
2. Визначити
незалежні і групувальну (результатну) змінні.
3.
Встановлення прапорця для поля-мітки «Додаткові параметри» дозволяє деталізувати проведення аналізу.
4. Натиснути
«ОК». Якщо встановлений прапорець для дії «Додаткові параметри», то з’явиться вікно «Визначення моделі». Це вікно містить низку параметрів, які
дозволяють деталізувати аналіз.
· На вкладці «Швидкий» можна
визначити метод дискримінантного аналізу.
· На вкладці «Додатково»
визначається таке.
4.1.
Параметр «Толерантність» задає нижню межу толерантності: змінні,
для яких значення толерантності менше цього значення, до моделі не включаються.
Толерантність розраховується за формулою (квадрат множинної
кореляції) змінної з незалежними змінними в моделі. Для
методів «крок за кроком» моделі аналізуються на кожному кроці і
кореляція обчислюється за включеними до моделі змінними. Змінні з
малим значенням
толерантності можуть привести до помилок при
обчисленні оберненої матриці. Очевидно, що якщо значення
толерантності мале, то змінна має малу інформативність і включення її до моделі
є недоцільним.
4.2.
Параметри для методів «крок за кроком». «F-включить / исключить» – задають значення F-критерию для включення (або виключення) змінної до
моделі.
· Описові статистики.
5. Натиснути
«ОК». З’явиться вікно «Результати аналізу дискримінантних функцій». Аналіз здійснюється у вікні «Результати аналізу дискримінантних функцій».
Верхня
частина вікна містить, зокрема:
1. Кількість
змінних в моделі.
2. Значення
статистики F-критерію і рівень значущості (р).
3. Значення
лямбди Уїлкса. Це значення містяться в інтервалі від «0» до «1». Чим ближче воно наближається до «0», тим кращою
вважається дискримінація. Натискання кнопки «Переменные в модели»
ініціює появу підсумкової таблиці аналізу даних. Всі
інструменти для аналізу і класифікації спостережень за групами
знаходиться на вкладці «Класифікація».
Правила класифікації («Функції класифікації»).
За допомогою цих функцій можна визначити
класифікаційні значення (мітки) для нових спостережень. Ці
значення можна трактувати як значення коефіцієнтів при
відповідних змінних у рівнянні регресії, а значення константи –
як його вільний член.
Отже, кожну групу можна описати своїм
рівнянням. Для нового спостереження слід підставити значення його
змінних до кожного рівняння і порівняти одержані
класифікаційні значення. Нове спостереження відносять до тієї групи
(класу), для якої розраховане класифікаційне значення є мінімальним.
Правило «Квадрати відстаней Махаланобіса». За допомогою цього методу будується
таблиця, що містить квадрати відстані Махаланобіса від точок
(спостережень) до центрів груп. Нове спостереження відноситься до тієї групи (класу), для
якої відстань Махаланобіса є мінімальною. Символом «*» позначаються спостереження, що були
неправильно класифіковані при використанні даного правила.
Правило «Апостеріорні ймовірності». У вікні «Апостеріорні ймовірності» до аналізу для кожного спостереження
задається ймовірність, з якою воно належіть до певного класу. Після
виконання аналізу ці ймовірності можна заново обчислити й
одержати апостеріорні ймовірності класифікації.
Натискання кнопки «Апостеріорні ймовірності» ініціює побудову таблиці з апостеріорними
ймовірностями належності спостереження до певної групи.
Інтерпретація таблиці дуже проста. Перший
стовпчик містить групу, інші – ймовірності віднесення
спостереження до певної групи. Спостереження відноситься до групи
(класу) з максимальною апостеріорною ймовірністю.
Символом «*» позначаються спостереження, що були
неправильно класифіковані при використанні даного правила.
Алгоритм визначення класу для нового
спостереження.
1. Додати в таблицю даних нове
спостереження.
2. Визначити апостеріорну ймовірність
належності спостереження до певної групи.
3. Визначити відстані Махаланобіса.
4. Визначити причетність до певної групи за
одержаними результатами за наведеними вище правилами.
9. Кластерний аналіз.
Кластерний
аналіз об’єднує різні процедури, за допомогою яких дані
поділяються на групи схожих об’єктів – кластери.
Кластер – це об’єднання кількох однорідних елементів, яке може розглядатися
як самостійна одиниця, що має певні властивості.
В якості
кластера можна розглядати об’єднання кількох пов’язаних родинними
стосунками людей, тобто сім’ю. Кластером може бути клас,
навчальна група і т. ін. Уперше термін «Кластерний аналіз» увів Трайон (Tryon) у 1939 р.
Завданням кластерного аналізу є розподіл
даних на групи (підмножини), що називаються кластерами, таким чином, щоб кожен
кластер складався зі схожих об’єктів, а об’єкти різних кластерів
істотно відрізнялися.
Найчастіше
кластерний аналіз використовують в економіці, соціології,
маркетингових дослідженнях, біології, медицині, археології.
STATISTICA має
кілька мір подібності об’єктів:
- евклідова метрика;
-
квадрат евклідової метрики;
-
манхетенска відстань або «відстань міських кварталів»;
- метрика Чебишева;
- метрика Мінковського;
-
коефіцієнт кореляції Пірсона;
- коефіцієнт подібності.
Вибір міри подібності об’єктів є процесом суб’єктивним і
залежить від дослідника.
STATISTICA дозволяє
здійснити кластеризацію, використовуючи один з трьох методів:
1. Ієрархічна класифікація.
2. Двовходовє об’єднання.
3. Кластеризація методом К-середніх.
Перші два методи є агломеративними, третій – ітераційним.
Ієрархічну класифікацію прийнято застосовувати, якщо кількість
кластерів заздалегідь невідомо, а метод К-середніх – якщо кількість
кластерів дослідник визначає сам.
Зазвичай застосуванню методів кластеризації передує процедура
стандартизації даних.
Одержані в результаті цієї процедури дані мають нульову середню
й одиничну дисперсію. STATISTICA дозволяє досить просто здійснити таку дію. Для
цього, наприклад, слід викликати на стовпчику зі змінною, яку потрібно
стандартизувати, контекстне меню і вибрати у ньому послідовно пункти
Заповнити/Стандартизувати блок, Стандартизувати стовпці (рядки).
Алгоритм проведення
кластеризації має такий
вигляд.
1. Виконати команду Аналіз – Багатомірний розвідувальний аналіз – Кластерний аналіз. З’явиться вікно вибору методу кластеризації.
2. Вибрати у вікні метод «Ієрархічна класифікація».
3. Натиснути «ОК». З’явиться вікно налаштувань методу.
4. Визначення об’єктів. Якщо кластеризації
підлягають об’єкти (а вони розташовані в рядках), то
зі списку «Об’єкти» слід
вибрати «Спостереження (рядки)».
5. Вибір характеристик (змінних) для
аналізу. Натиснути кнопку «Змінні» («Variables») і вибрати змінні для
аналізу.
6. Зі списку «Мера подібності» вибрати міру подібності, наприклад,
евклідову метрику, яка пропонується за замовчуванням.
7. Зі списку «Правило об’єднання» вибрати правило об’єднання.
8. Натиснути «ОК». З’явиться вікно з
результатами ієрархічної класифікації.
Найбільш цікавими для дослідника є графіки,
які називаються дендрограмами. Дендрограми показують
близькість значень набору даних за одним з параметрів, використовуючи вісь У для
розстановки самих значений, а вісь Х – величини
параметра. Графік відображається у вигляді набору з’єднаних
одна з одною горизонтальних ліній, які з’єднуються, якщо значення співпадають за параметром. При цьому чим раніше
збіг значень знаходиться по осі Х, тем ближче вони є одна до одної.