Самостійна робота №4

Оцінка статистичних параметрів рядів випадкових даних

Мета. Навчитись аналізувати і розраховувати основні характеристики статистичних рядів.

 

Завдання для самостійного розв’язання

Задача 1. За даними вибіркового дослідження було отримано розподіл родин за доходом на одного їх члена (згенерувати випадкові 100 чисел за формулою: 8500*СЛЧИС() грн. ). Побудувати інтервальний статистичний ряд, графіки: полігон частот, гістограму, полігон відносних частот, емпіричну функцію розподілу.

 

Задача 2. За даними вибіркового дослідження відомі ціни хі певного товару у різних торгівельних організаціях (див. табл., де N -  номер студента по списку). Знайти всі можливі числові характеристики за даними таблиці (вибіркове середнє, медіану, розмах ряду, дисперсію, вибіркове середнє квадратичне відхилення, коефіцієнт варіації).

100

100+N

110

115

125-N/2

125+n/2

140

145

145

150-N

 

Задача 3. За даними вибіркового дослідження відома кількість людей, що відвідували лікарню протягом року. Дані згруповані залежно від віку відвідувачів (див. табл.). Знайти всі можливі числові характеристики за даними таблиці (вибіркове середнє, моду, розмах ряду, дисперсію, вибіркове середнє квадратичне відхилення, коефіцієнт варіації).)

Вік

20-29

30-39

40-49

50-59

60-69

Кількість відвідувань

45+N

36+2N

175+3N

360+4N

820+5N

 

Задача 4. Після механічної обробки деталей на верстаті здійснюється контроль їх розмірів. Визначити довірчий інтервал для вимірюваного параметра, якщо об’єм вибірки -  п, середнє значення вимірюваного розміру вибірки , мм, вибіркове стандартне відхилення S мкм, рівень надійності .

N, п/п

п

S

N, п/п

п

S

1

10

20

400

0,9

6

60

28

900

0,95

2

20

14

500

0,91

7

70

35

800

0,96

3

30

22

600

0,92

8

80

40

700

0,97

4

40

15

700

0,93

9

90

45

600

0,98

5

50

25

800

0,94

10

100

50

1000

0,99

 

Задача 5. Автомат фасує чай в пачки. Проведено вибірку об’ємом п пачок. Середня вага пачки чаю у вибірки , г, вибіркове стандартне відхилення S г. Знайти довірчий інтервал для середньої ваги пачки чаю в генеральної сукупності із рівнем надійності . Знайти об’єм вибірки, якщо потрібна ширина довірчого інтервалу 1 грам.

N, п/п

п

S

N, п/п

п

S

1

30

200

4

0,9

6

55

92

3

0,95

2

35

148

3

0,91

7

60

90

6

0,96

3

40

152

6

0,92

8

65

98

5

0,97

4

45

150

5

0,93

9

70

102

4

0,98

5

50

88

4

0,94

10

75

100

3

0,99

 

Приклад розв’язання

1. Побудова гістограми і полігону розподілу частот.

Необхідно сформувати інтервальний ряд даних (див. тема № 3), для цього визначаємо:

-       розмах ряду R, кількість інтервалів h і ширину інтервалу розбиття m:

,   ,    

де - число одиниць сукупності;

-           межі інтервалів [X0; X0+j*h);

-           кількість попадань (частоту) чисел ряду в кожному інтервалі f  :

f j ={=ЧАСТОТА (масив даних; масив інтервалів)}

Для побудови гістограми необхідно виділити область частот та викликати Вставка – Диаграмма – Гистограмма, появиться діалогове вікно майстра діаграм (рис.1.а або б). Задати необхідні для побудови гістограми параметри. Отримаємо вигляд рис.2.а.

а)

 

     б)

Рис. 1  Діалогове вікно майстра діаграм

 

Полігон частот – це ламана лінія, що сполучає точки зі значеннями  частот на середині кожного інтервалу, отже будується за допомогою команди Вставка – Диаграмма – Гистограмма – График. Отримаємо вигляд рис.2.б.

Емпірична функція розподілу  - називається функція, яка зображує значення накопичених частот Wj на кінцях інтервалів. Рис.2.в.

а) б)

в)

Рис.2. Графіки розподілу ряду: гістограма, полігон, емпірична функція.

 

1. Визначення числових характеристик статистичних рядів.

Основною числовою характеристикою статистичного не згрупованого ряду є середнє арифметичне,  величина яка обчислюється за формулою:

                          

У разі  інтервального  згрупованого статистичного ряду підсумовуються середини i-го інтервалу:

,       

Модою Мо називається таке значення величини Х, яке спостерігається у вибірці з найбільшою частотою. Мода не застосовується тоді, коли гістограма або полігон частот показують наявність двох або більше вершин („піків”).

Медіаною Ме називається таке значення величини Х, яке розділяє вибірку, елементи якої розташовані у порядку зростання, на дві рівні за об’ємом частини. На значення медіани не впливають змінени значень крайніх елементів впорядкованої вибірки, тому у випадках наявності  даних, які значно відрізняються від всіх інших (так званих викидів), медіана є більш усталеною оцінкою центральної тенденції, ніж вибіркове середнє.

Дисперсія – характеризує розкид випадкової величини відносно її середнього:

;        

або  - для згрупованого ряду,

де  - середина і-го інтервалу,  - кількість попадань в інтервал.

Середнє квадратичне відхилення випадкової величини - міра розсіювання величини відносно середнього для всієї сукупності даних і для деякої вибірки з даних

,.          

Вибіркове середнє квадратичне відхилення теж є показником розсіювання елементів вибірки відносно їх середнього значення, але, на відміну від дисперсії, воно має ті одиниці вимірювання, які мають елементи вибірки.

Коефіцієнт варіації ряду

                           

Якщо коефіцієнт варіації більший за 1 (більший за 100%), то елементи вибірки неоднорідні і вона не може бути використана у подальших дослідженнях.

Більшість числових характеристик у випадку незгрупованих даних можна обчислити з використанням табличного процесору Microsoft Excel. Основні вбудовані функції Excel, що застосовуються для таких розрахунків, надано у таблиці. Щоб викликати потрібну функцію, слід натиснути кнопку fx у командному рядку, обрати категорію Статистические та ім’я функції.

Статистичні функції Excel

Числові характеристики

Назва функції

Середнє

СРЗНАЧ (масив даних)

Середнє геометричне

СРГЕОМ (масив даних)

Мода

МОДА (масив даних)

Медіана

МЕДИАНА (масив даних)

Дисперсія

ДИСП (масив даних)

Середнє квадратичне відхилення

СТАНДОТКЛОН (масив даних)

Мінімальне значення

МИН (масив даних)

Максимальне значення

МАКС (масив даних)

Частота

ЧАСТОТА (масив даних; масив інтервалів)

k-е найбільше значення з ряду

НАИБОЛЬШИЙ (масив даних, k)

k-е найменше значення з ряду

НАИМЕНЬШИЙ (масив даних, k)

 

2. Довірчі інтервали і довірча імовірність

Однією з основних задач математичної статистики є оцінка числових характеристик (параметрів) генеральної сукупності за вибірковими даними.

Для вибірки можна обчислити такі числові характеристики, як: вибіркове середнє, мода, медіана, вибіркова дисперсія та вибіркове середнє квадратичне відхилення. Для генеральної сукупності часто визначаються не самі ці параметри, а довірчі інтервали.

Довірчим інтервалом для певного параметру генеральної сукупності називається такий числовий інтервал, в межах якого знаходиться цей параметр. Ймовірність, з якою довірчий інтервал захопить істинне значення параметру, називається довірчою ймовірністю або рівнем надійності і позначається .

Значення довірчої імовірності обирає дослідник залежно від того, яку ступінь точності розрахунків вимагає дослідження. Зазвичай це значення знаходиться в інтервалі від 0,9 до 0,999. Якщо вимоги точності дуже високі, то для довірчої ймовірності обирається значення 0,999; якщо підвищені – 0,99; звичайні – 0,95; знижені – 0,9.

Довірчі інтервали розраховуються з урахуванням певних вимог до генеральної сукупності. Зазвичай це вимога нормального розподілу її даних.

Нехай Х – генеральна сукупність, що підкоряється нормальному закону розподілу; генеральна дисперсія D невідома;  – вибірка з генеральної сукупності об’єму п;  - вибіркове середнє; σ – вибіркове середньоквадратичне відхилення. Потрібно знайти довірчий інтервал для генерального середнього а із заданим рівнем надійності .

Шуканий довірчий інтервал знаходиться за формулою:

,

де значення  знаходиться з таблиці розподілу Стьюдента, яка є у будь-яких статистичних довідниках, або за допомогою вбудованої функції Excel СТЬЮДРАСПОБР(, п-1). Величина  є шириною довірчого інтервалу.

 

Визначення довірчих інтервалів з використанням Excel.

Ширину довірчого інтервалу для генерального середнього можна знайти за допомогою вбудованої статистичної функції Excel            ДОВЕРИТ (альфа, станд_откл, размер). Параметр альфа – це так званий рівень значущості, ; параметр станд_откл – це вибіркове середнє квадратичне відхилення σ; параметр размер – це об’єм вибірки.

 

Контрольні запитання

1.Пояснити поняття: випадкова величина, генеральна сукупність, вибірка.

2.Пояснити різницю між варіаційним і статистичним рядом.

3.Як формуються дискретні та інтервальні статистичні ряди.

4.Як будується гістограма і полігон частот статистичного ряду?

5.Основні числові характеристики статистичних рядів.

6.Як знаходиться довірчий інтервал для генерального середнього.