Тема 1. Основи теорії інформації та кодування

План

1.      Основні поняття теорії інформації та кодування

2.      Моделі інформаційних систем

3.      Види інформації. Теорема дискретизації

4.      Предмет теорії інформації та кодування

 

1.      Базові поняття теорії інформації

            У найзагальнішому розумінні інформація – це передавання, відображення певного різноманіття. В теорії інформації інформацію розглядають як кількісну міру усунення невизначеності, що зменшується у результаті отримання якихось відомостей.

Отже, інформація – це об'єктивно існуючий зміст, який характеризує стан і поведінку певної системи загалом або її окремих елементів та зменшує ступінь невизначеності у процесі його пізнання і переробки. Інформація протилежна невизначеності.

Виробничі процеси, а також процеси в природному середовищі пов’язані з передачею, одержанням, перетворенням, нагромадженням, зберіганням і відображенням інформації.

При цьому існують різні визначення інформації.

Як правило, під інформацією в широкому сенсі розуміють нові відомості про навколишній світ, які ми одержуємо в результаті взаємодії з ним, пристосування до нього й зміни його в процесі пристосування.

Найбільш узагальнюючим є таке визначення інформації. Інформація ‑ це відомості, які є об’єктом зберігання, передачі й перетворення.

У найзагальнішому розумінні інформація – це передавання, відображення певного різноманіття. В теорії інформації інформацію розглядають як кількісну міру усунення невизначеності, що зменшується у результаті отримання якихось відомостей.

Потрібно розрізняти поняття «інформація» і «повідомлення».

 Повідомлення ‑ це форма подання інформації. Наприклад, при телеграфній передачі повідомленням є текст телеграми, що являє собою послідовність різних символів. При розмові пові-домлення являє собою механічні коливання з різною частотою й інтенсивністю голосових зв’язок людини. При телевізійних чорно-білих передачах повідомлення є зміною в часі яскравості елементів переданого зображення. При кольорових телевізійних передачах повідомлення також подається зміною кольору елементів зображення і т.д.

Усі повідомлення за характером змінюються в часі і їх поділяють на неперервні і дискретні. Неперервні в часі повідомлення відображаються неперервною функцією часу, рис.1.1.

 

  

                           а)                                       б)

 

Рисунок 1.1

  Дискретні повідомлення характеризуються тим, що вони надходять у певні моменти часу і описуються дискретною функцією часу, рис.1.1.

Кодування - перетворення інформації на впорядкований набір символів, елементів, знаків. При кодуванні кожному повідомленню з деякої множини, що називається ансамблем повідомлень, ставиться у відповідність зумовлена кодова комбінація - набір символів (елементів, знаків). Множина повідомлень називається алфавітом повідомлень, або первинним алфавітом, а множина символів (елементів, знаків) називається алфавітом джерела, або вторинним алфавітом. Побудована відповідно до певної схеми кодування множина кодових комбінацій називається кодом. Залежно від алфавіту, що використовується для побудови кодових комбінацій, розрізняють двійкові (бінарні) коди, алфавіт яких складається з двох символів: 0 і 1 і недвійкові (багатопозиційні, q-коди), алфавіт яких містить більшу кількість символів.

За функціональним призначенням коди поділяють на безнадмірні (некоригувальні, первинні, прості) і надмірні (коригувальні, завадостійкі). Перша група кодів призначена для економного кодування інформації – стиснення. Друга використовується для виявлення та/чи виправлення помилок, що виникають у процесі передачі даних каналом зв'язку із завадами.

Для перетворення первинного сигналу до вигляду, придатного для використання в лінії зв'язку, використовується передавач (модулятор). У передавальному пристрої відбувається дія (вплив) на один або декілька параметрів носія за законом, який прийнятий при кодуванні повідомлень. Цей процес називають модуляцією, а модульовані параметри    інформативними.

Як правило,  при передачі  на сигнали впливають перешкоди. Під перешкодами розуміють вплив атмосферних перешкод або вплив сторонніх джерел сигналів, а також зміни сигналів у самій апаратурі (апаратурні перешкоди). Усі ці перешкоди викликають випадкові відхилення прийнятого повідомлення від переданого.

На боці прийому інформації відбувається відновлення за прийнятим сигналом переданого повідомлення. Для цього спочатку проводять демодуляцію сигналу, внаслідок чого відновлюється прийнятий сигнал переданого повідомлення. Під впливом перешкод  прийнятий сигнал може значно відрізнятися від переданого. Тому для його відновлення у розв’язувальному  пристрої відбувається обробка отриманого з лінії зв'язку сигналу з метою найбільш повного відтворення тієї інформації, яка передавалася на передавальному пристрої. Процедури обробки сигналів у розв’язувальному  пристрої різні: фільтрація; обмеження; інтеграція; сума  сигналів і т. п. Після обробки сигналів відбувається їх декодування, тобто перетворення сигналів  на повідомлення, яке надходить одержувачу. На практиці часто необхідно забезпечити незалежну передачу повідомлень від декількох джерел. Але використання різних каналів зв'язку при цьому є економічно невигідним. Тому виникає завдання побудови систем, в якій використовують одну лінію зв'язку для передачі повідомлень від різних джерел. Такі системи називають багатоканальними. У багатоканальних системах на передавальному боці необхідно мати формувач канальних ознак (пристрій ущільнення), а на приймальному  боці – пристрій розділення сигналів.

Сигнали за своєю структурою у каналі зв'язку повинні поділятися на: неперервні за рівнем і часом; дискретні за рівнем і часом; дискретні за рівнем і неперервні за часом; неперервні за рівнем і дискретні за часом.

       Сигнали, неперервні за рівнем і часом, називають неперервними,  вони мають вигляд, наведений на  рис.1.1а. Сигнали,  дискретні за рівнем і часом,  називають дискретними і вони мають вигляд, наведений на  рис. 1.2а. Квантування за рівнем і часом є заміною  неперервного сигналу Х (t), рис.1.21а, безліччю його дискретних значень у фіксовані моменти часу, які відрізняються між собою, рис. 1.3а.

 

а)                                 б)

 

                                 в)                               г)

Рисунок  1.2

Сигнали,  дискретні за рівнем і неперервні за часом,  називають дискретно-неперервними, рис.1.2б. Сигнали, неперервні за рівнем і дискретні за часом, називають дискретно-неперервними, рис.1.2в. На практиці з цієї групи сигналів найбільше застосування мають сигнали, неперервні за рівнем і дискретні за часом, оскільки  вони найбільш просто реалізуються в технічних пристроях. Передача сигналів будь-яким реальним каналом зв'язку завжди пов'язана з граничною частотою пропускання, перевищення якої призводить до спотворення  сигналів. А якщо необхідно передати каналом зв'язку неперервний сигнал, то його попередньо квантують із періодом квантування , який дає можливість потім точно відтворити початковий неперервний сигнал, рис. 1.3г.

Коди можуть бути рівномірними і нерівномірними - з постійною і змінною кількістю розрядів.

Канал зв'язку - це середовище передачі інформації, що характеризується максимально можливою для нього швидкістю передачі даних – пропускною здатністю, або ємністю каналу.

Пропускну здатність каналу зв'язку без шуму можна наближено обчислити, знаючи максимальну частоту хвильових процесів, допустимих у цьому каналі. Вважається, що швидкість передачі даних може бути не менше цієї частоти. Типові канали зв'язку: телеграфний, телефонний, оптоволоконний, цифровий телефонний. Найбільш поширені телефонні лінії зв'язку, для яких досягнута швидкість передачі даних, >50 Кбод.

Сигнал – це матеріальний переносник повідомлення. Сигнали можуть бути: електричні; електромагнітні; світлові; механічні; звукові; ультразвукові і т.д. Для передачі повідомлень необхідно застосовувати той переносник, який може ефективно поширюватися при використанні лінії зв'язку. Наприклад, по електричній лінії зв'язку найбільш легко проходить постійний струм і змінні струми невисоких частот (не більше кількох десятків кГц) з використанням радіолінії ефективно поширюються тільки електромагнітні коливання високих частот (від 100 кГц до 10 тис. мГц).

Будь-який сигнал характеризується такими основними параметрами: тривалістю, шириною частотного спектра та динамічним діапазоном.

Під тривалістю Тс сигналу розуміють час, протягом якого він знаходиться в каналі зв’язку. Частотний спектр Fc сигналу визначає смугу частот, яку він охоплює під час передачі в каналі зв’язку. Залежно від виду сигналу (аналоговий, дискретний) частотний спектр може бути і нескінченним; тому на практиці його обмежують для можливості передачі в каналах з обмеженою смугою частот. Так, телефонні розмови ведуться в каналах зі смугою пропускання 3100 Гц (300...3400 Гц), хоча сам початковий сигнал займає спектр до 15 ... 17 кГц.

Середньою потужністю Рс сигналу є потужність, яка забезпечується апаратурою під час його надходження до каналу зв’язку. На практиці частіше замість Рс користуються поняттям динамічного діапазону Dс, що визначається логарифмом відношення найбільшої (максимальної) миттєвої потужності сигналу (Pc maxPc) до найменшої (мінімальної) Pc min, дозволене значення якої дорівнює потужності завад (Pc min=Pз)

Dc = log(Pc/Pз).                                                                  (1.1)

Ці параметри сигналу є його обсягом

VсTсFсDс.                                                                        (1.2)

 

      Лінія зв'язку – фізичне середовище,  яким  поширюються сигнали від передавача до приймача.

Шум - це завади в каналі зв'язку.

Узагальнена схема системи передачі інформації має такий вигляд (рис. 1.3).

 

 

2.      Моделі інформаційних систем.

Під інформаційною розуміють будь-яку систему, яка за допомогою технічних засобів виконує одну або кілька таких функцій, як збирання, передавання, перетворення, накопичення, зберігання та оброблення інформації.

За функціональною ознакою інформаційні системи можна поділити на: системи електрозв’язку; системи передачі даних; інформаційно-вимірювальні системи; системи перетворення інформації; інформаційно-пошукові системи; системи зберігання інформації; автоматизовані системи керування; системи експериментальних досліджень та ін.

Найпоширенішими в повсякденному житті є системи електрозв’язку та передачі даних, які можна об’єднати назвою систем передачі інформації (СПІ).

Структурна схема інформаційної системи має такий вигляд.

 

Рисунок 1.4

 

Призначення блоків і робота системи має такий вигляд. Кожне повідомлення для передачі його у відповідну адресу має бути попередньо перетворено у сигнал.

 

 

3.      Види інформації. Теорема дискретизації

При формальному поданні знань кожному досліджуваному об'єкту ставиться у відповідність числовий код, зв'язки між об'єктами так само подаються кодами. Для переведення неформальних даних у формальний цифровий вигляд використовуються спеціальні таблиці кодування. Найпростіший приклад такої таблиці - ASCII (American Standard Code for Information Interchange), що зіставляє друкованим та керуючим символам числа від 0 до 127.

Інформація може бути двох видів: дискретна (цифрова) і неперервна (аналогова).

Неперервна інформація – це дані, що одержані при  неперервному за часом процесі змінювання деякої випадкової величини і описуються неперервними (аналоговими) функціями.

Дискретна інформація – це цифрові дані, одержані у результаті квантування (дискретизації) неперервної величини за часом, рівнем або тим і іншим одночасно (рис.1.5). Дискретну інформацію зберігати і обробляти набагато простіше, оскільки вона являє собою послідовність чисел. У двійковій системі числення дискретна інформація являє собою послідовність 0 та 1.

 

За найменшу одиницю ємності цифрової інформації беруть біт (bit, binary digit) – одну позицію для двійкової цифри. Складені одиниці: 1 Кб = 210 = 1024 б; 1 Мб = 2­­­­­­­­20 ≈ 106 б; 1 Гб = 230 ≈ 109 б; 1 Тб = 240 ≈ 1012 б; 1 Пб = 250 ≈ 1015 б.

Для переведення неперервної інформації в дискретну і навпаки використовуються спеціальні пристрої модуляції/демодуляції - модеми. Швидкість передачі інформації вимірюється в кількості переданих за одну секунду бітів – бодах (baud): 1 бод = 1 біт/с (bps).

Пристрій, що реалізовує процес дискретизації неперервного сигналу, називається аналогово-цифровим перетворювачем (АЦП). Частота, з якою АЦП проводить виміри аналогового сигналу і видає його цифрові значення, називається частотою дискретизації. Пристрій, що інтерполює дискретний сигнал у неперервний називається цифро-аналоговим перетворювачем.

Чим вища частота дискретизації, тим точніше переведення неперервної інформації в дискретний сигнал. Проте із зростанням частоти зростає і розмір дискретних даних і, отже, складність їхнього оброблення, передачі і зберігання.

При всіх якісних відмінностях між неперервною і дискретною величинами існує чіткий зв'язок, встановлюваний теоремою дискретизації Шеннона-Котельникова.

Як відомо з відповідного розділу математичного аналізу, будь-яка неперервна функція S(t) може бути розкладеною на скінченному проміжку в ряд Фур’є. Суть цього розкладання полягає в тому, що функція подається у вигляді суми ряду синусоїд з різними амплітудами і фазами, і з кратними частотами. Коефіцієнти (амплітуди) при синусоїдах називаються спектром функції. У гладких функцій спектр швидко спадає (із зростанням номера коефіцієнти швидко прямують до нуля). Для швидко змінюваних функцій спектр спадає поволі, оскільки в сумі гармонічного ряду таких функцій переважають синусоїди з високими частотами.

Вважається, що сигнал має обмежений спектр, якщо після певного номера всі коефіцієнти спектру прямують до нуля. Іншими словами, на заданому проміжку часу сигнал подається у вигляді скінченної суми ряду Фурє. В цьому випадку говорять, що спектр сигналу знаходиться нижче за граничну частоту fм, де fм - частота синусоїди при останньому ненульовому коефіцієнті.

Теорема дискретизації формулюється так:

Неперервна інформація S(t) з обмеженим спектром, тобто така, що має в своєму спектрі складові з частотами, що не перевищують деяку максимальну частоту спектру fм,, повністю відтворюється послідовністю відліків S(ti), узятих в дискретні моменти часу з інтервалом .

 

4.      Предмет теорії інформації та кодування

Теорія інформації ‑ це розділ кібернетики, в якому за допомогою математичних методів вивчаються способи вимірювання кількості інформації, що міститься в будь-яких повідомленнях, способи кодування для економічного подання повідомлень і надійної передачі їх каналами зв’язку з завадами.

Курс теорії інформації об’єднує такі теоретичні напрями, як математичні моделі та частотний аналіз каналів і сигналів, кількісна оцінка інформації, кодування повідомлень, їх стиснення, оцінка ефективності та завадостійкості передачі кодованих повідомлень.

Одним із головних завдань теорії інформації є максимальне використання потенційних можливостей каналів зв’язку на основі оптимального кодування джерела повідомлення та його подальшого завадостійкого кодування. Це збігається з завданням теорії кодування ‑ розробкою ефективних алгоритмів кодування для джерел повідомлень і передачі даних каналами зв’язку.

Теорія інформації та кодування за своєю природою дуже близька до математичних дисциплін; тому як апарат досліджен­ня в ній застосовуються теорія скінченних полів, лінійна алгеб­ра, комбінаторика, теорія матриць, теорія ймовірностей та ма­тематична статистика.

Без розвитку теорії інформації та кодування і впровадження її в життя практично неможливо створення складних систем керування супутниками Землі та ракетами, систем і мереж зв'яз­ку та передачі даних, складних ЕОМ і комплексів тощо.

Методом теорії інформації є сукупність прийомів дослідження інформаційних систем (наприклад, методи оцінки інформаційної здатності джерела інформації, пропускної спроможності систем передачі інформації, інформаційної місткості пристроїв, місткості запам’ятовуючих пристроїв).

Теорія інформації і кодування встановлює критерії оцінки завадостійкості та ефективності інформаційних систем, а також указує загальні шляхи підвищення завадостійкості та ефективності інформаційних систем.