5.5. Основні види задач оптимального управління

Багато конкретних задач оптимального управління можуть бути віднесені до однієї з наступних основних задач.

3адача I. Потрібно визначити такі керуючі сигнали:

U⁰=ȹ₁ (V, t), (5.6)

які задовольняють умовам (5.4) і (5.5) і мінімізують функціонал (5.2) (або 5.3).

Прикладами такого завдання можуть слугувати завдання оптимального управління за різними техніко-економічними показниками: продуктивністю, собівартістю, доходом і т.д.

Для наближеного вирішення поставленого завдання на відрізку часу , шукатимемо U (𝜏) в класі кусочно-постійних управлінь із одним і тим же кроком Δt сталості U (𝜏). Нехай NΔt = , ,

Вектор-функції V(𝜏) і Y(𝜏) можна наближено замінити послідовностями дискретних значень у моменти часу і тоді в функціоналі (1) U, V і Y можна розглядати як вектори розмірності відповідно r×N, s×N і n×N.

Така заміна безперервної задачі дискретною виправдовується ще й тим, що в багатьох випадках відома дискретна модель об'єкта, т.т. зазначена заміна передбачається з самого початку рішення задачі і зумовлена вихідними даними.

Обмеження (5.4) і (5.5) можна наближено представити так:

m_s≤ u_s(t_j) ≤M_s , s=, , j= (5.7)

l_i+δ_ij≤ u_s(t_j) ≤L_s - δ_ij , s=, , j= (5.8)

де δ_ij- враховує той факт, що y_i{t_j) не повинно виходити з допустимих меж не тільки в момент часу t_j, але і в будь-який момент часу t_j+θ, θ ≤ Δt.

Отже, наближене рішення початкової задачі можна отримати мінімізацією функції (U, V, t_N) або r (U, V, t_N) по r×N - змінних U при обмеженнях (5.7) і (5.8).

Якщо обмеження (5.7) і (5.8) такі, що виділена ними множина компактна, то, очевидно, при Δt 0 рішення останньої задачі зводиться до вирішення вихідної задачі.

Задачу I будемо називати задачею управління в динаміці, якщо kΔt =T, де k≥1 - ціле, а T, як і раніше - оцінка часу закінчення перехідних процесів по всіх каналах X - У.

Якщо Δt > Т, задачу I будемо називати задачею управління в статиці. У цьому випадку вона має такий зміст: потрібно знайти таке, задовольняюче обмеженням (5.4) і (5.5) управління U⁰, постійне на Δt, для якого приріст «доходу» за час Δt - Т буде максимальним.

Задача II. Потрібно визначити такі керуючі сигнали:

U⁰=φ₂ (V, t), (5.9)

які задовольняють умови (5.4) і (5.5), змінюють У(τ) наперед заданим законом (або з наперед заданої метою) і одночасно мінімізують функціонал (5.2) (або (5.3).

Прикладами цієї задачі можуть слугувати задачі оптимального управління за швидкодією, коли потрібно перевести Y (𝜏) від значення Y₀ =(t₀) до значення У_* (𝜏) за мінімальний час t−t₀, а також завдання оптимальної стабілізації параметрів, коли потрібно, щоб У(𝜏) весь час найкращим чином наближалося до наперед заданого У_* (𝜏).

Можлива, звичайно, і така постановка задачі, коли потрібно перевести У (т) від Y₀ =(t₀) до У_* (𝜏) і одночасно оптимізувати деякий техніко-економічний показник.

Формально задачу II неважко звести з будь-яким ступенем точності до задачі I. Це можна зробити, наприклад, шляхом введення штрафного досить великого множника λ і нового цільового функціоналу

G₁ = G + λ || Y –|| (5.10)

де || Y - || - міра неузгодженості реального виходу Y і необхідного Y_*.

Як видно, всі розглянуті задачі легко зводяться до тих чи інших задач нелінійного програмування.

У задачах, які розглядаємо, присутній елемент випадковості. Це призводить до того, що доводиться вирішувати задачі управління з неповною інформацією про об'єкт. Отримати цю інформацію можна вивченням об'єкта під час самого процесу управління. Тому в загальному випадку алгоритм управління повинен вирішувати два тісно пов'язані завдання: на підставі реєстрації величин V і Y проводити вивчення об'єкта, тобто уточнення його статистичних характеристик, використовуючи які вирішувати завдання вибору управлінь тобто приведення об'єкта до необхідного стану.

Алгоритми управління можна розділити на алгоритми з пасивним накопиченням інформації про об'єкт, тобто незалежних від алгоритму управління та алгоритми з активним накопиченням інформації про об'єкт, тобто коли в процесі управління робляться пробні впливи U, які сприяють швидшому вивченню об'єкту.

У разі, коли відсутня апріорна інформація про розподіл Y і, отже, функціонал виду (5.2) в явній формі невідомий, можна застосовувати алгоритми оптимізації, які називають алгоритмами навчання. Вони дозволяють вирішувати задачі оптимізації без попереднього вивчення ймовірнісних характеристик процесу, тобто знаходити мінімум функціоналу виду (5.2) за наочними окремими реалізаціями випадкової величини виду (5.1). В основі цих алгоритмів лежать методи стохастичної апроксимації.

Відзначимо, що одним із найважливіших питань, що вивчаються в теорії автоматичного управління, є питання про стійкість. Коротко, грунтуючись на інтуїції, можна сказати, що система стійка, якщо малі впливи призводять до малих ефектів, і нестійка, якщо це положення не завжди має місце.

У подальшому часто передбачатиметься, що рух об'єкта з достатньою точністю можна описати лінійною динамічною моделлю і остання представляється у вигляді системи інтегральних залежностей. Ця модель має в порівнянні з широко застосовуючою моделлю у вигляді системи диференціальних рівнянь ряд переваг. До таких переваг відноситься, наприклад, те, що об'єкт може мати дуже велику розмірність за числом фазових координат, у той час як кількість його вихідних величин (кількість інтегральних залежностей в моделі) може бути порівняно малою. Крім того, об'єкт може мати розриви і тимчасові затримки, що також може ускладнити застосування моделі в диференційній формі. Нагадаємо також, що функцію k_ij(t,𝜏) можна інтерпретувати як реакцію y_i (t) системи на імпульсну функцію (δ-функцію) x_j (θ) = δ (θ - 𝜏), x_k≡ 0, k≠j, прикладену в момент θ = 𝜏 і, відповідно, її можна отримати з експерименту [3].