ANALYSIS OF EXISTING OBJECT DETECTION MODELS FOR UAV DETECTION ON THERMAL IMAGERY
ISSN (p) 0321-2211, ISSN (e) 2663-3450
Методи і системи оптично-електронної та цифрової обробки сигналів
МЕТОДИ І СИСТЕМИ ОПТИЧНО-ЕЛЕКТРОННОЇ ТА ЦИФРОВОЇ
ОБРОБКИ СИГНАЛІВ
DOI: 10.20535/1970.68(2).2024.318080
УДК 004.93
АНАЛІЗ ІСНУЮЧИХ МОДЕЛЕЙ ВИЯВЛЕННЯ БПЛА НА ТЕПЛОВІЗІЙНИХ
ЗОБРАЖЕННЯХ
Танчук В. С., Колобродов В. Г.
Національний технічний університет України
«Київський політехнічний інститут імені Ігоря Сікорського», Київ, Україна
E-mail: ,
У наші часи широкого використання набувають безпілотні літальні апарати (БПЛА). Вони підтвердили
свою ефективність, надійність та доцільність. Однак неналежне використання цієї технології може призвести до суттєвих порушень прав людини та створити значні загрози громадській безпеці. У зв’язку з чим повинні створюватися відповідні методи протидії БПЛА. Одним із напрямків, який активно розвивається в наш
час, є виявлення БПЛА на основі оптико-електронного випромінювання. Оскільки більшість таких систем розраховані на видимий діапазон, інфрачервоний (ІЧ) діапазон не так широко був досліджений. Виявлення БПЛА
на основі тепловізійних зображень може бути виконано, використовуючи штучний інтелект (ШІ). Наразі вже
існують готові підходи та моделі, які виконують задачі виявлення об’єктів, проте вони мають більш загальне
призначення.
Для огляду проблеми виявлення БПЛА на основі тепловізійних зображень та результатів ШІ, необхідно
провести аналіз найбільш ефективних моделей виявлення об’єктів для вирішення задачі визначення БПЛА у ІЧ
діапазоні. У цій роботі було проведено аналіз та порівняння таких моделей виявлення об’єктів, як YOLOv5 та
YOLOv8, Faster RCNN, DETR.
Для навчання моделей використовувались датасети, як в ІЧ діапазоні, так і у видимому. Було проведено
попередню цифрову обробку датасету зображень БПЛА у видимому діапазоні, для перетворення їх у псевдо
теплові. Це виконувалось з метою збільшення кількості тренувальних даних для моделей і тим самим покращення їх точності.
Результати показали, що такі моделі, як YOLOv8 та DETR, є найефективнішими для задач виявлення
БПЛА на тепловізійних зображеннях, проте їх точність і досі є недостатньою для ефективного використання
в системах захисту від БПЛА у реальному часі.
Ключові слова: безпілотний літальний апарат, штучний інтелект, модель виявлення об’єктів, YOLOv8,
YOLOv5, Faster RCNN, DETR, датасет, попередня обробка, середня точність виявлення, середнє значення повноти.
Вступ
Безпілотні літальні апарати (БПЛА) набули
значного використання в реаліях нашого часу завдяки своїй здатності ефективно та надійно виконувати різноманітні завдання. Використання даної
технології є економічно виправданим, оскільки
вартість виготовлення БПЛА є відносно низькою
порівняно зі складністю завдань, які вони можуть
вирішувати. Проте неналежне їх використання
може призвести до суттєвих порушень прав людини та створити значні загрози громадській безпеці.
Тому на протидію БПЛА повинні існувати відповідні ефективні методи захисту від них.
Однією з ключових складових задачі протидії
БПЛА є автоматизація процесу виявлення та націлювання на БПЛА, яка повинна забезпечувати
ефективну роботу за будь-яких умов: і вдень, і
вночі, і в туман, і в дощ тощо. В такому випадку,
можна скористатися тепловізійними системами,
через те, що вони мають змогу цілодобово виявляти об’єкт спостереження у складних умовах.
Для виконання задачі виявлення БПЛА на основі тепловізійного зображення можна скористатися системами штучного інтелекту (ШІ).
Наразі, активно досліджується виявлення
БПЛА на основі тепловізійних зображень та ШІ,
проте дані дослідження більше сконцентровані на
видимому діапазоні. В свою чергу, інфрачервоний
(ІЧ) діапазон потребує більш глибоких досліджень. Вже існують певні системи та моделі, які
більш менш здатні виявляти БПЛА.
Тому, є необхідність в дослідженні наявних
моделей виявлення БПЛА на основі ШІ, використовуючи тепловізійні зображення, для їх подальшого аналізу та огляду стану проблеми.
Вісник КПІ. Серія ПРИЛАДОБУДУВАННЯ, Вип. 68(2), 2024
5
ISSN (p) 0321-2211, ISSN (e) 2663-3450
Методи і системи оптично-електронної та цифрової обробки сигналів
Огляд моделей виявлення об'єктів
YOLOv8 та YOLOv5. YOLO (You Only Look
Once) – це серія моделей глибокого навчання, які
використовуються для виявлення об'єктів у реальному часі. Серед різних моделей виявлення об’єктів
фреймворк YOLO виділявся гарним балансом швидкості та точності, що дозволяє швидко та надійно
ідентифікувати об’єкти на зображеннях. YOLOv8 та
YOLOv5 є одними з найточніших моделей сімейства
YOLO. YOLOv8 остання модель створена компанією Ultralytics, характеризується високою точністю
та швидкодією. YOLOv5 старша, проте має більшу
надійність та більш оптимізована під різні задачі.
Загальна схема алгоритму цих моделей зображена
на рис. 1.
Принцип роботи YOLOv5 починається з вхідного зображення, яке спочатку змінюється до фіксованого розміру (зазвичай 640x640 пікселів). Після
цього зображення проходить через основну мережу
(backbone), назва якої CSPDarknet53. Ця мережа відповідає за визначення характеристик зображення,
перетворюючи його на множину ознак (features).
Проміжна мережа (neck), яка використовує PANet
(Path Aggregation Network), комбінує характеристики з різних рівнів мережі, що допомагає краще виявляти об'єкти різних розмірів. На виході (head) модель генерує передбачення для кожної комірки сітки
зображення. Це передбачення включає координати
рамок об'єктів, ймовірність наявності об'єктів та
класифікацію об'єктів. Для обробки рамок об'єктів
використовуються анкерні рамки (anchors), які представляють собою попередньо визначені розміри та
співвідношення сторін рамок. Модель прогнозує
зміщення від цих анкерів, щоб краще відповідати
об'єктам на зображенні. Фінальний крок, застосовування алгоритм Non-Maximum Suppression (NMS)
[1] для усунення дублюючих рамок та вибору найбільш вірогідних передбачень [2].
Рис. 1. Принцип роботи YOLOv5 та YOLOv8 моделей
YOLOv8, як і його попередник, використовує
схожий принцип роботи, але з деякими покращеннями. Початок процесу також полягає у зміні розміру вхідного зображення до фіксованого розміру
та проходження через основну мережу, яка є вдосконаленою версією CSPDarknet53. Відмінність
YOLOv8 полягає в більш вдосконаленій архітектурі проміжної мережі (neck), яка може включати
додаткові шари та оптимізації для покращення
обробки характеристик. На виході модель також
генерує передбачення координат рамок, ймовірностей об'єктів та їх класифікації. Однак, YOLOv8
може використовувати anchor-free підхід, що усуває необхідність у попередньо визначених анкерних рамках. Замість цього, модель безпосередньо
передбачає центри, ширину та висоту рамок об'єктів. Це значно спрощує процес налаштування моделі [3].
FasterR-CNN. Faster R-CNN (Region-based
Convolutional Neural Network) є однією з провідних
моделей для виявлення об'єктів, яка поєднує в собі
високу точність та ефективність. Faster R-CNN
побудована на основі ідей попередніх моделей,
таких як R-CNN [4] і Fast R-CNN [5]. Головна відмінність від попередніх моделей – це (...truncated)