Machine learning models for automated generation and prioritization of software test scenarios
Інформаційні технології управління
DOI: 10.32347/2412-9933.2026.65.141-149
УДК 005.8:005.94
Лопуга Олексій Миколайович
ORCID: https://orcid.org/0000-0001-6397-2710
Київський національний університет будівництва і архітектури, Київ, Україна
Аспірант кафедри інформаційних технологій
Історія статті:
Надійшла: 30.01.2026
Прийнята: 22.02.2026
Опублікована: 26.03.2026
МОДЕЛІ МАШИННОГО НАВЧАННЯ ДЛЯ АВТОМАТИЗАЦІЇ ГЕНЕРАЦІЇ
ТА ПРІОРИТЕЗАЦІЇ ТЕСТОВИХ СЦЕНАРІЇВ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ
Анотація. Досліджено можливості застосування моделей машинного навчання для автоматизації
процесів генерації та пріоритезації тестових сценаріїв програмного забезпечення (ПЗ) у
динамічному середовищі безперервної інтеграції (CI/CD). Актуальність роботи зумовлена
необхідністю швидкого формування висновків щодо якості програмних систем в умовах
експоненційного зростання кількості критичних додатків. Наукова новизна дослідження полягає у
розробці гібридного підходу, що вперше об’єднує ансамблеві моделі градієнтного бустингу (GBDT)
для прогнозування дефектів із алгоритмами навчання з підкріпленням (Q-learning) для адаптивної
пріоритезації тестів. Формалізовано задачу пріоритезації як задачу комбінаторної оптимізації з
ваговою функцією та визначено ключові метрики оцінки якості: APFD (Average Percentage of Faults
Detected) та її модифіковану версію NAPFD, яка враховує часові витрати. Розроблено оригінальну
онтологічну модель факторів впливу на якість ПЗ, що структурує внутрішні (складність коду),
зовнішні (інфраструктура) та людські чинники (кваліфікація розробників). Для агента навчання з
підкріпленням запропоновано модифіковану функцію винагороди, яка збалансовано враховує факт
виявлення дефекту, тривалість тесту та його історичну ефективність. Експериментальну
валідацію проведено на основі еталонних наборів даних із репозиторію AEEEM, що охоплюють
реальні дані про дефекти п’яти відкритих проєктів екосистеми Eclipse: JDT Core, Equinox, Lucene,
Mylyn та PDE. Результати порівняльного аналізу засвідчили, що інтеграція GBDT з Q-learning
забезпечує підвищення метрики APFD на 8,1% порівняно з найкращим базовим методом XGBoost
та на 4,6% порівняно з існуючим методом RETECS. Це підтверджує високу ефективність
запропонованого підходу для оптимізації тестових запусків при обмеженому часовому бюджеті.
Час навчання гібридної моделі становить 163,2 с, що є цілком прийнятним для практичного
впровадження у промислові pipeline-процеси розробки програмного забезпечення.
Ключові слова: тестування програмного забезпечення; генерація тестів; пріоритезація
тестів; градієнтне прискорення; машинне навчання; ітеративне навчання; безперервна
інтеграція
Аналіз та постановка проблеми
Наразі у світі кількість програмних продуктів,
що використовуються в критичних системах, зростає
експоненційно. За даними Stack Overflow Developer
Survey 2024, понад 78 % розробників працюють в
умовах безперервної інтеграції (CI/CD), де
автоматичне формування висновку щодо якості
програмного забезпечення (ПЗ) залишається
надзвичайно актуальним. Об’єктом тестування в
таких умовах виступають програмні модулі та
системи (ПМС), окремі елементи архітектури ПЗ,
компоненти, мікросервіси, API-інтерфейси та
інтеграційні зв’язки.
Перелік питань, які вирішуються експертами в
процесі виконання тестування ПЗ, не обмежуються
висновком щодо технічного стану (ТС), але майже
всі вони передбачають оцінювання ТС об’єкта та
впливу дефектів на функціонування системи в
цілому. З наведеної схеми видно, що висновок
залежить від переліку питань, які ставляться перед
експертом, що виконує тестування, а також від
результатів автоматизованого аналізу.
Вирішенню проблеми комп’ютеризації процесу
формування висновків присвячено низку робіт.
У [2] запропоновано модель спеціалізованої
інтелектуальної системи підтримки тестування ПЗ з
використанням нейро-нечітких моделей. Результати
дослідження засвідчили, що інтеграція нечіткої
© 2026 О. М. Лопуга. This article is published under the CC BY-NC-ND license.
141
Управління розвитком складних систем. 2026. No. 65.
ISSN 2219-5300
логіки з нейромережевими компонентами дає змогу
врахувати невизначеність експертних оцінок під час
прийняття рішень щодо якості програмних модулів,
що підвищує точність класифікації дефектів на
12–15% порівняно з детермінованими підходами.
У [3] показано можливість застосування методів
глибокого навчання для автоматичної генерації
тестових сценаріїв на основі аналізу вихідного коду.
Зокрема, авторами запропоновано метод A3Test, що
використовує механізм доповнення тверджень
(assertion augmentation) для підвищення релевантності
згенерованих тестів; результати експериментальної
валідації підтвердили зростання покриття коду на
18% та формалізовано процес автоматичної
верифікації згенерованих тестових випадків.
У [4] проведено систематичний огляд
використання великих мовних моделей (LLM) для
автоматичної
генерації
тестових
сценаріїв.
Результати показують, що LLM здатні аналізувати
вихідний код та документацію для створення
релевантних тестів з точністю до 73%.
У [5] досліджено можливість використання
методу навчання з підкріпленням (Reinforcement
Learning) для пріоритезації тестових випадків у CIсередовищі. Метод RETECS використовує Q-learning
для оптимізації порядку виконання тестів з
урахуванням історії попередніх запусків.
Метод ATRL-TCP [6] запропонував механізм
передавання уваги для більш ефективного
використання ознак тестових випадків роботі [7]
проведено
аналіз
застосування
градієнтного
бустингу для прогнозування дефектів ПЗ; показано,
що XGBoost демонструє найвищу точність серед
ансамблевих методів, проте інтеграція з методами RL
не розглядалась. Khan et al. [8] розробили end-to-end
фреймворк
TCP-Tune
для
автоматизованої
оптимізації гіперпараметрів ML-моделей при
пріоритезації тестів у CI.
1. Вперше
запропоновано
інтегровану
модель, яка поєднує GBDT для прогнозування
ймовірності виявлення дефектів із алгоритмом Qlearning для динамічної пріоритезації тестових
сценаріїв з урахуванням обмежень часового
бюджету та історії виконання тестів.
2. Удосконалено
постановку
задачі
пріоритезації тестів, яку формалізовано як задачу
комбінаторної оптимізації з ваговою функцією.
3. Розроблено
модифіковану
функцію
винагороди
для
алгоритму
навчання
з
підкріпленням, яка одночасно враховує факт
виявлення дефекту, тривалість виконання тесту та
історичну ефективність тестового сценарію.
4. Запропоновано
онтологічну
модель
факторів впливу на якість ПЗ, яка структурує
внутрішні, зовнішні та людські чинники.
5. Отримано
нові
експериментальні
результати: підвищення APFD на 8,1% порівняно з
XGBoost.
Аналіз наявних робіт засвідчує, що,
незважаючи на значний прогрес у застосуванні
ML-методів для тестування ПЗ, залишається
нерозв’язаною
проблема
поєднання
ансамблевих моделей прогнозування дефектів з
адаптивною RL-пріоритезацією у єдиному
pipeline.
Більшість
наявних
досліджень
зосереджуються або на прогнозуванні дефектів,
або на пріоритезації тестів, але не на інтеграції
обох підходів.
Наукова новизна дослідження полягає у
р (...truncated)