Machine learning models for automated generation and prioritization of software test scenarios

Management of complex systems development, Mar 2026

The study explores the possibilities of applying machine learning models to automate the generation and prioritization of software test scenarios within a dynamic continuous integration (CI/CD) environment. The relevance of the work is driven by the need for rapid quality assessment of software systems amidst the exponential growth of critical applications. The scientific novelty of the research lies in the development of a hybrid approach that, for the first time, integrates ensemble Gradient Boosted Decision Tree (GBDT) models for defect prediction with Reinforcement Learning (Q-learning) algorithms for adaptive test prioritization. The prioritization task is formalized as a combinatorial optimization problem with a weight function, and key quality metrics are defined: APFD (Average Percentage of Faults Detected) and its time-aware modification, NAPFD. An original ontological model of factors influencing software quality has been developed, structuring internal (code complexity), external (infrastructure), and human factors (developer qualification). A modified reward function for the reinforcement learning agent is proposed, which balances defect detection, test execution duration, and historical efficiency. Experimental validation was conducted using benchmark datasets from the AEEEM repository, covering real-world defect data from five open-source Eclipse ecosystem projects: JDT Core, Equinox, Lucene, Mylyn, and PDE. Comparative analysis results showed that the integration of GBDT with Q-learning provides an 8.1% improvement in the APFD metric compared to the best baseline method, XGBoost, and a 4.6% improvement over the existing RETECS method. This confirms the high efficiency of the proposed approach for optimizing test runs under limited time budgets. The training time of the hybrid model is 163.2 seconds, which is entirely acceptable for practical implementation in industrial software development pipelines.

Article PDF cannot be displayed. You can download it here:

https://mdcs.knuba.edu.ua/article/download/357147/343087

Machine learning models for automated generation and prioritization of software test scenarios

Інформаційні технології управління DOI: 10.32347/2412-9933.2026.65.141-149 УДК 005.8:005.94 Лопуга Олексій Миколайович ORCID: https://orcid.org/0000-0001-6397-2710 Київський національний університет будівництва і архітектури, Київ, Україна Аспірант кафедри інформаційних технологій Історія статті: Надійшла: 30.01.2026 Прийнята: 22.02.2026 Опублікована: 26.03.2026 МОДЕЛІ МАШИННОГО НАВЧАННЯ ДЛЯ АВТОМАТИЗАЦІЇ ГЕНЕРАЦІЇ ТА ПРІОРИТЕЗАЦІЇ ТЕСТОВИХ СЦЕНАРІЇВ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ Анотація. Досліджено можливості застосування моделей машинного навчання для автоматизації процесів генерації та пріоритезації тестових сценаріїв програмного забезпечення (ПЗ) у динамічному середовищі безперервної інтеграції (CI/CD). Актуальність роботи зумовлена необхідністю швидкого формування висновків щодо якості програмних систем в умовах експоненційного зростання кількості критичних додатків. Наукова новизна дослідження полягає у розробці гібридного підходу, що вперше об’єднує ансамблеві моделі градієнтного бустингу (GBDT) для прогнозування дефектів із алгоритмами навчання з підкріпленням (Q-learning) для адаптивної пріоритезації тестів. Формалізовано задачу пріоритезації як задачу комбінаторної оптимізації з ваговою функцією та визначено ключові метрики оцінки якості: APFD (Average Percentage of Faults Detected) та її модифіковану версію NAPFD, яка враховує часові витрати. Розроблено оригінальну онтологічну модель факторів впливу на якість ПЗ, що структурує внутрішні (складність коду), зовнішні (інфраструктура) та людські чинники (кваліфікація розробників). Для агента навчання з підкріпленням запропоновано модифіковану функцію винагороди, яка збалансовано враховує факт виявлення дефекту, тривалість тесту та його історичну ефективність. Експериментальну валідацію проведено на основі еталонних наборів даних із репозиторію AEEEM, що охоплюють реальні дані про дефекти п’яти відкритих проєктів екосистеми Eclipse: JDT Core, Equinox, Lucene, Mylyn та PDE. Результати порівняльного аналізу засвідчили, що інтеграція GBDT з Q-learning забезпечує підвищення метрики APFD на 8,1% порівняно з найкращим базовим методом XGBoost та на 4,6% порівняно з існуючим методом RETECS. Це підтверджує високу ефективність запропонованого підходу для оптимізації тестових запусків при обмеженому часовому бюджеті. Час навчання гібридної моделі становить 163,2 с, що є цілком прийнятним для практичного впровадження у промислові pipeline-процеси розробки програмного забезпечення. Ключові слова: тестування програмного забезпечення; генерація тестів; пріоритезація тестів; градієнтне прискорення; машинне навчання; ітеративне навчання; безперервна інтеграція Аналіз та постановка проблеми Наразі у світі кількість програмних продуктів, що використовуються в критичних системах, зростає експоненційно. За даними Stack Overflow Developer Survey 2024, понад 78 % розробників працюють в умовах безперервної інтеграції (CI/CD), де автоматичне формування висновку щодо якості програмного забезпечення (ПЗ) залишається надзвичайно актуальним. Об’єктом тестування в таких умовах виступають програмні модулі та системи (ПМС), окремі елементи архітектури ПЗ, компоненти, мікросервіси, API-інтерфейси та інтеграційні зв’язки. Перелік питань, які вирішуються експертами в процесі виконання тестування ПЗ, не обмежуються висновком щодо технічного стану (ТС), але майже всі вони передбачають оцінювання ТС об’єкта та впливу дефектів на функціонування системи в цілому. З наведеної схеми видно, що висновок залежить від переліку питань, які ставляться перед експертом, що виконує тестування, а також від результатів автоматизованого аналізу. Вирішенню проблеми комп’ютеризації процесу формування висновків присвячено низку робіт. У [2] запропоновано модель спеціалізованої інтелектуальної системи підтримки тестування ПЗ з використанням нейро-нечітких моделей. Результати дослідження засвідчили, що інтеграція нечіткої © 2026 О. М. Лопуга. This article is published under the CC BY-NC-ND license. 141 Управління розвитком складних систем. 2026. No. 65. ISSN 2219-5300 логіки з нейромережевими компонентами дає змогу врахувати невизначеність експертних оцінок під час прийняття рішень щодо якості програмних модулів, що підвищує точність класифікації дефектів на 12–15% порівняно з детермінованими підходами. У [3] показано можливість застосування методів глибокого навчання для автоматичної генерації тестових сценаріїв на основі аналізу вихідного коду. Зокрема, авторами запропоновано метод A3Test, що використовує механізм доповнення тверджень (assertion augmentation) для підвищення релевантності згенерованих тестів; результати експериментальної валідації підтвердили зростання покриття коду на 18% та формалізовано процес автоматичної верифікації згенерованих тестових випадків. У [4] проведено систематичний огляд використання великих мовних моделей (LLM) для автоматичної генерації тестових сценаріїв. Результати показують, що LLM здатні аналізувати вихідний код та документацію для створення релевантних тестів з точністю до 73%. У [5] досліджено можливість використання методу навчання з підкріпленням (Reinforcement Learning) для пріоритезації тестових випадків у CIсередовищі. Метод RETECS використовує Q-learning для оптимізації порядку виконання тестів з урахуванням історії попередніх запусків. Метод ATRL-TCP [6] запропонував механізм передавання уваги для більш ефективного використання ознак тестових випадків роботі [7] проведено аналіз застосування градієнтного бустингу для прогнозування дефектів ПЗ; показано, що XGBoost демонструє найвищу точність серед ансамблевих методів, проте інтеграція з методами RL не розглядалась. Khan et al. [8] розробили end-to-end фреймворк TCP-Tune для автоматизованої оптимізації гіперпараметрів ML-моделей при пріоритезації тестів у CI. 1. Вперше запропоновано інтегровану модель, яка поєднує GBDT для прогнозування ймовірності виявлення дефектів із алгоритмом Qlearning для динамічної пріоритезації тестових сценаріїв з урахуванням обмежень часового бюджету та історії виконання тестів. 2. Удосконалено постановку задачі пріоритезації тестів, яку формалізовано як задачу комбінаторної оптимізації з ваговою функцією. 3. Розроблено модифіковану функцію винагороди для алгоритму навчання з підкріпленням, яка одночасно враховує факт виявлення дефекту, тривалість виконання тесту та історичну ефективність тестового сценарію. 4. Запропоновано онтологічну модель факторів впливу на якість ПЗ, яка структурує внутрішні, зовнішні та людські чинники. 5. Отримано нові експериментальні результати: підвищення APFD на 8,1% порівняно з XGBoost. Аналіз наявних робіт засвідчує, що, незважаючи на значний прогрес у застосуванні ML-методів для тестування ПЗ, залишається нерозв’язаною проблема поєднання ансамблевих моделей прогнозування дефектів з адаптивною RL-пріоритезацією у єдиному pipeline. Більшість наявних досліджень зосереджуються або на прогнозуванні дефектів, або на пріоритезації тестів, але не на інтеграції обох підходів. Наукова новизна дослідження полягає у р (...truncated)


This is a preview of a remote PDF: https://mdcs.knuba.edu.ua/article/download/357147/343087
Article home page: https://mdcs.knuba.edu.ua/article/view/357147/343087

Лопуга Олексій Миколайович. Machine learning models for automated generation and prioritization of software test scenarios, Management of complex systems development, 2026, pp. 141-149,