Machine learning models for automated generation and prioritization of software test scenarios (pdf)

Article PDF cannot be displayed. You can download it here:

https://mdcs.knuba.edu.ua/article/download/357147/343087

Machine learning models for automated generation and prioritization of software test scenarios

Інформаційні технології управління DOI: 10.32347/2412-9933.2026.65.141-149 УДК 005.8:005.94 Лопуга Олексій Миколайович ORCID: https://orcid.org/0000-0001-6397-2710 Київський національний університет будівництва і архітектури, Київ, Україна Аспірант кафедри інформаційних технологій Історія статті: Надійшла: 30.01.2026 Прийнята: 22.02.2026 Опублікована: 26.03.2026 МОДЕЛІ МАШИННОГО НАВЧАННЯ ДЛЯ АВТОМАТИЗАЦІЇ ГЕНЕРАЦІЇ ТА ПРІОРИТЕЗАЦІЇ ТЕСТОВИХ СЦЕНАРІЇВ ПРОГРАМНОГО ЗАБЕЗПЕЧЕННЯ Анотація. Досліджено можливості застосування моделей машинного навчання для автоматизації процесів генерації та пріоритезації тестових сценаріїв програмного забезпечення (ПЗ) у динамічному середовищі безперервної інтеграції (CI/CD). Актуальність роботи зумовлена необхідністю швидкого формування висновків щодо якості програмних систем в умовах експоненційного зростання кількості критичних додатків. Наукова новизна дослідження полягає у розробці гібридного підходу, що вперше об’єднує ансамблеві моделі градієнтного бустингу (GBDT) для прогнозування дефектів із алгоритмами навчання з підкріпленням (Q-learning) для адаптивної пріоритезації тестів. Формалізовано задачу пріоритезації як задачу комбінаторної оптимізації з ваговою функцією та визначено ключові метрики оцінки якості: APFD (Average Percentage of Faults Detected) та її модифіковану версію NAPFD, яка враховує часові витрати. Розроблено оригінальну онтологічну модель факторів впливу на якість ПЗ, що структурує внутрішні (складність коду), зовнішні (інфраструктура) та людські чинники (кваліфікація розробників). Для агента навчання з підкріпленням запропоновано модифіковану функцію винагороди, яка збалансовано враховує факт виявлення дефекту, тривалість тесту та його історичну ефективність. Експериментальну валідацію проведено на основі еталонних наборів даних із репозиторію AEEEM, що охоплюють реальні дані про дефекти п’яти відкритих проєктів екосистеми Eclipse: JDT Core, Equinox, Lucene, Mylyn та PDE. Результати порівняльного аналізу засвідчили, що інтеграція GBDT з Q-learning забезпечує підвищення метрики APFD на 8,1% порівняно з найкращим базовим методом XGBoost та на 4,6% порівняно з існуючим методом RETECS. Це підтверджує високу ефективність запропонованого підходу для оптимізації тестових запусків при обмеженому часовому бюджеті. Час навчання гібридної моделі становить 163,2 с, що є цілком прийнятним для практичного впровадження у промислові pipeline-процеси розробки програмного забезпечення. Ключові слова: тестування програмного забезпечення; генерація тестів; пріоритезація тестів; градієнтне прискорення; машинне навчання; ітеративне навчання; безперервна інтеграція Аналіз та постановка проблеми Наразі у світі кількість програмних продуктів, що використовуються в критичних системах, зростає експоненційно. За даними Stack Overflow Developer Survey 2024, понад 78 % розробників працюють в умовах безперервної інтеграції (CI/CD), де автоматичне формування висновку щодо якості програмного забезпечення (ПЗ) залишається надзвичайно актуальним. Об’єктом тестування в таких умовах виступають програмні модулі та системи (ПМС), окремі елементи архітектури ПЗ, компоненти, мікросервіси, API-інтерфейси та інтеграційні зв’язки. Перелік питань, які вирішуються експертами в процесі виконання тестування ПЗ, не обмежуються висновком щодо технічного стану (ТС), але майже всі вони передбачають оцінювання ТС об’єкта та впливу дефектів на функціонування системи в цілому. З наведеної схеми видно, що висновок залежить від переліку питань, які ставляться перед експертом, що виконує тестування, а також від результатів автоматизованого аналізу. Вирішенню проблеми комп’ютеризації процесу формування висновків присвячено низку робіт. У [2] запропоновано модель спеціалізованої інтелектуальної системи підтримки тестування ПЗ з використанням нейро-нечітких моделей. Результати дослідження засвідчили, що інтеграція нечіткої © 2026 О. М. Лопуга. This article is published under the CC BY-NC-ND license. 141 Управління розвитком складних систем. 2026. No. 65. ISSN 2219-5300 логіки з нейромережевими компонентами дає змогу врахувати невизначеність експертних оцінок під час прийняття рішень щодо якості програмних модулів, що підвищує точність класифікації дефектів на 12–15% порівняно з детермінованими підходами. У [3] показано можливість застосування методів глибокого навчання для автоматичної генерації тестових сценаріїв на основі аналізу вихідного коду. Зокрема, авторами запропоновано метод A3Test, що використовує механізм доповнення тверджень (assertion augmentation) для підвищення релевантності згенерованих тестів; результати експериментальної валідації підтвердили зростання покриття коду на 18% та формалізовано процес автоматичної верифікації згенерованих тестових випадків. У [4] проведено систематичний огляд використання великих мовних моделей (LLM) для автоматичної генерації тестових сценаріїв. Результати показують, що LLM здатні аналізувати вихідний код та документацію для створення релевантних тестів з точністю до 73%. У [5] досліджено можливість використання методу навчання з підкріпленням (Reinforcement Learning) для пріоритезації тестових випадків у CIсередовищі. Метод RETECS використовує Q-learning для оптимізації порядку виконання тестів з урахуванням історії попередніх запусків. Метод ATRL-TCP [6] запропонував механізм передавання уваги для більш ефективного використання ознак тестових випадків роботі [7] проведено аналіз застосування градієнтного бустингу для прогнозування дефектів ПЗ; показано, що XGBoost демонструє найвищу точність серед ансамблевих методів, проте інтеграція з методами RL не розглядалась. Khan et al. [8] розробили end-to-end фреймворк TCP-Tune для автоматизованої оптимізації гіперпараметрів ML-моделей при пріоритезації тестів у CI. 1. Вперше запропоновано інтегровану модель, яка поєднує GBDT для прогнозування ймовірності виявлення дефектів із алгоритмом Qlearning для динамічної пріоритезації тестових сценаріїв з урахуванням обмежень часового бюджету та історії виконання тестів. 2. Удосконалено постановку задачі пріоритезації тестів, яку формалізовано як задачу комбінаторної оптимізації з ваговою функцією. 3. Розроблено модифіковану функцію винагороди для алгоритму навчання з підкріпленням, яка одночасно враховує факт виявлення дефекту, тривалість виконання тесту та історичну ефективність тестового сценарію. 4. Запропоновано онтологічну модель факторів впливу на якість ПЗ, яка структурує внутрішні, зовнішні та людські чинники. 5. Отримано нові експериментальні результати: підвищення APFD на 8,1% порівняно з XGBoost. Аналіз наявних робіт засвідчує, що, незважаючи на значний прогрес у застосуванні ML-методів для тестування ПЗ, залишається нерозв’язаною проблема поєднання ансамблевих моделей прогнозування дефектів з адаптивною RL-пріоритезацією у єдиному pipeline. Більшість наявних досліджень зосереджуються або на прогнозуванні дефектів, або на пріоритезації тестів, але не на інтеграції обох підходів. Наукова новизна дослідження полягає у р (...truncated)