Application of machine learning methods in an adaptive student knowledge assessment system

Technical sciences and technologies, Feb 2026

The article addresses the current problem of the inefficiency of traditional knowledge assessment methods in higher education, which is often caused by data fragmentation and the limited ability of classical models to capture complex non-linear dependencies in the educational process. The authors propose a concept for an adaptive assessment system based on a stacking ensemble that combines RandomForest, XGBClassifier, and LogisticRegression models, where RidgeClassifier with L2-regularization acts as a meta-model to increase the stability of forecasts. The scientific novelty of the work lies in the integration of cognitive indicators (test results) with a wide range of behavioral features, such as session duration, number of attempts, frequency of return to materials, and the emotional tone of responses, analyzed using the spaCy NLP library. A complete data processing cycle is described: from the collection of activity logs from the LMS to the engineering of 15 key features and their normalization. During experimental verification on synthetic (N=150) and real (OULAD dataset, N=300) data, the high efficiency of the approach was confirmed: accuracy of 0.93 and 0.90 was obtained, respectively, with a value of ROC-AUC ≥ 0.98 for all knowledge levels (Low, Medium, High). Special attention is paid to the interpretability of results and the model's resistance to noise. In addition, a conceptual microservice architecture of the system is presented (Data Collector, Inference Engine, Recommendation Generator), based on the use of FastAPI and Kafka for the implementation of adaptive learning in real-time. The prospects for further development are substantiated, in particular the introduction of BERT models for in-depth text analysis and the transition to online learning methods.

Article PDF cannot be displayed. You can download it here:

https://tst.stu.cn.ua/article/download/356425/342303

Application of machine learning methods in an adaptive student knowledge assessment system

ТЕХНІЧНІ НАУКИ ТА ТЕХНОЛОГІЇ № 1(43), 2026 TECHNICAL SCIENCES AND TECHNOLOGIES DOI: https://doi.org/10.25140/2411-5363-2026-1(43)-254-268 УДК 004.9 Антон Володимирович Тимошенко1, Дмитро Едуардович Лисенко2 1аспірант кафедри інформаційних та комп’ютерних систем Національний університет «Чернігівська політехніка» (Чернігів, Україна) E-mail: 2доктор технічних наук, професор кафедри інформаційних та комп’ютерних систем Національний університет «Чернігівська політехніка» (Чернігів, Україна) E-mail: . ORCID https://orcid.org/0000-0001-6870-6120 ЗАСТОСУВАННЯ МЕТОДІВ МАШИННОГО НАВЧАННЯ В АДАПТИВНІЙ СИСТЕМІ ОЦІНЮВАННЯ ЗНАНЬ СТУДЕНТІВ У статті розглянуто проблему неефективності традиційних методів оцінювання знань у вищій освіті та запропоновано концепцію адаптивної системи оцінювання на основі алгоритмів машинного навчання. Представлено архітектуру рішення – стекінговий ансамбль із моделей RandomForest, XGBClassifier та LogisticRegression з RidgeClassifier, як мета моделлю. Описано алгоритм поетапної обробки даних: збір результатів тестів та логів активності з LMS, інженерію поведінкових та когнітивних ознак, нормалізацію, тренування моделей та їх валідацію. Проведено дослідження на синтетичних (N = 150) та реальних (N = 300) даних; отримано accuracy = 0,93 (синт.), accuracy = 0,90 (реальн.), ROC-AUC ≥ 0 ,98, матриці плутанини й 3D-візуалізацію кластерів. Наведено аналіз переваг і обмежень моделі, обґрунтовано перспективи інтеграції в LMS та подальших експериментів на великих наборах даних. Ключові слова: адаптивне навчання, машинне навчання, стекінг, освітня аналітика, класифікація знань, поведінкові ознаки, ensemble learning. Рис.: 6. Табл.: 2. Бібл.: 18. Актуальність теми дослідження. У сучасному інформаційному середовищі освітні платформи генерують багаторівневі дані про навчальний процес: логи взаємодії студентів з LMS включають часові мітки перегляду матеріалів, відкриття лекційних слайдів, відповіді на тестові та відкриті запитання; платформи відеоконференцій фіксують час присутності на лекціях та інтерактивних сесіях; системи управління завданнями відстежують кількість спроб, виконаних студентом, та тривалість кожної спроби. Такі розрізнені дані охоплюють як кількісні характеристики (кількість кроків, час, кількість спроб), так і якісні (текстові відповіді, коментарі). Learning Analytics (LA) та Educational Data Mining (EDM) позиціонують себе як ключові напрями для аналізу цих даних із метою підвищення якості навчання. LA орієнтована на виявлення кореляцій між поведінковими патернами та навчальними результатами, а EDM – на застосування алгоритмів машинного навчання для прогнозування успішності, класифікації ризикових студентів та побудови адаптивних сценаріїв навчання [1; 2]. Загалом аналітичні підходи поділяють на три рівні: - Описова аналітика, що забезпечує статистичні огляди та візуалізації історичних даних (розподіл оцінок, середні показники часу на завдання, тощо). - Діагностична аналітика, яка розкриває причини поточних результатів, використовуючи методи керування асоціативними правилами та факторним аналізом. - Прогностична аналітика, спрямована на моделювання майбутніх показників студентів за допомогою класифікації та регресійних алгоритмів. Відповідно до принципів Data-Driven Education, інтерпретація цих рівнів аналітики повинна слугувати основою для прийняття рішень викладачами: від адаптації дидактичних матеріалів до формування рекомендацій для студентів з низькою активністю чи результатами. Постановка проблеми. Попри достатньо багатий інструментарій прикладних доменах, у навчальному контексті є низка нерозв’язаних питань: - Фрагментованість інформації: дані про когнітивні (оцінки, бали за тести) та поведінкові (час, спроби, переходи між ресурсами) аспекти часто аналізуються окремо, що призводить до втрати корисних зв’язків між цими вимірами. © А. В. Тимошенко, Д. Е. Лисенко, 2026 254 ТЕХНІЧНІ НАУКИ ТА ТЕХНОЛОГІЇ № 1(43), 2026 TECHNICAL SCIENCES AND TECHNOLOGIES - Одномірні моделі: часте застосування простих лінійних чи деревних алгоритмів обмежує здатність моделі вловлювати нелінійні залежності та складні патерни в освітніх даних. - Обмежена адаптивність: системи, зо не враховують динаміку поведінки в реальномв часі, неспроможні швидко оновлювати рекомендації або дидактичні шляхи відповідно до змін у активності студента. - Проблема достовірності прогнозів: малі вибірки студентів у деяких курсах і нерівномірний розподіл класів (Low, Medium, High) ускладнюють навчання моделей без перенавчання. - Потреба в інтерпретованості: педагогам необхідні зрозумілі пояснення причин прогнозу, аби організувати своєчасну допомогу студентам; моделі-чорні скриньки не відповідають цій вимозі. Таким чином, актуальним є створення методології, яка б: поєднувала різнорідні джерела даних у єдину аналітичну модель, забезпечувала високу гнучкість та інтерпретованість результату, а також дозволяла б оперативно реагувати на зміни у навчальних патернах студентів через адаптивний стекінговий підхід. Аналіз останніх досліджень і публікацій та виділення недосліджених частин загальної проблеми. Аналіз наукових праць свідчить про активний розвиток підходів до адаптивного навчання та застосування алгоритмів машинного навчання в освітньому процесі. У роботах Romero та Ventura [1, с. 601–618] здійснено класифікацію методів EDM на чотири напрями: кластеризація, класифікація, асоціативні правила та послідовні моделі. Зазначено, що більшість досліджень зосереджуються на академічних ознаках (оцінки, швидкість виконання завдань), тоді як глибинний аналіз поведінкових патернів (наприклад, часові ряди активності) залишається обмеженим. Paramitsiou та Economides [2] розглянули практичні кейси використання EDM у вищій освіті й підкреслили важливість комбінованого застосування когнітивних та поведінкових метрик. Mampadi et al. [3] у модульній архітектурі адаптивної LMS показали, що динамічна зміна складності завдань відповідно до попередніх результатів може підвищувати ефективність навчання на 10-15%. Ifenthaler та Yau [4, с. 1005–1022] дослідили роль методів передбачальної аналітики у підтримці саморегульованого навчання та описали ключові компоненти системи: збір даних, побудова моделі, інтерфейс зворотного звʼязку. У галузях фінансів та охорони здоровʼя ансамблі, зокрема RandomForest [5, с. 5–32] і XGBoost [6, с. 785–794], використовувалися для підвищення точності класифікації та прогнозування на 5-8 %. Hansen і Salamon [7, с. 993–1001] показали, що за умови належності помилок ансамбль може зменшити variance. Проте в освіті такі підходи досі застосовувалися нечасто. Baker R. S. [8] підкреслили, що змінні поведінки (кількість спроб, час між сесіями, перегляд матеріалів) корелюють з успішністю курсів. Kizilcec та Halawa [17, с. 57–66] побудували модель прогнозування відтоку студентів у MOOCs на основі логів активності, продемонструвавши можливість раннього виявлення ризиків. Огляд Paramitsiou [16] показує, що поєднання EDM і Real-Time Learning Analytics дозволяє сформувати рекомендації «ту (...truncated)


This is a preview of a remote PDF: https://tst.stu.cn.ua/article/download/356425/342303
Article home page: https://tst.stu.cn.ua/article/view/356425/342303

Антон Тимошенко, Дмитро Лисенко. Application of machine learning methods in an adaptive student knowledge assessment system, Technical sciences and technologies, 2026, pp. 254-268,