Application of machine learning methods in an adaptive student knowledge assessment system
ТЕХНІЧНІ НАУКИ ТА ТЕХНОЛОГІЇ
№ 1(43), 2026
TECHNICAL SCIENCES AND TECHNOLOGIES
DOI: https://doi.org/10.25140/2411-5363-2026-1(43)-254-268
УДК 004.9
Антон Володимирович Тимошенко1, Дмитро Едуардович Лисенко2
1аспірант кафедри інформаційних та комп’ютерних систем
Національний університет «Чернігівська політехніка» (Чернігів, Україна)
E-mail:
2доктор технічних наук, професор кафедри інформаційних та комп’ютерних систем
Національний університет «Чернігівська політехніка» (Чернігів, Україна)
E-mail: . ORCID https://orcid.org/0000-0001-6870-6120
ЗАСТОСУВАННЯ МЕТОДІВ МАШИННОГО НАВЧАННЯ
В АДАПТИВНІЙ СИСТЕМІ ОЦІНЮВАННЯ ЗНАНЬ СТУДЕНТІВ
У статті розглянуто проблему неефективності традиційних методів оцінювання знань у вищій освіті та
запропоновано концепцію адаптивної системи оцінювання на основі алгоритмів машинного навчання. Представлено
архітектуру рішення – стекінговий ансамбль із моделей RandomForest, XGBClassifier та LogisticRegression з
RidgeClassifier, як мета моделлю. Описано алгоритм поетапної обробки даних: збір результатів тестів та логів
активності з LMS, інженерію поведінкових та когнітивних ознак, нормалізацію, тренування моделей та їх валідацію.
Проведено дослідження на синтетичних (N = 150) та реальних (N = 300) даних; отримано accuracy = 0,93 (синт.),
accuracy = 0,90 (реальн.), ROC-AUC ≥ 0 ,98, матриці плутанини й 3D-візуалізацію кластерів. Наведено аналіз переваг і
обмежень моделі, обґрунтовано перспективи інтеграції в LMS та подальших експериментів на великих наборах даних.
Ключові слова: адаптивне навчання, машинне навчання, стекінг, освітня аналітика, класифікація знань, поведінкові ознаки, ensemble learning.
Рис.: 6. Табл.: 2. Бібл.: 18.
Актуальність теми дослідження. У сучасному інформаційному середовищі освітні
платформи генерують багаторівневі дані про навчальний процес: логи взаємодії студентів з LMS включають часові мітки перегляду матеріалів, відкриття лекційних слайдів,
відповіді на тестові та відкриті запитання; платформи відеоконференцій фіксують час
присутності на лекціях та інтерактивних сесіях; системи управління завданнями відстежують кількість спроб, виконаних студентом, та тривалість кожної спроби. Такі розрізнені дані охоплюють як кількісні характеристики (кількість кроків, час, кількість спроб),
так і якісні (текстові відповіді, коментарі).
Learning Analytics (LA) та Educational Data Mining (EDM) позиціонують себе як ключові
напрями для аналізу цих даних із метою підвищення якості навчання. LA орієнтована на виявлення кореляцій між поведінковими патернами та навчальними результатами, а EDM – на
застосування алгоритмів машинного навчання для прогнозування успішності, класифікації
ризикових студентів та побудови адаптивних сценаріїв навчання [1; 2].
Загалом аналітичні підходи поділяють на три рівні:
- Описова аналітика, що забезпечує статистичні огляди та візуалізації історичних даних (розподіл оцінок, середні показники часу на завдання, тощо).
- Діагностична аналітика, яка розкриває причини поточних результатів, використовуючи методи керування асоціативними правилами та факторним аналізом.
- Прогностична аналітика, спрямована на моделювання майбутніх показників студентів за допомогою класифікації та регресійних алгоритмів.
Відповідно до принципів Data-Driven Education, інтерпретація цих рівнів аналітики
повинна слугувати основою для прийняття рішень викладачами: від адаптації дидактичних матеріалів до формування рекомендацій для студентів з низькою активністю чи результатами.
Постановка проблеми. Попри достатньо багатий інструментарій прикладних доменах, у навчальному контексті є низка нерозв’язаних питань:
- Фрагментованість інформації: дані про когнітивні (оцінки, бали за тести) та поведінкові (час, спроби, переходи між ресурсами) аспекти часто аналізуються окремо, що
призводить до втрати корисних зв’язків між цими вимірами.
© А. В. Тимошенко, Д. Е. Лисенко, 2026
254
ТЕХНІЧНІ НАУКИ ТА ТЕХНОЛОГІЇ
№ 1(43), 2026
TECHNICAL SCIENCES AND TECHNOLOGIES
- Одномірні моделі: часте застосування простих лінійних чи деревних алгоритмів обмежує здатність моделі вловлювати нелінійні залежності та складні патерни в освітніх даних.
- Обмежена адаптивність: системи, зо не враховують динаміку поведінки в реальномв
часі, неспроможні швидко оновлювати рекомендації або дидактичні шляхи відповідно до
змін у активності студента.
- Проблема достовірності прогнозів: малі вибірки студентів у деяких курсах і нерівномірний розподіл класів (Low, Medium, High) ускладнюють навчання моделей без перенавчання.
- Потреба в інтерпретованості: педагогам необхідні зрозумілі пояснення причин прогнозу, аби організувати своєчасну допомогу студентам; моделі-чорні скриньки не відповідають цій вимозі.
Таким чином, актуальним є створення методології, яка б: поєднувала різнорідні джерела даних у єдину аналітичну модель, забезпечувала високу гнучкість та інтерпретованість результату, а також дозволяла б оперативно реагувати на зміни у навчальних патернах
студентів через адаптивний стекінговий підхід.
Аналіз останніх досліджень і публікацій та виділення недосліджених частин загальної проблеми. Аналіз наукових праць свідчить про активний розвиток підходів до адаптивного навчання та застосування алгоритмів машинного навчання в освітньому процесі.
У роботах Romero та Ventura [1, с. 601–618] здійснено класифікацію методів EDM на
чотири напрями: кластеризація, класифікація, асоціативні правила та послідовні моделі.
Зазначено, що більшість досліджень зосереджуються на академічних ознаках (оцінки,
швидкість виконання завдань), тоді як глибинний аналіз поведінкових патернів (наприклад, часові ряди активності) залишається обмеженим. Paramitsiou та Economides [2] розглянули практичні кейси використання EDM у вищій освіті й підкреслили важливість
комбінованого застосування когнітивних та поведінкових метрик.
Mampadi et al. [3] у модульній архітектурі адаптивної LMS показали, що динамічна
зміна складності завдань відповідно до попередніх результатів може підвищувати ефективність навчання на 10-15%. Ifenthaler та Yau [4, с. 1005–1022] дослідили роль методів
передбачальної аналітики у підтримці саморегульованого навчання та описали ключові
компоненти системи: збір даних, побудова моделі, інтерфейс зворотного звʼязку.
У галузях фінансів та охорони здоровʼя ансамблі, зокрема RandomForest [5, с. 5–32]
і XGBoost [6, с. 785–794], використовувалися для підвищення точності класифікації та
прогнозування на 5-8 %. Hansen і Salamon [7, с. 993–1001] показали, що за умови належності помилок ансамбль може зменшити variance. Проте в освіті такі підходи досі застосовувалися нечасто.
Baker R. S. [8] підкреслили, що змінні поведінки (кількість спроб, час між сесіями,
перегляд матеріалів) корелюють з успішністю курсів. Kizilcec та Halawa [17, с. 57–66]
побудували модель прогнозування відтоку студентів у MOOCs на основі логів активності, продемонструвавши можливість раннього виявлення ризиків.
Огляд Paramitsiou [16] показує, що поєднання EDM і Real-Time Learning Analytics
дозволяє сформувати рекомендації «ту (...truncated)