Optimalisasi Akurasi Naïve Bayes Menggunakan Seleksi Atribut Relief-F dan Gain Ratio
Jurnal Minfo Polgan (JMP)
Volume 15, Nomor 2, Mei-Agustus 2026
DOI : https://doi.org/10.33395/jmp.v15i2.16112
e-ISSN : 2797-3298
p-ISSN : 2089-9424
Analisis Pengaruh Seleksi Atribut Relief-F dan Gain Ratio
Terhadap Performa Naïve Bayes Classifier
Agung RM Alam, 2Wanayumini, 3Lili Tanti
Program Studi Magister Ilmu Komputer, Fakultas Teknik dan Ilmu Komputer,
Universitas Potensi Utama, Medan, Indonesia
*Korespondensi:
1
1*,2,3
Submit : 17 April2026 | Diterima : 28 Mei 2026 | Terbit : 05 Jun 2026
ABSTRACT
Naïve Bayes Classifier (NBC) is one of the most popular probabilistic classification algorithms in
data mining, known for its simplicity and efficiency. However, NBC performance tends to
degrade when datasets contain irrelevant or noisy attributes. This study analyzes the effect of
attribute selection using Relief-F and Gain Ratio methods on the performance improvement of
NBC. Two benchmark datasets from the UCI Machine Learning Repository were selected to
represent contrasting data characteristics: the House Vote dataset (435 records, symbolic
attributes with balanced class distribution) and the Bank Marketing dataset (45,211 records,
numeric and categorical attributes with severe class imbalance, approximately 88% majority
class). All experiments were implemented in Google Colaboratory using Python. Three
experimental scenarios were applied to each dataset: (1) NBC without attribute selection as
baseline, (2) NBC with Relief-F attribute selection, and (3) NBC with Gain Ratio attribute
selection. Performance evaluation used 10-fold cross-validation with metrics including
accuracy, precision, recall, F1-score, and confusion matrix. Results show that on the House Vote
dataset, Relief-F increased NBC accuracy from 90.11% to 93.79% (+3.68%), while Gain Ratio
reduced accuracy to 89.43%. On the Bank Marketing dataset, Relief-F improved accuracy to
89.36% and improved minority class recall from 29.34% to 35.71%, while Gain Ratio yielded
only marginal improvement. Overall, Relief-F proved more effective than Gain Ratio in enhancing
NBC performance, particularly on datasets with clear classification patterns and imbalanced
class distribution.
Keywords: Attribute Selection; Classification; Data Mining; Gain Ratio; Naïve Bayes Classifier;
Relief-F.
ABSTRAK
Naïve Bayes Classifier (NBC) merupakan salah satu algoritma klasifikasi probabilistik yang
paling banyak digunakan dalam data mining karena kesederhanaan dan efisiensinya. Namun,
performa NBC cenderung menurun ketika dataset mengandung atribut yang tidak relevan atau
mengandung noise. Penelitian ini bertujuan menganalisis pengaruh seleksi atribut
menggunakan metode Relief-F dan Gain Ratio terhadap peningkatan performa NBC. Dua
dataset dari UCI Machine Learning Repository dipilih untuk merepresentasikan karakteristik data
yang kontras: dataset House Vote (435 data, atribut simbolik dengan distribusi kelas yang
seimbang) dan dataset Bank Marketing (45.211 data, atribut numerik dan kategorikal dengan
ketidakseimbangan kelas yang signifikan, sekitar 88% kelas mayoritas). Seluruh eksperimen
diimplementasikan menggunakan Google Colaboratory dengan bahasa Python. Tiga skenario
eksperimen diterapkan pada masing-masing dataset: (1) NBC tanpa seleksi atribut sebagai
baseline, (2) NBC dengan seleksi atribut Relief-F, dan (3) NBC dengan seleksi atribut Gain Ratio.
Evaluasi performa menggunakan 10-fold cross-validation dengan metrik akurasi, presisi, recall,
F1-score, dan confusion matrix. Hasil penelitian menunjukkan bahwa pada dataset House Vote,
Relief-F berhasil meningkatkan akurasi NBC dari 90,11% menjadi 93,79% (+3,68%), sedangkan
Gain Ratio justru menurunkan akurasi menjadi 89,43%. Pada dataset Bank Marketing, Relief-F
meningkatkan akurasi menjadi 89,36% dan memperbaiki recall kelas minoritas dari 29,34%
menjadi 35,71%, sementara Gain Ratio hanya memberikan peningkatan marginal. Secara
keseluruhan, Relief-F terbukti lebih efektif dibandingkan Gain Ratio dalam meningkatkan
performa NBC, khususnya pada dataset dengan pola klasifikasi yang jelas dan distribusi kelas
yang tidak seimbang.
@2026 The Author Published By Politeknik Ganesha Medan
This is an open access article under the CC BY licence (http://creativecommons.org/licenses/by/4.0/). which permits
unrestricted use, distribution, and reproduction in any medium, provided the original work is properlycited.
Jurnal Minfo Polgan (JMP) – Vol 15 No 2, Mei-Agustus 2026
Kata Kunci: Algoritma Klasifikasi; Data Mining; Gain Ratio; Naïve Bayes Classifier; Relief-F;
Seleksi Atribut.
PENDAHULUAN
Perkembangan teknologi informasi yang pesat telah mendorong pertumbuhan volume
data secara eksponensial di berbagai bidang, mulai dari kesehatan, keuangan, pemasaran,
hingga politik. Data dalam jumlah besar tersebut mengandung pola-pola tersembunyi yang
dapat diekstrak menjadi pengetahuan berguna melalui teknik data mining. Salah satu teknik data
mining yang paling banyak digunakan adalah klasifikasi, yaitu proses membangun model
prediktif untuk menentukan label kelas data baru berdasarkan pola yang dipelajari dari data
pelatihan (Alnuaimi & Albaldawi, 2024).
Di antara berbagai algoritma klasifikasi yang tersedia, Naïve Bayes Classifier (NBC) telah
lama dikenal sebagai metode yang sederhana namun efektif. NBC menggunakan prinsip
Teorema Bayes dengan asumsi independensi bersyarat antar atribut untuk menghitung
probabilitas kelas suatu data (Ligthart et al., 2021). Algoritma ini memiliki sejumlah keunggulan:
kebutuhan data pelatihan yang relatif kecil, kompleksitas waktu yang rendah, kemampuan
menangani missing value, serta kinerja yang kompetitif untuk berbagai jenis data (Arfan Haqiqi
et al., 2021). Meski demikian, NBC memiliki kelemahan mendasar; performanya dapat menurun
secara signifikan ketika dataset mengandung atribut yang tidak relevan, redundan, atau
mengandung noise.
Untuk mengatasi permasalahan tersebut, seleksi atribut (feature selection) menjadi
langkah prapemrosesan yang krusial. Seleksi atribut bertujuan memilih subset atribut yang
paling relevan terhadap variabel kelas sehingga model yang dihasilkan lebih akurat, efisien
secara komputasi, dan lebih mudah diinterpretasikan (Bommert et al., 2022). Dalam penelitian
ini, dua metode seleksi atribut dievaluasi secara komparatif, yaitu Relief-F dan Gain Ratio.
Relief-F merupakan pengembangan dari algoritma Relief yang dikembangkan
Kononenko (1994). Algoritma ini menilai relevansi setiap atribut berdasarkan kemampuannya
membedakan instance dari kelas yang sama (nearest hit) dan kelas yang berbeda (nearest
miss). Pendekatan berbasis instance ini menjadikan Relief-F adaptif terhadap interaksi antar
atribut dan efektif untuk data berdimensi tinggi (Yusra et al., 2021). Sementara itu, Gain Ratio
merupakan pengembangan dari Information Gain yang menambahkan normalisasi melalui Split
Information untuk mengurangi bias terhadap atribut bernilai banyak (Edusainstek et al., 2018).
Meskipun kedua metode telah banyak dikaji secara terpisah, belum b (...truncated)