Optimalisasi Akurasi Naïve Bayes Menggunakan Seleksi Atribut Relief-F dan Gain Ratio (pdf)

Article PDF cannot be displayed. You can download it here:

https://jurnal.polgan.ac.id/index.php/jmp/article/download/16112/4035

Optimalisasi Akurasi Naïve Bayes Menggunakan Seleksi Atribut Relief-F dan Gain Ratio

Jurnal Minfo Polgan (JMP) Volume 15, Nomor 2, Mei-Agustus 2026 DOI : https://doi.org/10.33395/jmp.v15i2.16112 e-ISSN : 2797-3298 p-ISSN : 2089-9424 Analisis Pengaruh Seleksi Atribut Relief-F dan Gain Ratio Terhadap Performa Naïve Bayes Classifier Agung RM Alam, 2Wanayumini, 3Lili Tanti Program Studi Magister Ilmu Komputer, Fakultas Teknik dan Ilmu Komputer, Universitas Potensi Utama, Medan, Indonesia *Korespondensi: 1 1*,2,3 Submit : 17 April2026 | Diterima : 28 Mei 2026 | Terbit : 05 Jun 2026 ABSTRACT Naïve Bayes Classifier (NBC) is one of the most popular probabilistic classification algorithms in data mining, known for its simplicity and efficiency. However, NBC performance tends to degrade when datasets contain irrelevant or noisy attributes. This study analyzes the effect of attribute selection using Relief-F and Gain Ratio methods on the performance improvement of NBC. Two benchmark datasets from the UCI Machine Learning Repository were selected to represent contrasting data characteristics: the House Vote dataset (435 records, symbolic attributes with balanced class distribution) and the Bank Marketing dataset (45,211 records, numeric and categorical attributes with severe class imbalance, approximately 88% majority class). All experiments were implemented in Google Colaboratory using Python. Three experimental scenarios were applied to each dataset: (1) NBC without attribute selection as baseline, (2) NBC with Relief-F attribute selection, and (3) NBC with Gain Ratio attribute selection. Performance evaluation used 10-fold cross-validation with metrics including accuracy, precision, recall, F1-score, and confusion matrix. Results show that on the House Vote dataset, Relief-F increased NBC accuracy from 90.11% to 93.79% (+3.68%), while Gain Ratio reduced accuracy to 89.43%. On the Bank Marketing dataset, Relief-F improved accuracy to 89.36% and improved minority class recall from 29.34% to 35.71%, while Gain Ratio yielded only marginal improvement. Overall, Relief-F proved more effective than Gain Ratio in enhancing NBC performance, particularly on datasets with clear classification patterns and imbalanced class distribution. Keywords: Attribute Selection; Classification; Data Mining; Gain Ratio; Naïve Bayes Classifier; Relief-F. ABSTRAK Naïve Bayes Classifier (NBC) merupakan salah satu algoritma klasifikasi probabilistik yang paling banyak digunakan dalam data mining karena kesederhanaan dan efisiensinya. Namun, performa NBC cenderung menurun ketika dataset mengandung atribut yang tidak relevan atau mengandung noise. Penelitian ini bertujuan menganalisis pengaruh seleksi atribut menggunakan metode Relief-F dan Gain Ratio terhadap peningkatan performa NBC. Dua dataset dari UCI Machine Learning Repository dipilih untuk merepresentasikan karakteristik data yang kontras: dataset House Vote (435 data, atribut simbolik dengan distribusi kelas yang seimbang) dan dataset Bank Marketing (45.211 data, atribut numerik dan kategorikal dengan ketidakseimbangan kelas yang signifikan, sekitar 88% kelas mayoritas). Seluruh eksperimen diimplementasikan menggunakan Google Colaboratory dengan bahasa Python. Tiga skenario eksperimen diterapkan pada masing-masing dataset: (1) NBC tanpa seleksi atribut sebagai baseline, (2) NBC dengan seleksi atribut Relief-F, dan (3) NBC dengan seleksi atribut Gain Ratio. Evaluasi performa menggunakan 10-fold cross-validation dengan metrik akurasi, presisi, recall, F1-score, dan confusion matrix. Hasil penelitian menunjukkan bahwa pada dataset House Vote, Relief-F berhasil meningkatkan akurasi NBC dari 90,11% menjadi 93,79% (+3,68%), sedangkan Gain Ratio justru menurunkan akurasi menjadi 89,43%. Pada dataset Bank Marketing, Relief-F meningkatkan akurasi menjadi 89,36% dan memperbaiki recall kelas minoritas dari 29,34% menjadi 35,71%, sementara Gain Ratio hanya memberikan peningkatan marginal. Secara keseluruhan, Relief-F terbukti lebih efektif dibandingkan Gain Ratio dalam meningkatkan performa NBC, khususnya pada dataset dengan pola klasifikasi yang jelas dan distribusi kelas yang tidak seimbang. @2026 The Author Published By Politeknik Ganesha Medan This is an open access article under the CC BY licence (http://creativecommons.org/licenses/by/4.0/). which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properlycited. Jurnal Minfo Polgan (JMP) – Vol 15 No 2, Mei-Agustus 2026 Kata Kunci: Algoritma Klasifikasi; Data Mining; Gain Ratio; Naïve Bayes Classifier; Relief-F; Seleksi Atribut. PENDAHULUAN Perkembangan teknologi informasi yang pesat telah mendorong pertumbuhan volume data secara eksponensial di berbagai bidang, mulai dari kesehatan, keuangan, pemasaran, hingga politik. Data dalam jumlah besar tersebut mengandung pola-pola tersembunyi yang dapat diekstrak menjadi pengetahuan berguna melalui teknik data mining. Salah satu teknik data mining yang paling banyak digunakan adalah klasifikasi, yaitu proses membangun model prediktif untuk menentukan label kelas data baru berdasarkan pola yang dipelajari dari data pelatihan (Alnuaimi & Albaldawi, 2024). Di antara berbagai algoritma klasifikasi yang tersedia, Naïve Bayes Classifier (NBC) telah lama dikenal sebagai metode yang sederhana namun efektif. NBC menggunakan prinsip Teorema Bayes dengan asumsi independensi bersyarat antar atribut untuk menghitung probabilitas kelas suatu data (Ligthart et al., 2021). Algoritma ini memiliki sejumlah keunggulan: kebutuhan data pelatihan yang relatif kecil, kompleksitas waktu yang rendah, kemampuan menangani missing value, serta kinerja yang kompetitif untuk berbagai jenis data (Arfan Haqiqi et al., 2021). Meski demikian, NBC memiliki kelemahan mendasar; performanya dapat menurun secara signifikan ketika dataset mengandung atribut yang tidak relevan, redundan, atau mengandung noise. Untuk mengatasi permasalahan tersebut, seleksi atribut (feature selection) menjadi langkah prapemrosesan yang krusial. Seleksi atribut bertujuan memilih subset atribut yang paling relevan terhadap variabel kelas sehingga model yang dihasilkan lebih akurat, efisien secara komputasi, dan lebih mudah diinterpretasikan (Bommert et al., 2022). Dalam penelitian ini, dua metode seleksi atribut dievaluasi secara komparatif, yaitu Relief-F dan Gain Ratio. Relief-F merupakan pengembangan dari algoritma Relief yang dikembangkan Kononenko (1994). Algoritma ini menilai relevansi setiap atribut berdasarkan kemampuannya membedakan instance dari kelas yang sama (nearest hit) dan kelas yang berbeda (nearest miss). Pendekatan berbasis instance ini menjadikan Relief-F adaptif terhadap interaksi antar atribut dan efektif untuk data berdimensi tinggi (Yusra et al., 2021). Sementara itu, Gain Ratio merupakan pengembangan dari Information Gain yang menambahkan normalisasi melalui Split Information untuk mengurangi bias terhadap atribut bernilai banyak (Edusainstek et al., 2018). Meskipun kedua metode telah banyak dikaji secara terpisah, belum b (...truncated)