INNOVATIVE: Journal Of Social Science Research
Volume 3 Nomor 4 Tahun 2023 Page 8667-8679
E-ISSN 2807-4238 and P-ISSN 2807-4246
Website: https://j-innovative.org/index.php/Innovative
Analisis Prediksi Pendapatan Penduduk dengan Metode K-Nearest Neighbor,
Decision Tree, Naive Bayes, Ensemble Methods, dan Linear Regression
Eri Mardiani1, Nur Rahmansyah2, Endah Tri Esti Handayani3 , Sari Ningsih4, Deny Hidayatullah5,
Dhieka Avrilia Lantana6, Yuni Latifah7, Alica Dwi Fahira8, Keysha Belynda Tyva Panggabean9,
Imelta Natalia Ginting10
(1), (3), (4), (5), (6) Universitas Nasional, Indonesia
(2) Program Studi Animasi Politeknik Negeri Media Kreatif, Indonesia
(7), (8), (9), (10) UPN Veteran Jakarta, Indonesia
Email:
[email protected]✉
Abstrak
Data mining bermula dari peningkatan data yang cukup pesat dilihat dari segi volume serta variasi
data yang dihasilkan oleh berbagai sumber, dan jumlahnya yang sangat besar, serta kompleksitasnya
data hingga pembuatannya yang cepat. Dengan data bisa menghasilkan prediksi yang membantu
pemerintah dalam mengambil keputusan dan kebijakan di masa mendatang. Selain itu prediksi dapat
membantu pemerintah dalam perencanaan kegiatan yang akan dilakukan untuk mencapai tujuan,
karena prediksi ini dapat memberikan output terbaik sehingga diharapkan resiko kesalahan yang
disebabkan oleh kesalahan perencanaan dapat ditekan seminimal mungkin. Prediksi biasanya
digunakan untuk menemukan informasi dari sejumlah data yang besar sehingga diperlukan data
mining. Data mining dapat digunakan untuk menggali informasi dari data yang besar sehingga
didapatkan informasi yang dapat digunakan dalam memprediksi sesuatu. Dalam data mining terdapat
banyak teknik dalam pengerjaannya, untuk menemukan pola atau informasi yang tersembunyi
diantaranya adalah Klasterisasi (clustering), Regresi (regression), Asosiasi (association), dan Klasifikasi
(classification)
Kata Kunci : Data mining, income
Abstract
Copyright @ Eri Mardiani, Nur Rahmansyah, Endah Tri Esti Handayani , Sari Ningsih, Deny Hidayatullah,
Dhieka Avrilia Lantana, Yuni Latifah, Alica Dwi Fahira, Keysha Belynda Tyva Panggabean, Imelta Natalia
Ginting
Data mining begins with a fairly rapid increase in data in terms of the volume and variety of data
produced by various sources, and the numbers are very large, as well as the complexity of the data
and its rapid creation. Data can produce predictions that help the government in making decisions
and policies in the future. Apart from that, predictions can help the government in planning activities
that will be carried out to achieve goals, because these predictions can provide the best output so it
is hoped that the risk of errors caused by planning errors can be reduced to a minimum. Predictions
are usually used to find information from large amounts of data, so data mining is needed.Data mining
can be used to dig up information from large amounts of data to obtain information that can be used
to predict something. In data mining, there are many techniques used to find hidden patterns or
information, including clustering, regression, association and classification.
Keywords: Keywords contain basic ideas or concepts that represent the field under study; The number
of keywords is between 3-5 Phrases and are sorted alphabetically
PENDAHULUAN
Di era digital saat ini, ekonomi merupakan salah satu industri terpenting dan
berkembang sangat cepat. Hal ini didukung oleh perkembangan teknologi yang semakin
pesat di seluruh dunia. Itulah sebabnya setiap orang yang berkecimpung dalam bisnis
bergerak dan saling bersaing untuk menjadi yang terbaik di bidangnya.[10]
Penelitian ini mempunyai tujuan agar dapat membandingkan metode K-NN, Naive
Bayes, Decision Tree, Ensemble Methods, dan Linear Regression yang dilakukan untuk
klasifikasi apakah seorang penduduk memiliki pendapatan lebih besar atau sama dengan
$50.000 USD per tahun atau tidak. Sedangkan aplikasi yang digunakan adalah aplikasi data
mining orange yang merupakan aplikasi data mining open source yang terbukti dapat
membantu dalam hal penganalisaan data. Untuk melakukan hal tersebut kita akan
menunjukkan prosesnya mulai dari akuisisi data sampai prediksi.[1]
Data Mining menggunakan Teknik Klasifikasi dengan 5 Model Algoritma[2]
1. K-Nearest Neighbor (k-NN) [3]
Algoritma K-Nearest Neighbor (k-NN) merupakan sebuah model algoritma yang digunakan
untuk melakukan klasifikasi terhadap objek yang berdasarkan dari data pembelajaran yang
jaraknya paling dekat dengan objek tersebut. Ataupun dapat dipahami juga bahwa k- nearest
neighbor adalah salah satu algoritma yang paling sederhana dan banyak Titik data akan
diklasifikasikan berdasarkan kesamaan kelompok tertentu dari titik data lain yang berdekatan.
Sehingga, algoritma ini akan memberikan hasil yang kompetitif.
2. Naïve Bayes[5]
Salah satu metode data mining ialah klasifikasi Naive Bayes. Naive Bayes Classifier adalah
metode klasifikasi yang berakar pada teorema Bayes. Naive bayes merupakan metode
Copyright @ Eri Mardiani, Nur Rahmansyah, Endah Tri Esti Handayani , Sari Ningsih, Deny Hidayatullah,
Dhieka Avrilia Lantana, Yuni Latifah, Alica Dwi Fahira, Keysha Belynda Tyva Panggabean, Imelta Natalia
Ginting
pengklasifikasian berdasarkan probabilitas sederhana dan dirancang agar dapat
dipergunakan dengan asumsi antar variabel penjelas saling bebas (independen). Pada
algoritma ini pembelajaran lebih ditekankan pada pengestimasian probabilitas. tujuan dari
metode Naïve Bayes adalah untuk menemukan probabilitas ketika kita mengetahui
probabilitas tertentu lainnya. Hasil dari perhitungan data mining menggunakan metode
klasifikasi Naïve Bayes akan makin berguna jika penyajiannya menarik dan dapat dipahami
dengan baik oleh penerima data.
3. Decision Tree[9]
Decision tree adalah algoritma machine learning yang menggunakan seperangkat
aturan untuk membuat keputusan dengan struktur seperti pohon yang memodelkan
kemungkinan hasil, biaya sumber daya, utilitas dan kemungkinan konsekuensi atau resiko.
Konsepnya adalah dengan cara menyajikan algoritma dengan pernyataan bersyarat, yang
meliputi cabang untuk mewakili langkah-langkah pengambilan keputusan yang dapat
mengarah pada hasil yang menguntungkan. Klasifikasi ini menggunakan observasi pada
node untuk menemukan target pada leaves. Decision Tree merupakan salah satu metode
klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia dengan
kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks
menjadi lebih simple.[6]
4. Ensemble Method
Ensemble Method adalah algoritma dalam pembelajaran mesin (machine
learning) dimana algoritma ini sebagai pencarian solusi prediksi terbaik dibandingkan
dengan algoritma yang lain karena metode ensemble ini menggunakan beberapa algoritma
pembelajaran untuk
pencapaian solusi prediksi yang lebih baik daripada algoritma yang bisa diperoleh dari salah
satu pembelajaran algoritma konstituen saja. Tidak seperti ensemble statistika dalam
mekanika
statistika (...truncated)