Analisis Prediksi Pendapatan Penduduk dengan Metode K-Nearest Neighbor, Decision Tree, Naive Bayes, Ensemble Methods, dan Linear Regression (pdf)

Article PDF cannot be displayed. You can download it here:

https://j-innovative.org/index.php/Innovative/article/download/4121/3257

Analisis Prediksi Pendapatan Penduduk dengan Metode K-Nearest Neighbor, Decision Tree, Naive Bayes, Ensemble Methods, dan Linear Regression

INNOVATIVE: Journal Of Social Science Research Volume 3 Nomor 4 Tahun 2023 Page 8667-8679 E-ISSN 2807-4238 and P-ISSN 2807-4246 Website: https://j-innovative.org/index.php/Innovative Analisis Prediksi Pendapatan Penduduk dengan Metode K-Nearest Neighbor, Decision Tree, Naive Bayes, Ensemble Methods, dan Linear Regression Eri Mardiani1, Nur Rahmansyah2, Endah Tri Esti Handayani3 , Sari Ningsih4, Deny Hidayatullah5, Dhieka Avrilia Lantana6, Yuni Latifah7, Alica Dwi Fahira8, Keysha Belynda Tyva Panggabean9, Imelta Natalia Ginting10 (1), (3), (4), (5), (6) Universitas Nasional, Indonesia (2) Program Studi Animasi Politeknik Negeri Media Kreatif, Indonesia (7), (8), (9), (10) UPN Veteran Jakarta, Indonesia Email: [email protected]✉ Abstrak Data mining bermula dari peningkatan data yang cukup pesat dilihat dari segi volume serta variasi data yang dihasilkan oleh berbagai sumber, dan jumlahnya yang sangat besar, serta kompleksitasnya data hingga pembuatannya yang cepat. Dengan data bisa menghasilkan prediksi yang membantu pemerintah dalam mengambil keputusan dan kebijakan di masa mendatang. Selain itu prediksi dapat membantu pemerintah dalam perencanaan kegiatan yang akan dilakukan untuk mencapai tujuan, karena prediksi ini dapat memberikan output terbaik sehingga diharapkan resiko kesalahan yang disebabkan oleh kesalahan perencanaan dapat ditekan seminimal mungkin. Prediksi biasanya digunakan untuk menemukan informasi dari sejumlah data yang besar sehingga diperlukan data mining. Data mining dapat digunakan untuk menggali informasi dari data yang besar sehingga didapatkan informasi yang dapat digunakan dalam memprediksi sesuatu. Dalam data mining terdapat banyak teknik dalam pengerjaannya, untuk menemukan pola atau informasi yang tersembunyi diantaranya adalah Klasterisasi (clustering), Regresi (regression), Asosiasi (association), dan Klasifikasi (classification) Kata Kunci : Data mining, income Abstract Copyright @ Eri Mardiani, Nur Rahmansyah, Endah Tri Esti Handayani , Sari Ningsih, Deny Hidayatullah, Dhieka Avrilia Lantana, Yuni Latifah, Alica Dwi Fahira, Keysha Belynda Tyva Panggabean, Imelta Natalia Ginting Data mining begins with a fairly rapid increase in data in terms of the volume and variety of data produced by various sources, and the numbers are very large, as well as the complexity of the data and its rapid creation. Data can produce predictions that help the government in making decisions and policies in the future. Apart from that, predictions can help the government in planning activities that will be carried out to achieve goals, because these predictions can provide the best output so it is hoped that the risk of errors caused by planning errors can be reduced to a minimum. Predictions are usually used to find information from large amounts of data, so data mining is needed.Data mining can be used to dig up information from large amounts of data to obtain information that can be used to predict something. In data mining, there are many techniques used to find hidden patterns or information, including clustering, regression, association and classification. Keywords: Keywords contain basic ideas or concepts that represent the field under study; The number of keywords is between 3-5 Phrases and are sorted alphabetically PENDAHULUAN Di era digital saat ini, ekonomi merupakan salah satu industri terpenting dan berkembang sangat cepat. Hal ini didukung oleh perkembangan teknologi yang semakin pesat di seluruh dunia. Itulah sebabnya setiap orang yang berkecimpung dalam bisnis bergerak dan saling bersaing untuk menjadi yang terbaik di bidangnya.[10] Penelitian ini mempunyai tujuan agar dapat membandingkan metode K-NN, Naive Bayes, Decision Tree, Ensemble Methods, dan Linear Regression yang dilakukan untuk klasifikasi apakah seorang penduduk memiliki pendapatan lebih besar atau sama dengan $50.000 USD per tahun atau tidak. Sedangkan aplikasi yang digunakan adalah aplikasi data mining orange yang merupakan aplikasi data mining open source yang terbukti dapat membantu dalam hal penganalisaan data. Untuk melakukan hal tersebut kita akan menunjukkan prosesnya mulai dari akuisisi data sampai prediksi.[1] Data Mining menggunakan Teknik Klasifikasi dengan 5 Model Algoritma[2] 1. K-Nearest Neighbor (k-NN) [3] Algoritma K-Nearest Neighbor (k-NN) merupakan sebuah model algoritma yang digunakan untuk melakukan klasifikasi terhadap objek yang berdasarkan dari data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Ataupun dapat dipahami juga bahwa k- nearest neighbor adalah salah satu algoritma yang paling sederhana dan banyak Titik data akan diklasifikasikan berdasarkan kesamaan kelompok tertentu dari titik data lain yang berdekatan. Sehingga, algoritma ini akan memberikan hasil yang kompetitif. 2. Naïve Bayes[5] Salah satu metode data mining ialah klasifikasi Naive Bayes. Naive Bayes Classifier adalah metode klasifikasi yang berakar pada teorema Bayes. Naive bayes merupakan metode Copyright @ Eri Mardiani, Nur Rahmansyah, Endah Tri Esti Handayani , Sari Ningsih, Deny Hidayatullah, Dhieka Avrilia Lantana, Yuni Latifah, Alica Dwi Fahira, Keysha Belynda Tyva Panggabean, Imelta Natalia Ginting pengklasifikasian berdasarkan probabilitas sederhana dan dirancang agar dapat dipergunakan dengan asumsi antar variabel penjelas saling bebas (independen). Pada algoritma ini pembelajaran lebih ditekankan pada pengestimasian probabilitas. tujuan dari metode Naïve Bayes adalah untuk menemukan probabilitas ketika kita mengetahui probabilitas tertentu lainnya. Hasil dari perhitungan data mining menggunakan metode klasifikasi Naïve Bayes akan makin berguna jika penyajiannya menarik dan dapat dipahami dengan baik oleh penerima data. 3. Decision Tree[9] Decision tree adalah algoritma machine learning yang menggunakan seperangkat aturan untuk membuat keputusan dengan struktur seperti pohon yang memodelkan kemungkinan hasil, biaya sumber daya, utilitas dan kemungkinan konsekuensi atau resiko. Konsepnya adalah dengan cara menyajikan algoritma dengan pernyataan bersyarat, yang meliputi cabang untuk mewakili langkah-langkah pengambilan keputusan yang dapat mengarah pada hasil yang menguntungkan. Klasifikasi ini menggunakan observasi pada node untuk menemukan target pada leaves. Decision Tree merupakan salah satu metode klasifikasi yang paling populer karena mudah untuk diinterpretasi oleh manusia dengan kemampuannya untuk mem-break down proses pengambilan keputusan yang kompleks menjadi lebih simple.[6] 4. Ensemble Method Ensemble Method adalah algoritma dalam pembelajaran mesin (machine learning) dimana algoritma ini sebagai pencarian solusi prediksi terbaik dibandingkan dengan algoritma yang lain karena metode ensemble ini menggunakan beberapa algoritma pembelajaran untuk pencapaian solusi prediksi yang lebih baik daripada algoritma yang bisa diperoleh dari salah satu pembelajaran algoritma konstituen saja. Tidak seperti ensemble statistika dalam mekanika statistika (...truncated)