CLUSTERING OF ONLINE PETITION DOCUMENTS ON THE CHANGE.ORG WEBSITE USING HIERARCHICAL CLUSTERING UPGMA (pdf)

Article PDF cannot be displayed. You can download it here:

https://j-ptiik.ub.ac.id/index.php/j-ptiik/article/download/2601/968

CLUSTERING OF ONLINE PETITION DOCUMENTS ON THE CHANGE.ORG WEBSITE USING HIERARCHICAL CLUSTERING UPGMA

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Vol. 2, No. 10, Oktober 2018, hlm. 3323-3331 e-ISSN: 2548-964X http://j-ptiik.ub.ac.id Pengelompokan Dokumen Petisi Online Di Situs Change.org Menggunakan Algoritme Hierarchical Clustering UPGMA Irwin Deriyan Ferdiansyah1, Sigit Adinugroho2, M. Ali Fauzi3 Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: , , Abstrak Change.org merupakan salah satu website yang sering digunakan oleh masyarakat untuk sarana penyampaian petisi dan kampanye sosial secara online. Kampanye lewat media sosial terbukti dapat menghasilkan perubahan. Aliran informasi petisi online yang berupa dokumen diperbarui setiap harinya dalam jumlah yang besar, membuat clustering dokumen menjadi sangat penting. Clustering dokumen adalah proses pengelompokan dokumen yang memiliki kesamaan topik. Tujuannya untuk membagi dokumen berdasarkan kesamaan, sehingga memudahkan dalam proses pencarian. Metode yang digunakan adalah hierarchical clustering UPGMA atau Unweighted Pair-Group Method using Arithmetic averages dengan menambahkan reduksi fitur menggunakan metode latent semantic indexing hasil pemecahan matrik singular value decomposition. Hasil penelitian menyimpulkan bahwa latent semantic indexing dapat mengatasi permasalahan pada data berdimensi tinggi. Data yang digunakan berjumlah 100 petisi. Dari hasil pengujian performansi menggunakan cophenetic correlation coefficient diperoleh nilai cophenetic sebesar 0,75959 pada rank matrik LSI sebanyak 10% dan silhouette coefficient sebesar 0,36862 dengan jumlah cluster sebanyak 2 cluster. Kata kunci: pengelompokan dokumen, Change.org, UPGMA, Singular Value Decomposition, Latent Semantic Indexing, Silhouette Coefficient , Cophenetic Correlation Coefficient. Abstract Change.org is a website that is often used by people, which means for online delivering petitions and social campaignings. Campaign through social media had been proven that can make a change. The flow information of online petitions documents is updated daily in large numbers. It makes documents clustering being very important. Documents clustering is a process of grouping documents which have same topic. It aims to devide documents by its similarly, so the process of searching will be easier. This study uses hierarchical clustering UPGMA or unweighted pair-group method by arithmetic averages with adding feature reduction using latent semantic indexing method, that is the result of splitting singular value decomposition matrix. The result of this study conclude that latent semantic indexing method can solved the problem in high-dimensional data. The data conducted by 100 petitions. The result of performance testing which used cophenetic correlation coefficient obtained cophenetic value of 0.75959 at LSI matrix rank of 10 % and silhouette coefficient of 0.36862 with number of clusters as many as 2 clusters. Keywords: Document Clustering, Change.org, UPGMA, Singular Value Decomposition, Latent Semantic Indexing, Silhouette Coefficient, Cophenetic Correlation Coefficient. digunakan masyarakat untuk menyuarakan aspirasi dan pengaduannya terhadap kinerja pemerintahan, ataupun pihak-pihak lain yang bersangkutan adalah melalui petisi online. Petisi online muncul sebagai alat yang ampuh bagi masyarakat untuk memberikan dampak positif serta kemudahan individu dan kelompok untuk mengadakan petisi secara online. 1. PENDAHULUAN Perkembangan media elektronik khususnya teknologi informasi saat ini sangatlah cepat terutama internet. Internet sendiri oleh beberapa kalangan sudah dijadikan sebagai wadah tukar pikiran dan juga aspirasi untuk mencapai tujuan tertentu. Di Indonesia salah satu media yang bisa Fakultas Ilmu Komputer Universitas Brawijaya 3323 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Change.org merupakan salah satu website yang kerap digunakan oleh masyarakat untuk sarana penyampaian petisi dan kampanye sosial online. Media sosial digunakan untuk tempat berkumpul virtual dan secara tak langsung dapat memobilisasi massa yang memiliki tujuan sama (Wahyudi ,2012). Antusiasme masyarakat dunia khususnya indonesia untuk membuat dan mendukung petisi – petisi yang ada pada situs Change.org cukuplah besar. Akan tetapi, pencarian atas petisi online pada situs ini hanya didasari pada kata kunci yang dimasukkan saja. Belum tertata atau terkelompokannya petisi petisi yang ada pada situs ini mengakibatkan tidak adanya fitur tambahan mengenai topiktopik tertentu yang dapat dipilih dan memudahkan pengguna untuk memilih petisi yang diinginkan. Clustering dokumen adalah proses pengelompokan dokumen yang memiliki kesamaan topik. Tujuan dari proses clustering ini membagi dokumen berdasarkan kesamaan, sehingga memudahkan dalam proses pencarian. (Milatina, Syukur dan Supriyanto, 2012). Pada clustering teks terdapat suatu permasalahan yaitu dengan adanya fitur – fitur yang berdimensi tinggi. Hal ini bisa disebabkan karena adanya data yang tidak relevan dan redundan. Proses dari clustering akan kurang optimal jika didalamnya masih terdapat fitur yang tidak relevan dan redundan. Oleh karena itu diperlukan metode yang dapat mengurangi dimensi pada fitur berdimensi tinggi. (Langgeni, Baizal Dan Firdaus, 2010). Terdapat cara untuk dapat membatasi jumlah fitur yang terlibat pada data berdimensi tinggi, yaitu dengan mereduksi matrik term dokumen menggunakan latent semantic indexing (LSI). Pada hasil penelitian yang dilakukan Muflikhah dan Baharudin (2009) menyatakan bahwa reduksi dimensi dengan metode LSI dapat memperoleh performa lebih tinggi dari pada tanpa menggunakan metode LSI. Beberapa penelitian sebelumnya yang berkaitan dengan clustering dokumen antara lain penelitian yang dilakukan oleh Husni, Dwi dan Syarief (2015) dimana pada penelitian tersebut mengelompokkan dokumen web berupa berita berbahasa Indonesia dengan menggunakan Algoritme K-means, dan menjelaskan bahwa dokumen web yang sudah terkelompokkan dengan baik, akan memberikan akurasi yang memuaskan dalam hal pencarian. Selanjutnya adalah penelitian yang dilakukan oleh Rahadian et al (2017) dimana menganalisis judul majalah Fakultas Ilmu Komputer, Universitas Brawijaya 3324 Kawanku menggunakan algoritme clustering yang di simulasi dengan konsep Big data, menyimpulkan bahwa penggunaan data yang besar membutuhkan suatu pengolahan, pengelompokan dan pengkomunikasian antar data dokumen menggunakan text mining. Algoritme hierarchical clustering lebih sesuai diterapkan pada permasalahan ini karena pada algoritme tersebut, dokumen yang akan dikelompokkan belum memiliki jumlah cluster sebelumnya.Keunggulan hierarchical clustering adalah kemudahan dalam menangani bentukbentuk kesamaan atau jarak antar cluster, lebih efisien dari segi komputasi tetapi tetap memberikan hasil yang bagus dan mudah dalam pengaplikasiannya daripada partitional clustering. Pada penelitian ini menggunakan algoritme UPGMA, karna menurut penelitian yang dilakukan oleh Zhao dan Karypis (2 (...truncated)