CLUSTERING OF ONLINE PETITION DOCUMENTS ON THE CHANGE.ORG WEBSITE USING HIERARCHICAL CLUSTERING UPGMA
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Vol. 2, No. 10, Oktober 2018, hlm. 3323-3331
e-ISSN: 2548-964X
http://j-ptiik.ub.ac.id
Pengelompokan Dokumen Petisi Online Di Situs Change.org Menggunakan
Algoritme Hierarchical Clustering UPGMA
Irwin Deriyan Ferdiansyah1, Sigit Adinugroho2, M. Ali Fauzi3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: , ,
Abstrak
Change.org merupakan salah satu website yang sering digunakan oleh masyarakat untuk sarana
penyampaian petisi dan kampanye sosial secara online. Kampanye lewat media sosial terbukti dapat
menghasilkan perubahan. Aliran informasi petisi online yang berupa dokumen diperbarui setiap harinya
dalam jumlah yang besar, membuat clustering dokumen menjadi sangat penting. Clustering dokumen
adalah proses pengelompokan dokumen yang memiliki kesamaan topik. Tujuannya untuk membagi
dokumen berdasarkan kesamaan, sehingga memudahkan dalam proses pencarian. Metode yang
digunakan adalah hierarchical clustering UPGMA atau Unweighted Pair-Group Method using
Arithmetic averages dengan menambahkan reduksi fitur menggunakan metode latent semantic indexing
hasil pemecahan matrik singular value decomposition. Hasil penelitian menyimpulkan bahwa latent
semantic indexing dapat mengatasi permasalahan pada data berdimensi tinggi. Data yang digunakan
berjumlah 100 petisi. Dari hasil pengujian performansi menggunakan cophenetic correlation coefficient
diperoleh nilai cophenetic sebesar 0,75959 pada rank matrik LSI sebanyak 10% dan silhouette
coefficient sebesar 0,36862 dengan jumlah cluster sebanyak 2 cluster.
Kata kunci: pengelompokan dokumen, Change.org, UPGMA, Singular Value Decomposition, Latent Semantic
Indexing, Silhouette Coefficient , Cophenetic Correlation Coefficient.
Abstract
Change.org is a website that is often used by people, which means for online delivering petitions and
social campaignings. Campaign through social media had been proven that can make a change. The
flow information of online petitions documents is updated daily in large numbers. It makes documents
clustering being very important. Documents clustering is a process of grouping documents which have
same topic. It aims to devide documents by its similarly, so the process of searching will be easier. This
study uses hierarchical clustering UPGMA or unweighted pair-group method by arithmetic averages
with adding feature reduction using latent semantic indexing method, that is the result of splitting
singular value decomposition matrix. The result of this study conclude that latent semantic indexing
method can solved the problem in high-dimensional data. The data conducted by 100 petitions. The
result of performance testing which used cophenetic correlation coefficient obtained cophenetic value
of 0.75959 at LSI matrix rank of 10 % and silhouette coefficient of 0.36862 with number of clusters as
many as 2 clusters.
Keywords: Document Clustering, Change.org, UPGMA, Singular Value Decomposition, Latent Semantic
Indexing, Silhouette Coefficient, Cophenetic Correlation Coefficient.
digunakan masyarakat untuk menyuarakan
aspirasi dan pengaduannya terhadap kinerja
pemerintahan, ataupun pihak-pihak lain yang
bersangkutan adalah melalui petisi online. Petisi
online muncul sebagai alat yang ampuh bagi
masyarakat untuk memberikan dampak positif
serta kemudahan individu dan kelompok untuk
mengadakan petisi secara online.
1. PENDAHULUAN
Perkembangan media elektronik khususnya
teknologi informasi saat ini sangatlah cepat
terutama internet. Internet sendiri oleh beberapa
kalangan sudah dijadikan sebagai wadah tukar
pikiran dan juga aspirasi untuk mencapai tujuan
tertentu. Di Indonesia salah satu media yang bisa
Fakultas Ilmu Komputer
Universitas Brawijaya
3323
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer
Change.org merupakan salah satu website
yang kerap digunakan oleh masyarakat untuk
sarana penyampaian petisi dan kampanye sosial
online. Media sosial digunakan untuk tempat
berkumpul virtual dan secara tak langsung dapat
memobilisasi massa yang memiliki tujuan sama
(Wahyudi ,2012). Antusiasme masyarakat dunia
khususnya indonesia untuk membuat dan
mendukung petisi – petisi yang ada pada situs
Change.org cukuplah besar.
Akan tetapi,
pencarian atas petisi online pada situs ini hanya
didasari pada kata kunci yang dimasukkan saja.
Belum tertata atau terkelompokannya petisi petisi yang ada pada situs ini mengakibatkan
tidak adanya fitur tambahan mengenai topiktopik tertentu yang dapat dipilih dan
memudahkan pengguna untuk memilih petisi
yang diinginkan. Clustering dokumen adalah
proses pengelompokan dokumen yang memiliki
kesamaan topik. Tujuan dari proses clustering
ini membagi dokumen berdasarkan kesamaan,
sehingga memudahkan dalam proses pencarian.
(Milatina, Syukur dan Supriyanto, 2012).
Pada clustering teks terdapat suatu
permasalahan yaitu dengan adanya fitur – fitur
yang berdimensi tinggi. Hal ini bisa disebabkan
karena adanya data yang tidak relevan dan
redundan. Proses dari clustering akan kurang
optimal jika didalamnya masih terdapat fitur
yang tidak relevan dan redundan. Oleh karena itu
diperlukan metode yang dapat mengurangi
dimensi pada fitur berdimensi tinggi. (Langgeni,
Baizal Dan Firdaus, 2010). Terdapat cara untuk
dapat membatasi jumlah fitur yang terlibat pada
data berdimensi tinggi, yaitu dengan mereduksi
matrik term dokumen menggunakan latent
semantic indexing (LSI). Pada hasil penelitian
yang dilakukan Muflikhah dan Baharudin
(2009) menyatakan bahwa reduksi dimensi
dengan metode LSI dapat memperoleh performa
lebih tinggi dari pada tanpa menggunakan
metode LSI.
Beberapa penelitian sebelumnya yang
berkaitan dengan clustering dokumen antara lain
penelitian yang dilakukan oleh Husni, Dwi dan
Syarief (2015) dimana pada penelitian tersebut
mengelompokkan dokumen web berupa berita
berbahasa Indonesia dengan menggunakan
Algoritme K-means, dan menjelaskan bahwa
dokumen web yang sudah terkelompokkan
dengan baik, akan memberikan akurasi yang
memuaskan dalam hal pencarian. Selanjutnya
adalah penelitian yang dilakukan oleh Rahadian
et al (2017) dimana menganalisis judul majalah
Fakultas Ilmu Komputer, Universitas Brawijaya
3324
Kawanku menggunakan algoritme clustering
yang di simulasi dengan konsep Big data,
menyimpulkan bahwa penggunaan data yang
besar membutuhkan
suatu pengolahan,
pengelompokan dan pengkomunikasian antar
data dokumen menggunakan text mining.
Algoritme hierarchical clustering lebih
sesuai diterapkan pada permasalahan ini karena
pada algoritme tersebut, dokumen yang akan
dikelompokkan belum memiliki jumlah cluster
sebelumnya.Keunggulan hierarchical clustering
adalah kemudahan dalam menangani bentukbentuk kesamaan atau jarak antar cluster, lebih
efisien dari segi komputasi tetapi tetap
memberikan hasil yang bagus dan mudah dalam
pengaplikasiannya
daripada
partitional
clustering. Pada penelitian ini menggunakan
algoritme UPGMA, karna menurut penelitian
yang dilakukan oleh Zhao dan Karypis (2 (...truncated)