PENGARUH STEMMER BAHASA INDONESIA TERHADAP PEFORMA ANALISIS SENTIMEN TERJEMAHAN ULASAN FILM
Jurnal TEKNOKOMPAK, Vol. 12, No. 1, 2018, 18-23. ISSN 1412-9663 (print)
PENGARUH STEMMER BAHASA INDONESIA TERHADAP PEFORMA
ANALISIS SENTIMEN TERJEMAHAN ULASAN FILM
I Made Artha Agastya1)
Informatika, Universitas AMIKOM Yogyakarta
Jl. Ring Road Utara, Condong Catur, Sleman, Yogyakarta, DIY
Email : .id1)
1)
Analisis sentimen merupakan bagian dari text mining
yang merupakan metode untuk mengambil opini dari
suatu kalimat atau dokumen. Saat ini analisis sentimen
dengan menggunakan Bahasa Indonesia menjadi sangat
populer di kalangan peneliti maupun bagi kalangan
prakitisi Industri. Terlihat dari banyaknya paper – paper
yang dihasilkan dan perusahaan yang melakukan analisis
sentimen untuk komersial. Beberapa contoh analisis
sentimen yang sudah dilakukan seperti prediksi hasil
pemilihan
presiden
atau
gubernur
(Aliandu,
2013)(Buntoro, 2017), sentimen masyarakat terhadap
pemimpin publik atau pemerintahan (Faradhillah,
Kusumawardani and Hafidz, 2016)(Aditya, 2016), dan
sentimen masyarakat terhadap perubahan harga bahan
pokok (UN Global Pulse, 2014)(Surjandari, Naffisah and
Prawiradinata, 2015).
Bagian yang sangat penting pada analisis sentimen
adalah prapengolahan. Prapengolahan (Liu and Zhang,
2012) merupakan proses untuk memperbaiki inputan
data yang tidak teratur. Hal ini untuk menanggulangi
salah mengambil ciri atau atribut. Karena kesalahan
dalam menggunakan ciri atau atribut dapat menurunkan
peforma sentimen analisis secara signifikan. Beberapa
diantaranya yaitu tokenisasi, case folding, penghapusan
karakter spesial, penghapusan stop word, dan stemming.
Stemming merupakan proses untuk mengembalikan kata
kerja yang berimbuhan menjadi kata dasarnya. Menurut
penelitian (Adriani et al., 2007), stemming dapat
meningkatkan recall namun dapat menurunkan precision
karena berkurangnya informasi dari kata yang telah distem.
Saat ini masih diperdebatkan apakah stemming dapat
membantu meningkat performa dari analisis sentimen.
Saat ini penelitian analisis sentimen berbahasa Indonesia
menjadi populer. Namun dataset yang dapat digunakan
untuk melakukan analisis sentimen masih belum ada.
Sehingga sulit untuk menyatakan bahwa hasil yang
diperoleh oleh peneliti yang menggunakan data pribadi
itu benar. Oleh karena dilakukan penelitian untuk
mencari pengaruh dari stemming pada peforma analisis
sentimen berbahasa Indonesia dengan dataset ulasan film
yang sudah diterjemahkan ke Bahasa Indonesia.
Kontribusi yang dilakukan pada penelitian ini adalah:
1. Menunjukan bahwa pengaruh stemming tidak
konsisten terhadap akurasi karena stemming
dapat meningkatkan atau menurunkan akurasi
bergantung dengan jumlah data yang digunakan.
2. Membandingkan
waktu
komputasi
yang
diperlukan pada sentimen analisis tanpa stemming
dan sentimen analisis dengan stemming.
Abstrak
Bahasa Indonesia memiliki banyak variasi akhiran,
awalan, dan sisipan. Stemming adalah bagian dari
prapengolahan dari analisis sentimen yang mendeteksi
dan menghilangkan imbuhan tersebut. Pengaruh dari
stemming pada analisis sentimen masih belum jelas
karena dataset yang digunakan tidak terdistribusi secara
bebas. Untuk mendapatkan pengaruh dari stemming
terhadap analisis sentimen maka dilakukan percobaan
dengan dataset ulasan film yang sudah diterjemahkan ke
Bahasa Indonesia. Stemmer Sastrawi sebagai algoritma
stemming terbaru digunakan pada penelitian ini. Dataset
dibagi menjadi 5 (lima) kategori yang mana 100 data,
250 data, 500 data, 750 data, dan 1000 data. Hasil yang
diperoleh
menunjukan
bahwa
stemmer
tidak
memberikan peningkatan akurasi yang stabil. Bahkan
waktu yang diperlukan untuk menyelesaikan analisis
sentimen memerlukan waktu meningkat hingga 310 kali
lipat. Kenyataan ini sangat buruk karena stemming dapat
mengurangi efisiensi dari analisis sentimen.
Kata kunci: Analisis Sentimen, Stemming, Sastrawi,
Ulasan Film, Bahasa Indonesia.
1. Pendahuluan
Text Mining (Liu, 2012) telah menjadi riset topik yang
luas dan populer. Pendekatan Text Mining terbagi
menjadi dua bagian yaitu dengan pendekatan lexical dan
pendekatan pembelajaran mesin. Pada pendekatan
lexical yang menjadi acuan adalah kamus dan corpus.
Sedangkan pada pendekatan pembelajaran mesin
(Haykin, 2009) terbagi empat jenis, yaitu pembelajaran
terbimbing (supervised learning), pembelajaran tidak
terbimbing (unsupervised learning), pembelajaran semi
terbimbing (semi supervised learning), pembelajaran
dengan pengutatan (reinforcement learning). Namun dari
empat tersebut yang paling sering digunakan adalah
supervised dan unsupervised learning. Machine learning
lebih favorit digunakan karena tidak diperlukan
pemahaman mendalam mengenai struktur bahasa dari
kata atau kalimat. Pada pendekatan unsupervised
learning dapat dilakukan metode clustering (Agastya,
Adji and Setiawan, 2017)(Chifu, Letia and Chifu,
2015)(Suresh and S., 2016) untuk mengelompokan
dokumen secara efektif seperti dengan K-Means dan
Fuzzy C Means (FCM). Sedangkan pendekatan
supervised learning (Kaur, Mangat and Nidhi, 2017)
menggunakan berbagai macam metode yang terbagi
menjadi empat yaitu linear, decision tree, ruled based,
dan probabilistic.
18
Jurnal TEKNOKOMPAK, Vol. 12, No. 1, 2018, 18-23. ISSN 1412-9663 (print)
3.
Memberikan akses pada peneliti lain untuk
menggunakan dataset analisis yang tersedia
secara publik.
1.
belajar ajar
lagi untuk menyelesaikan masalah over stemming dan
under stemming pada penelitian (Tahitoe and
Purwitasari, 2010). Namun pada penelitian tersebut tidak
dibandingkan berdasarkan peforma pengenalan kata
dasar namun dibandingkan berdasarkan implementasi
pencarian dokumen. Tidak diketahui keunggulan dari
perbaikan metode stemming yang diajukan. Kemudian
ketiga penelitian tersebut dibuat sebuah program
stemmer yang berbasis PHP dengan nama Sastrawi
(Librian, 2017). Stemmer Satrawi sudah mengalami
perbaikan dan merupakan stemmer terbaru saat ini. Oleh
karena itu, stemmer Sastrawi menjadi stemmer yang
diuji pengaruhnya terhadap peforma analisis sentimen.
2.
membaca baca
2.2 Alat dan Bahan
2. Pembahasan
2.1 Tinjauan Pustaka
Stemming yang dibuat oleh Nazief dan Adriani (NA)
(Adriani et al., 2007) lebih tepat untuk disebut dengan
lemmatization karena melakukan proses yang dilakukan
adalah mengembalikan kata yang berimbuhan menjadi
kata dasar. Seperti pada kata berikut ini:
Pada penelitian ini menggunakan perangkat keras dan
lunak sebagai berikut:
Perangkat keras:
1. CPU 2.5 GHz Intel Core i5-3210M
2. Memori DDR3 8 GB
3. Sistem Operasi GNU/Linux Ubuntu versi 16.04
LTS atau Long Term Support
4. Penyimpanan berupa Hard Disk dengan
kapasitas 150 GB
Perangkat lunak:
1. Anaconda versi 5.1
2. Spyder versi 3.4.2
3. Python versi 2.7.14
4. Pustaka NLTK, Pandas, dan Numpy
Stemmer NA sudah diuji presisinya (Agusta, 2009)
dengan stemmer porter Bahasa dan diperoleh kesimpulan
bahwa presisi stemmer NA lebih tinggi dari stemmer
porter sekitar 5 – 10 %. Namun jika dilihat dari rata –rata
waktu komputasi, stemmer NA bekerja lima puluh kali
lebih lama dari stemmer porter. Pada Penelitian (Wira
an (...truncated)