PENGARUH STEMMER BAHASA INDONESIA TERHADAP PEFORMA ANALISIS SENTIMEN TERJEMAHAN ULASAN FILM (pdf)

Article PDF cannot be displayed. You can download it here:

https://ejurnal.teknokrat.ac.id/index.php/teknokompak/article/download/70/66

PENGARUH STEMMER BAHASA INDONESIA TERHADAP PEFORMA ANALISIS SENTIMEN TERJEMAHAN ULASAN FILM

Jurnal TEKNOKOMPAK, Vol. 12, No. 1, 2018, 18-23. ISSN 1412-9663 (print) PENGARUH STEMMER BAHASA INDONESIA TERHADAP PEFORMA ANALISIS SENTIMEN TERJEMAHAN ULASAN FILM I Made Artha Agastya1) Informatika, Universitas AMIKOM Yogyakarta Jl. Ring Road Utara, Condong Catur, Sleman, Yogyakarta, DIY Email : .id1) 1) Analisis sentimen merupakan bagian dari text mining yang merupakan metode untuk mengambil opini dari suatu kalimat atau dokumen. Saat ini analisis sentimen dengan menggunakan Bahasa Indonesia menjadi sangat populer di kalangan peneliti maupun bagi kalangan prakitisi Industri. Terlihat dari banyaknya paper – paper yang dihasilkan dan perusahaan yang melakukan analisis sentimen untuk komersial. Beberapa contoh analisis sentimen yang sudah dilakukan seperti prediksi hasil pemilihan presiden atau gubernur (Aliandu, 2013)(Buntoro, 2017), sentimen masyarakat terhadap pemimpin publik atau pemerintahan (Faradhillah, Kusumawardani and Hafidz, 2016)(Aditya, 2016), dan sentimen masyarakat terhadap perubahan harga bahan pokok (UN Global Pulse, 2014)(Surjandari, Naffisah and Prawiradinata, 2015). Bagian yang sangat penting pada analisis sentimen adalah prapengolahan. Prapengolahan (Liu and Zhang, 2012) merupakan proses untuk memperbaiki inputan data yang tidak teratur. Hal ini untuk menanggulangi salah mengambil ciri atau atribut. Karena kesalahan dalam menggunakan ciri atau atribut dapat menurunkan peforma sentimen analisis secara signifikan. Beberapa diantaranya yaitu tokenisasi, case folding, penghapusan karakter spesial, penghapusan stop word, dan stemming. Stemming merupakan proses untuk mengembalikan kata kerja yang berimbuhan menjadi kata dasarnya. Menurut penelitian (Adriani et al., 2007), stemming dapat meningkatkan recall namun dapat menurunkan precision karena berkurangnya informasi dari kata yang telah distem. Saat ini masih diperdebatkan apakah stemming dapat membantu meningkat performa dari analisis sentimen. Saat ini penelitian analisis sentimen berbahasa Indonesia menjadi populer. Namun dataset yang dapat digunakan untuk melakukan analisis sentimen masih belum ada. Sehingga sulit untuk menyatakan bahwa hasil yang diperoleh oleh peneliti yang menggunakan data pribadi itu benar. Oleh karena dilakukan penelitian untuk mencari pengaruh dari stemming pada peforma analisis sentimen berbahasa Indonesia dengan dataset ulasan film yang sudah diterjemahkan ke Bahasa Indonesia. Kontribusi yang dilakukan pada penelitian ini adalah: 1. Menunjukan bahwa pengaruh stemming tidak konsisten terhadap akurasi karena stemming dapat meningkatkan atau menurunkan akurasi bergantung dengan jumlah data yang digunakan. 2. Membandingkan waktu komputasi yang diperlukan pada sentimen analisis tanpa stemming dan sentimen analisis dengan stemming. Abstrak Bahasa Indonesia memiliki banyak variasi akhiran, awalan, dan sisipan. Stemming adalah bagian dari prapengolahan dari analisis sentimen yang mendeteksi dan menghilangkan imbuhan tersebut. Pengaruh dari stemming pada analisis sentimen masih belum jelas karena dataset yang digunakan tidak terdistribusi secara bebas. Untuk mendapatkan pengaruh dari stemming terhadap analisis sentimen maka dilakukan percobaan dengan dataset ulasan film yang sudah diterjemahkan ke Bahasa Indonesia. Stemmer Sastrawi sebagai algoritma stemming terbaru digunakan pada penelitian ini. Dataset dibagi menjadi 5 (lima) kategori yang mana 100 data, 250 data, 500 data, 750 data, dan 1000 data. Hasil yang diperoleh menunjukan bahwa stemmer tidak memberikan peningkatan akurasi yang stabil. Bahkan waktu yang diperlukan untuk menyelesaikan analisis sentimen memerlukan waktu meningkat hingga 310 kali lipat. Kenyataan ini sangat buruk karena stemming dapat mengurangi efisiensi dari analisis sentimen. Kata kunci: Analisis Sentimen, Stemming, Sastrawi, Ulasan Film, Bahasa Indonesia. 1. Pendahuluan Text Mining (Liu, 2012) telah menjadi riset topik yang luas dan populer. Pendekatan Text Mining terbagi menjadi dua bagian yaitu dengan pendekatan lexical dan pendekatan pembelajaran mesin. Pada pendekatan lexical yang menjadi acuan adalah kamus dan corpus. Sedangkan pada pendekatan pembelajaran mesin (Haykin, 2009) terbagi empat jenis, yaitu pembelajaran terbimbing (supervised learning), pembelajaran tidak terbimbing (unsupervised learning), pembelajaran semi terbimbing (semi supervised learning), pembelajaran dengan pengutatan (reinforcement learning). Namun dari empat tersebut yang paling sering digunakan adalah supervised dan unsupervised learning. Machine learning lebih favorit digunakan karena tidak diperlukan pemahaman mendalam mengenai struktur bahasa dari kata atau kalimat. Pada pendekatan unsupervised learning dapat dilakukan metode clustering (Agastya, Adji and Setiawan, 2017)(Chifu, Letia and Chifu, 2015)(Suresh and S., 2016) untuk mengelompokan dokumen secara efektif seperti dengan K-Means dan Fuzzy C Means (FCM). Sedangkan pendekatan supervised learning (Kaur, Mangat and Nidhi, 2017) menggunakan berbagai macam metode yang terbagi menjadi empat yaitu linear, decision tree, ruled based, dan probabilistic. 18 Jurnal TEKNOKOMPAK, Vol. 12, No. 1, 2018, 18-23. ISSN 1412-9663 (print) 3. Memberikan akses pada peneliti lain untuk menggunakan dataset analisis yang tersedia secara publik. 1. belajar  ajar lagi untuk menyelesaikan masalah over stemming dan under stemming pada penelitian (Tahitoe and Purwitasari, 2010). Namun pada penelitian tersebut tidak dibandingkan berdasarkan peforma pengenalan kata dasar namun dibandingkan berdasarkan implementasi pencarian dokumen. Tidak diketahui keunggulan dari perbaikan metode stemming yang diajukan. Kemudian ketiga penelitian tersebut dibuat sebuah program stemmer yang berbasis PHP dengan nama Sastrawi (Librian, 2017). Stemmer Satrawi sudah mengalami perbaikan dan merupakan stemmer terbaru saat ini. Oleh karena itu, stemmer Sastrawi menjadi stemmer yang diuji pengaruhnya terhadap peforma analisis sentimen. 2. membaca  baca 2.2 Alat dan Bahan 2. Pembahasan 2.1 Tinjauan Pustaka Stemming yang dibuat oleh Nazief dan Adriani (NA) (Adriani et al., 2007) lebih tepat untuk disebut dengan lemmatization karena melakukan proses yang dilakukan adalah mengembalikan kata yang berimbuhan menjadi kata dasar. Seperti pada kata berikut ini: Pada penelitian ini menggunakan perangkat keras dan lunak sebagai berikut: Perangkat keras: 1. CPU 2.5 GHz Intel Core i5-3210M 2. Memori DDR3 8 GB 3. Sistem Operasi GNU/Linux Ubuntu versi 16.04 LTS atau Long Term Support 4. Penyimpanan berupa Hard Disk dengan kapasitas 150 GB Perangkat lunak: 1. Anaconda versi 5.1 2. Spyder versi 3.4.2 3. Python versi 2.7.14 4. Pustaka NLTK, Pandas, dan Numpy Stemmer NA sudah diuji presisinya (Agusta, 2009) dengan stemmer porter Bahasa dan diperoleh kesimpulan bahwa presisi stemmer NA lebih tinggi dari stemmer porter sekitar 5 – 10 %. Namun jika dilihat dari rata –rata waktu komputasi, stemmer NA bekerja lima puluh kali lebih lama dari stemmer porter. Pada Penelitian (Wira an (...truncated)