Peran Algoritma Stemming Nazief Adriani Dalam Peningkatan Relevansi Pencarian Dokumen (pdf)

Article PDF cannot be displayed. You can download it here:

https://tunasbangsa.ac.id/pkm/index.php/kesatria/article/download/335/332

Peran Algoritma Stemming Nazief Adriani Dalam Peningkatan Relevansi Pencarian Dokumen

KESATRIA: Jurnal Penerapan Sistem Informasi (Komputer & Manajemen) Terakreditasi Nomor 204/E/KPT/2022 | Vol. 5, No. 1, Januari (2024), pp. 269-280 Peran Algoritma Stemming Nazief Adriani Dalam Peningkatan Relevansi Pencarian Dokumen Dewi Soyusiawaty1, Az-Zahra2 1,2 Universitas Ahmad Dahlan, Yogyakarta, Indonesia E-mail: .id1, .id2 Abstract Nazief Andriani's algorithm is a Stemming Algorithm in text-preprocessing as a support in improving Information Retrieval (IR) performance and the process of determining the similarity value of text documents. But in reality, there are still many Information Retrieval systems that do not meet user needs, where to display search results, documents can only be found if the user enters keywords that must be exactly the same or have the same words as the query. The aim of this research is to create a system to improve and recognize keyword variations in the search relevance of thesis documents to meet user needs which will make it easier to search for document titles. The method used in this research was to collect data using 2045 thesis title documents. The method used is Nazief Adriani's Stemming Algorithm to make it easier to categorize document titles with more varied search results. So, for this research stage, a website will be built to increase the relevance of the accuracy of the role of stemming in document searches with research stages including data collection, needs analysis, system design, system implementation and testing, system testing. This system can display document search keywords with varying affix results with Precision test results of 81.7% which shows the quality of how useful this document search system is. and a recall value of 100% which represents the quality of how complete the relevant results are displayed by the search system. With word processing research, searches for thesis document collections will be able to be managed well and improve document search performance which is more varied according to the needs of Informatics students as system users. Keywords: Nazief Andriani Algorithm; Information Retrieval (IR); Stemming Abstrak Algoritma Nazief Andriani merupakan Algoritma Stemming pada text-preprocessing sebagai pendukung dalam meningkatkan performa Information Retrieval (IR) dan proses penentuan dalam nilai kemiripan dokumen teks. Tetapi pada kenyataanya masih banyak sistem Information Retrieval yang belum memenuhi kebutuhan pengguna dimana untuk menampilkan hasil pencarian dokumen hanya dapat ditemukan jika pengguna memasukkan kata kunci yang harus sama persis atau yang mempunyai kata yang sama dengan query. Tujuan penelitian ini membuat sistem untuk meningkatkan dan mengenali variasi kata kunci dalam relevansi pencarian dokumen skripsi untuk memenuhi kebutuhan pengguna yang akan memudahkan pencarian judul dokumen. Metode yang digunakan dalam penelitian ini, untuk pengumpulan datanya menggunakan 2045 dokumen judul skripsi. Untuk metode yang digunakan yaitu Algoritma Stemming Nazief Adriani untuk memudahkan pengkategorian judul dokumen dengan hasil pencarian yang lebih bervariasi. Maka untuk tahap penelitian ini akan dibangun Website untuk meningkatkan relevansi keakuratan peran stemming pada pencarian dokumen dengan tahapan penelitian meliputi pengumpulan data, analisis kebutuhan, perancangan sistem, implementasi dan pengujian sistem, pengujian sistem. Sistem ini dapat menampilkan sesuai kata kunci pencarian dokumen dengan hasil imbuhan yang bervariasi dengan hasil pengujian Precision sebesar 81,7% yang mempresentasikan kualitas seberapa berguna ISSN: 2720-992X Copyright ⓒ KESATRIA: Jurnal Penerapan Sistem Informasi (Komputer & Manajemen) KESATRIA: Jurnal Penerapan Sistem Informasi (Komputer & Manajemen) Terakreditasi Nomor 204/E/KPT/2022 | Vol. 5, No. 1, Januari (2024), pp. 269-280 sistem pencarian dokumen ini. dan nilai recall sebesar 100% yang mempresentasikan kualitas seberapa lengkap hasil relevan yang ditampilkan oleh sistem pencarian. Dengan adanya penelitian pemrosesan kata pencarian kumpulan dokumen skripsi akan dapat dikelola secara baik dan meningkatkan kinerja pencarian dokumen yang lebih bervariasi sesuai dengan kebutuhan mahasiswa Informatika sebagai pengguna sistem. Kata Kunci: Algoritma Nazief Andriani; Information Retrieval (IR); Stemming 1. Pendahuluan Algortima Stemming merupakan salah satu Algoritma yang tidak terpisahkan dalam meningkatkan performa Information Retrieval (IR). istilah dari Pencarian informasi berupa dokumen atau teks biasa dikenal dengan Information Retrieval (IR) yaitu proses pemisahan dokumen - dokumen. yang dianggap relevan dari sekumpulan dokumen yang tersedia. Stemming adalah proses pemotongan (penghilangan) imbuhan (affix), baik awalan (prefix) maupun akhiran(suffix), dari sebuah term untuk mendapatkan kata dasar dari kata berimbuhan[5]. Beberapa algoritma stemming untuk Bahasa Indonesia telah dikembangkan sebelumnya antara lain Algoritma Nazief & Adriani, Algoritma Porter, Algoritma Algoritma Arifin Setiono[2]. Dari kesimpulan penelitian terdahulu bahwa Algoritma Nazief Adriani lebih unggul dalam hal kecepatan dan akurasi dibandingkan dengan dua Algortima lainnya. Algoritma Nazief Adriani dikembangkan berdasarkan aturan morfologi Bahasa Indonesia yang mengelompokkan imbuhan menjadi awalan, sisipan,akhiran dan gabungan awalan akhiran. Algoritma ini menggunakan kamus kata dasar dan mendukung recoding, yakni merangkai kembali kata-kata yang mengalami proses stemming berlebih. Untuk memeriksa apakah kata dasar yang melalui proses stemming benar dan ditemukan pada kamus saat proses stemming dilakukan maka dibutuhkan kamus kata dasar[12]. Pada umumnya indikator yang dipakai untuk menilai relevansi hasil pencarian suatu dokumen adalah menyesuaikan antara query yang diberikan dan dokumen yang diperoleh. Tetapi term-term yang terdapat pada dokumen dan pada query sering memiliki banyak varian morfologik, sehingga pasangan term seperti “peningkatkan”,”meningkatkan” dan “tingkat” tidak akan dianggap ekuivalen atau memiliki makna sama oleh sistem tanpa suatu bentuk Natural Language Processing (NLP)[9]. Sistem Information Retrieval yang ideal adalah dimana sistem dapat menemukan informasi yang relevan yang sesuai permintaan pengguna. Tetapi pada kenyataanya masih banyak sistem Information Retrieval yang belum memenuhi kebutuhan pengguna dimana untuk menampilkan hasil pencarian dokumen hanya dapat ditemukan jika pengguna memasukkan kata kunci yang harus sama persis atau yang mempunyai kata yang sama dengan query[11]. Seharusnya kata kunci dengan banyak variasi morfologi harus dipertimbangkan sebagai term yang sama. Dokumen yang memiliki kata yang merupakan variasi dari kata pada query tidak dianggap sebagai dokumen hasil pencarian. Tentu ini menjadi permasalahan karena sulit untuk mendapatkan hasil dan mengambil informasi yang relevan karena bahasa pastinya memiliki berbagai varian morfologi kata - kata yang akan mengakibatkan terjadinya ketidaksesuaian kosakata[ (...truncated)