Peran Algoritma Stemming Nazief Adriani Dalam Peningkatan Relevansi Pencarian Dokumen
KESATRIA: Jurnal Penerapan Sistem Informasi (Komputer & Manajemen)
Terakreditasi Nomor 204/E/KPT/2022 | Vol. 5, No. 1, Januari (2024), pp. 269-280
Peran Algoritma Stemming Nazief Adriani Dalam Peningkatan
Relevansi Pencarian Dokumen
Dewi Soyusiawaty1, Az-Zahra2
1,2
Universitas Ahmad Dahlan, Yogyakarta, Indonesia
E-mail: .id1,
.id2
Abstract
Nazief Andriani's algorithm is a Stemming Algorithm in text-preprocessing as a
support in improving Information Retrieval (IR) performance and the process of
determining the similarity value of text documents. But in reality, there are still many
Information Retrieval systems that do not meet user needs, where to display search
results, documents can only be found if the user enters keywords that must be exactly the
same or have the same words as the query. The aim of this research is to create a system
to improve and recognize keyword variations in the search relevance of thesis documents
to meet user needs which will make it easier to search for document titles. The method
used in this research was to collect data using 2045 thesis title documents. The method
used is Nazief Adriani's Stemming Algorithm to make it easier to categorize document
titles with more varied search results. So, for this research stage, a website will be built to
increase the relevance of the accuracy of the role of stemming in document searches with
research stages including data collection, needs analysis, system design, system
implementation and testing, system testing. This system can display document search
keywords with varying affix results with Precision test results of 81.7% which shows the
quality of how useful this document search system is. and a recall value of 100% which
represents the quality of how complete the relevant results are displayed by the search
system. With word processing research, searches for thesis document collections will be
able to be managed well and improve document search performance which is more varied
according to the needs of Informatics students as system users.
Keywords: Nazief Andriani Algorithm; Information Retrieval (IR); Stemming
Abstrak
Algoritma Nazief Andriani merupakan Algoritma Stemming pada text-preprocessing
sebagai pendukung dalam meningkatkan performa Information Retrieval (IR) dan
proses penentuan dalam nilai kemiripan dokumen teks. Tetapi pada kenyataanya masih
banyak sistem Information Retrieval yang belum memenuhi kebutuhan pengguna dimana
untuk menampilkan hasil pencarian dokumen hanya dapat ditemukan jika pengguna
memasukkan kata kunci yang harus sama persis atau yang mempunyai kata yang sama
dengan query. Tujuan penelitian ini membuat sistem untuk meningkatkan dan mengenali
variasi kata kunci dalam relevansi pencarian dokumen skripsi untuk memenuhi kebutuhan
pengguna yang akan memudahkan pencarian judul dokumen. Metode yang digunakan
dalam penelitian ini, untuk pengumpulan datanya menggunakan 2045 dokumen judul
skripsi. Untuk metode yang digunakan yaitu Algoritma Stemming Nazief Adriani untuk
memudahkan pengkategorian judul dokumen dengan hasil pencarian yang lebih
bervariasi. Maka untuk tahap penelitian ini akan dibangun Website untuk meningkatkan
relevansi keakuratan peran stemming pada pencarian dokumen dengan tahapan
penelitian meliputi pengumpulan data, analisis kebutuhan, perancangan sistem,
implementasi dan pengujian sistem, pengujian sistem. Sistem ini dapat menampilkan
sesuai kata kunci pencarian dokumen dengan hasil imbuhan yang bervariasi dengan hasil
pengujian Precision sebesar 81,7% yang mempresentasikan kualitas seberapa berguna
ISSN: 2720-992X
Copyright ⓒ KESATRIA: Jurnal Penerapan Sistem Informasi (Komputer & Manajemen)
KESATRIA: Jurnal Penerapan Sistem Informasi (Komputer & Manajemen)
Terakreditasi Nomor 204/E/KPT/2022 | Vol. 5, No. 1, Januari (2024), pp. 269-280
sistem pencarian dokumen ini. dan nilai recall sebesar 100% yang mempresentasikan
kualitas seberapa lengkap hasil relevan yang ditampilkan oleh sistem pencarian. Dengan
adanya penelitian pemrosesan kata pencarian kumpulan dokumen skripsi akan dapat
dikelola secara baik dan meningkatkan kinerja pencarian dokumen yang lebih bervariasi
sesuai dengan kebutuhan mahasiswa Informatika sebagai pengguna sistem.
Kata Kunci: Algoritma Nazief Andriani; Information Retrieval (IR); Stemming
1. Pendahuluan
Algortima Stemming merupakan salah satu Algoritma yang tidak terpisahkan dalam
meningkatkan performa Information Retrieval (IR). istilah dari Pencarian informasi
berupa dokumen atau teks biasa dikenal dengan Information Retrieval (IR) yaitu proses
pemisahan dokumen - dokumen. yang dianggap relevan dari sekumpulan dokumen yang
tersedia. Stemming adalah proses pemotongan (penghilangan) imbuhan (affix), baik
awalan (prefix) maupun akhiran(suffix), dari sebuah term untuk mendapatkan kata dasar
dari kata berimbuhan[5]. Beberapa algoritma stemming untuk Bahasa Indonesia telah
dikembangkan sebelumnya antara lain Algoritma Nazief & Adriani, Algoritma Porter,
Algoritma Algoritma Arifin Setiono[2]. Dari kesimpulan penelitian terdahulu bahwa
Algoritma Nazief Adriani lebih unggul dalam hal kecepatan dan akurasi dibandingkan
dengan dua Algortima lainnya. Algoritma Nazief Adriani dikembangkan berdasarkan
aturan morfologi Bahasa Indonesia yang mengelompokkan imbuhan menjadi awalan,
sisipan,akhiran dan gabungan awalan akhiran. Algoritma ini menggunakan kamus kata
dasar dan mendukung recoding, yakni merangkai kembali kata-kata yang mengalami
proses stemming berlebih. Untuk memeriksa apakah kata dasar yang melalui proses
stemming benar dan ditemukan pada kamus saat proses stemming dilakukan maka
dibutuhkan kamus kata dasar[12].
Pada umumnya indikator yang dipakai untuk menilai relevansi hasil pencarian suatu
dokumen adalah menyesuaikan antara query yang diberikan dan dokumen yang diperoleh.
Tetapi term-term yang terdapat pada dokumen dan pada query sering memiliki banyak
varian morfologik, sehingga pasangan term seperti
“peningkatkan”,”meningkatkan”
dan “tingkat” tidak akan dianggap ekuivalen atau memiliki makna sama oleh sistem tanpa
suatu bentuk Natural Language Processing (NLP)[9]. Sistem Information Retrieval yang
ideal adalah dimana sistem dapat menemukan informasi yang relevan yang sesuai
permintaan pengguna. Tetapi pada kenyataanya masih banyak sistem Information
Retrieval yang belum memenuhi kebutuhan pengguna dimana untuk menampilkan hasil
pencarian dokumen hanya dapat ditemukan jika pengguna memasukkan kata kunci yang
harus sama persis atau yang mempunyai kata yang sama dengan query[11]. Seharusnya
kata kunci dengan banyak variasi morfologi harus dipertimbangkan sebagai term yang
sama. Dokumen yang memiliki kata yang merupakan variasi dari kata pada query tidak
dianggap sebagai dokumen hasil pencarian. Tentu ini menjadi permasalahan karena sulit
untuk mendapatkan hasil dan mengambil informasi yang relevan karena bahasa pastinya
memiliki berbagai varian morfologi kata - kata yang akan mengakibatkan terjadinya
ketidaksesuaian kosakata[ (...truncated)