PENGENALAN INDENTITAS PENUTUR MENGGUNAKAN ALGORITMA DISCRETE WAVELET TRANSFORM (DWT) DAN HIDDEN MARKOV MODELS (HMM)
JTE UNIBA, Vol. 05, No 1. September 2018
7
Pengenalan Indentitas Penutur Menggunakan Algoritma Discrete Wavelet
Transform (DWT) dan Hidden Markov Modesls (HMM)
A.Asni B1. Diah Patriana Setianingsih2
1.2
Teknik Elektro,Fakultas Teknologi Industri Universitas Balikpapan
Jln. Pupuk Raya Gn. Bahagia Balikpapan 76114 INDONESIA
ABSTRACT
This study aims to build a speaker recognition system using
the Discrete Wavelet Transform (DWT) algorithm and Hidden
Markov Models (HMM). Speech signals from each speaker
were recorded using Indonesian words "kiri" and recorded 10
times. Five (5) data from the first record were recorded under
normal conditions and the next 5 data were sourced from the
nasal sounds produced by a pressed nose. The total data from
6 different speakers becomes 60 data
The results of the application of the Discrete Wavelet
Transform (DWT) algorithm and the Hidden Markov Models
(HMM) algorithm and the number of states tested 4 to 7 states,
in this study have not provided optimal results. The
identification of error rates is quite high, which is equal to
20% for the number of states 4 and 5, and reaches 30% for the
number of states 6 and 7. This shows that the feature vector
values generated from the DWT algorithm and then modeled
and tested using the HMM algorithm has not optimal results
yet. Further evaluation is needed to examine the opportunities
of other algorithms that can be applied in DWT and to achieve
high recognition accuracy
Keyword — Speaker Recognition, Hidden Markov Model,
Discrete Wavelet Transform.
metode Dynamic Time Warping (DTW). Hasil yang
dicapai dalam pengenalan isyarat tutur vocal Bahasa
Indonesia mencapai hingga 100%[2].
Penelitian tentang pengenalan penutur dan
tutur telah dilakukan oleh para peneliti[3], pengenalan
pola Hidden Markov Models (HMM) memberikan
tingkat akurasi yang lebih baik dibandingkan metode
Dynamic Time Warping DTW yang diterapkan untuk
pengenalan tutur dengan menggunakan data vector ciri
dari hasil ekstraki ciri yang menggunakan metode
Mel-Frekuensi Cepstral coefficients (MFCC).
Penelitian yang lain menggunakan metode
Mel Frequency Cepstrum Coefficients (MFCC) untuk
ekstraksi fitur dan metode Hidden Markov Model
(HMM) untuk mengenali penutur. Penelitian tersebut
membangun aplikasi pengenal penutur dan
menerapkan metode Hidden Markov Model pada
aplikasi pengenal penutur. Hasil penelitian
menujukkan bahwa pengujian secara real time
menggunakan mikrofon tingkat akurasinya 30%.
Sedangkan pengujian dari file rekaman 100%[4].
I.
PENDAHULUAN
Pengenalan penutur (speaker recognition)
adalah salah satu bidang pengenalan pola yang
berkaitan dengan pemrosesan sinyal suara. Berbeda
dengan speech recognition yang mengenali kata atau
kalimat yang diucapkan, speaker recognition
mengenali siapa penutur yang mengucapkan kata
tersebut. Pada dasarnya setiap manusia memiliki
sesuatu yang yang unik yang hanya dimiliki oleh
dirinya sendiri.[1]
DWT diaplikasikan ke dalam data distrik
untuk menghasilkan keluaran diskrit yang selanjutnya
mentransformasikan isyarat dari domain waktu
(domain asli dari isyarat tutur) ke domain wavelet.
Proses dekomposisi dan rekonstruksi menggunakan
Fast DWT merupakan proses konvolusi antara isyarat
dan koefisien filter, hasil konvolusi kemudian diseleksi
menggunakan faktor 2 untuk proses down sampling.
Metode DWT dengan menghitung energy tiap
sub-band hingga level-3 menggunakan Wavelet
Daubechies2 hingga diperoleh 8 vektor ciri.
Pengenalan pola untuk verifikasi menggunakan
Ekstraksi ciri menggunakan metode DWT,
menerapkan metode full binary DWT
level 3
persamaan-persamaan yang digunakan dalam proses
ekstraksi ciri sebagaimana telah dilakukan dalam
penelitian sebelumnya[1]. Namun dalam penerapan
A.Asni B : Pengenalan Identitas Penutur …
II.
DISCRETE WAVELET TRANSFORM (DWT)
ISSN 2528 - 6498
8
JTE UNIBA, Vol. 05, No 1. September 2018
metode pengenalan HMM sebagai pengenalan pola
identitas penutur, menggunakan vector ciri dari nilai
energi yang dihitung dari masing-masing sub-band
tanpa perlu dinormaslisasi. Tiap isyarat tutur dipecah
menjadi 2, dengan asumsi untuk memisahkan suku
kata “ki’ dan “ri” pada kata “kiri” yang direkam
sehingga diperoleh 16 ciri dari masing-masing data
rekaman isyarat tutur .
Proses pembentukan vektor ciri dengan
menghitung energi dari hasil rekonstruksi nilai-nilai
koefisien pada masing-masing frekuensi sub-band.
Frekuensi sub-band pada dekomposisi full binary
memiliki lebar yang sama pada masing-masing level
dekomposisi ke-j, seperti pada pada Gambar 1[5].
III.
HIDDEN MARKOV MODELS (HMM)
Hidden Markov Model (HMM) merupakan
pemodelan probabilitas suatu system dengan mencari
parameter-parameter Markov yang tidak diketahui
untuk memperoleh analisis system tersebut. Kita harus
menentukan parameter-parameter tersembunyi (state)
dari parameter-parameter yang dapat diamati.
Parameter-parameter yang ditentukan kemudian dapat
digunakan untuk analisis yang lebih jauh, misalnya
untuk aplikasi pattern recognition[6][7].
Suatu HMM dengan observasi system diskret terdiri
atas elemen-elemen yang dikarakteristikkan sebagai
berikut[6]:
1.
Gambar 1 Alokasi Frekuensi pada Full Binary Paket
Wavelet Level-3[5].
2.
Total Energi yang ada pada semua frekuensi
sub-band dihitung dengam persamaan (1)
Ei =
N
X
k =1
i
(k )
(1)
2
Ei
, distribusi probabilitas transisi state,
(3)
4.
Isyarat tutur yang telah direkonstruksi
merupakan nilai yang mewakili isyarat asli yang masih
berada dalam domain waktu, dan untuk mendapatkan
vektor ciri, diperlukan proses lebih lanjut yaitu
menghitung energi total hasil rekonstruksi isyarat pada
masing-masing sub-band frekuensi menggunakan
persamaan (2).
I
A=
dengan:
Ei
= energi pada frekuensi sub-band
Xi(k) = nilai pada runtun ke-k pada
freuensi sub-band
Etot =
3.
N, banyaknya state dalam model. Masing-masing
state diberi indeks {1,2, ... , N}. Pada waktuwaktu diskret yang berjarak teratur, model
tersebut mengalami perubahan state menurut
suatu himpunan probabilitas yang sesuai dengan
state tersebut. Waktu perubahan state dinyatakan
sebagai t dan state pada waktu t sebagai .
M, banyaknya simbol observasi berbeda pada
setiap state dan berhubungan dengan keluaran
fisik dari sistem yang akan dimodelkan. Simbolsimbol observasi tersebut dinyatakan sebagai
distribusi probabilitas observasi
dengan:
(4)
5.
, distribusi state awal, dengan :
(5)
2
(2)
i =1
Etot = energi total frekuensi sub-band pada
dekomposisi level ke-j
I
= jumlah freuensi sub-band pada
dekomposisi level ke-j
ISSN 2528 – 6498
Pada penelitian ini, untuk setiap jenis ekstraksi
ciri dengan jumlah elemen yang berbeda akan
dibangun sistem pengenalan pembicaranya dengan
A.Asni B : Pengenalan Identitas Penutur …
JTE UNIBA, Vol. 05, No 1. September 2018
jumlah pembicara yang akan dikenali 6 orang.
Gambar 4.3 memperlihatkan blok diagram sistem
pengenalan pembicara yang dibangun. Untuk sistem
pengenalan pembicara HMM dengan jumlah
pembicara yang akan dikenali 2 orang, maka jumlah
mode (...truncated)