PEMISAHAN SUARA TERCAMPUR BERDASARKAN KARAKTERISTIK BINAURAL
JURNAL TEKNOLOGI TERPADU VOL. 7 NO. 2
Received : Agustus 2019
OKTOBER 2019
Accepted : September 2019
ISSN 2338-6649
Published : Oktober 2019
Pemisahan Suara Tercampur Berdasarkan Karakteristik Binaural
Mifta Nur Farid1
1
Institut Teknologi Kalimantan
*
Abstract
The human auditory system is able to focus its hearing on an interlocutor and ignore other sources of
sound. In a preliminary study it was explained that the location of the sound source to both ears (binaural) made an
important contribution in the human hearing system. Research on sound separation based on sound localization has
been done before. In that study, sound separation was mixed based on only one binaural characteristic, namely
interaural time difference (ITD). So in this study, the separation of mixed sounds will be based on two binaural
characteristics, namely interaural time difference (ITD) and interaural level difference (ILD). In this study the
training process and the separation process were carried out. The training process was carried out 75 times and the
separation process was 1440 times with 4 angular variations (30 °, 20 °, 10 ° and 5 °) and 3 variations of SIR (10
dB, 5 dB, and 0 dB). The training process aims to obtain the opportunity density function between ITD and ILD
against the relative strength (RS) of the target voice. ITD and ILD values are obtained based on the results of crosscorrelation between signals received by the left ear and right ear. The separation process aims to separate the
target sound from the mask based on the density function of the opportunity. Separation is carried out by a binary
mask which is estimated based on the pattern of changes in ITD and ILD values to the RS value of the target signal
which is calculated statistically based on the opportunity density function. The quality of the separation results is
measured using an objective method, namely signal-to-noise ratio (SNR). A high SNR value is 3.15 dB for the female
target and 3.44 dB for the male target and 3.15 dB for the female voice target.
Keywords: binaural characteristics, binaural hearing, SNR.
Abstrak
Sistem pendengaran manusia mempu memfokuskan pendengarannya pada seorang lawan bicara dan
mengabaikan sumber suara lainnya. Dalam sebuah studi awal dijelaskan bahwa lokasi dari sumber suara terhadap
kedua telinga (binaural) memberikan kontribusi penting dalam sistem pendengaran manusia. Penelitian tentang
pemisahan suara yang berdasarkan pada lokalisasi bunyi telah dilakukan sebelumnya. Pada penelitian tersebut,
pemisahan suara tercampur hanya berdasarkan satu karakteristik binaural, yaitu interaural time difference (ITD).
Maka pada penelitian ini, akan dilakukan pemisahan suara tercampur berdasarkan kedua karakteristik binaural, yaitu
interaural time difference (ITD) dan interaural level difference (ILD). Pada penelitian ini dilakukan proses pelatihan
dan proses pemisahan. Proses pelatihan dilakukan sebanyak 75 kali uji dan proses pemisahan sebanyak 1440 kali uji
dengan 4 variasi sudut (30°, 20°, 10°, dan 5°) dan 3 variasi SIR (10 dB, 5 dB, dan 0 dB). Proses pelatihan bertujuan
untuk memperoleh fungsi kepadatan peluang antara ITD dan ILD terhadap kekuatan relatif (RS) dari suara target.
Nilai ITD dan ILD diperoleh berdasarkan hasil korelasi silang antara sinyal yang diterima oleh telinga kiri dan
telinga kanan. Proses pemisahan bertujuan untuk memisahkan suara target dari masker berdasarkan fungsi
kepadatan peluangnya. Pemisahan dilakukan oleh binary mask yang diestimasi berdasarkan pola perubahan nilai
ITD dan ILD terhadap nilai RS dari sinyal target yang dihitung secara statistik berdasarkan fungsi kepadatan
peluangnya. Kualitas hasil pemisahan diukur dengan menggunakan metode objektif yaitu signal-to-noise ratio
(SNR), yaitu 3.15 dB untuk target perempuan dan 3.44 dB untuk target laki-laki dan 3,15 dB untuk target suara
perempuan.
Kata kunci: karakteristik binaural, binaural hearing, SNR.
119
JURNAL TEKNOLOGI TERPADU VOL. 7 NO. 2
OKTOBER 2019
1.
Pendahuluan
Sistem pendengaran manusia mampu
memisahkan beberapa sumber bunyi
sekaligus
secara
bersamaan
dan
memfokuskan pendengaran pada satu
sumber suara meskipun bunyi latar cukup
keras dan disertai percakapan beberapa
orang lainnya. Fenomena ini dikenal dengan
the cocktail party effect[1]. Istilah "cocktail
party processing" diciptakan dalam sebuah
studi awal terhadap the cocktail party effect,
dalam studi ini menggambarkan bahwa
sistem pendengaran binaural memberikan
kontribusi
penting
dalam
analisa
pendengaran yang memungkinkan kita
untuk memisahkan dan melokalisir sumber
suara[2].
Sistem pendengaran binaural adalah
sistem pendengaran yang menggunakan
kedua telinga. Dalam sistem tersebut, jika
posisi suatu sumber suara tidak berada
dalam bidang simetri vertikal atau bidang
median maka salah satu telinga akan
ISSN 2338-6649
dibayangi oleh kepala sedangkan telinga lain
terbuka penuh terhadap sumber bunyi.
Akibatnya terjadi perbedaan tingkat tekanan
bunyi yang terdengar pada kedua telinga
yang disebut Interaural Level Difference
(ILD) serta perbedaan waktu tempuh sumber
suara terhadap kedua telinga tersebut yang
disebut Interaural Time Difference (ITD)[3].
Perubahan nilai ITD dan ILD memiliki
pengaruh secara statistik terhadap perubahan
kekuatan relatif suara (RS). Sehingga Binary
Mask (BM) dapat diestimasi dari nilai RS
yang didapat berdasarkan perubahan nilai
nilai ITD dan ILD[4].
Telah dilakukan pemisahan suara
berdasarkan sistem pendengaran binaural[5],
namun
karakteristik
binaural
yang
digunakan adalah ITD. Maka pada
penelitian ini, akan dilakukan pemisahan
suara tercampur dengan dua sensor
mikrofon dari dua sumber suara berdasarkan
kedua karakteristik binaural ITD dan IL
Gambar 1. Metoda Penelitian
2.
Metoda Penelitian
Penelitian ini dilakukan dengan 2
proses utama yaitu proses pelatihan dan
proses pemisahan. Seperti yang ditunjukkan
pada Gambar 1, proses pelatihan terdiri dari 5
tahap yaitu pendengaran binaural, auditory
periphery, perhitungan nilai ITD, ILD, dan
RS kemudian dilakukan perhitungan fungsi
kepadatan peluang dari ketiga nilai tersebut.
Sedangkan proses pemisahan adalah
pendengaran binaural, auditory periphery,
perhitungan nilai ITD dan ILD, perhitungan
estimasi sudut sumber suara, estimasi BM,
dan yang terakhir adalah evaluasi objektif
terhadap hasil pemisahannya.
2.1. Proses Pelatihan
Hasil pendengaran binaural diperoleh
dari hasil konvolusi antara suara mono
terhadap data head-related transfer function
120
JURNAL TEKNOLOGI TERPADU VOL. 7 NO. 2
OKTOBER 2019
(HRTF) telinga kiri dan kanan. Suara mono
terdiri dari suara target dan masker. Suara
target adalah suara yang diinginkan
sedangkan suara masker adalah suara
pengganggu. Data HRTF yang digunakan
adalah HRTF CIPIC Database.
HRTF CIPIC Database adalah data
pengukuran head-related impulse response
(HRIR) pada telinga kiri dan kanan dari
KEMAR manikin dalam ruang kedap
(unechoic room). Titik sumber suara berada
pada jarak 1,4 m terhadap titik tengah kepal (...truncated)