PEMISAHAN SUARA TERCAMPUR BERDASARKAN KARAKTERISTIK BINAURAL

JTT (Jurnal Teknologi Terpadu), Oct 2019

Dalam suatu percakapan di pesta cocktail, seseorang mampu memfokuskan pendengarannya pada seorang lawan bicaranya meskipun bunyi musik latar cukup keras dan disertai percakapan beberapa orang lainnya. Fenomena ini dikenal dengan the cocktail party effect. Dalam sebuah studi awal dijelaskan bahwa binaural hearing memberikan kontribusi penting dalam efek tersebut. Penelitian tentang pemisahan suara yang berdasarkan pada lokalisasi bunyi telah dilakukan sebelumnya. Pada penelitian tersebut, pemisahan suara tercampur hanya berdasarkan binaural cue - interaural time difference. Maka pada penelitian ini, akan dilakukan pemisahan suara dari input binaural dengan 2 sensor mikrofon dari dua sumber suara berdasarkan kedua binaural cue tersebut yaitu interaural time difference (ITD) dan interaural level difference (ILD) menggunakan binary mask. Untuk mengestimasi nilai ITD, digunakan metode cross-correlation yang nilai ITD direpresentasikan sebagai nilai time delay pada pergeseran peak pada unit time-frequency. Binary mask diestimasi berdasarkan pola perubahan nilai interaural time difference dan interaural level difference terhadap nilai relative strength dari sinyal target yang dihitung secara statistik menggunakan probability density estimation. Hasil pemisahan sumber suara tercampur menunjukkan performa yang baik dengan SNR sebesar 3 dB.

Article PDF cannot be displayed. You can download it here:

http://jurnal.poltekba.ac.id/index.php/jtt/article/download/734/509

PEMISAHAN SUARA TERCAMPUR BERDASARKAN KARAKTERISTIK BINAURAL

JURNAL TEKNOLOGI TERPADU VOL. 7 NO. 2 Received : Agustus 2019 OKTOBER 2019 Accepted : September 2019 ISSN 2338-6649 Published : Oktober 2019 Pemisahan Suara Tercampur Berdasarkan Karakteristik Binaural Mifta Nur Farid1 1 Institut Teknologi Kalimantan * Abstract The human auditory system is able to focus its hearing on an interlocutor and ignore other sources of sound. In a preliminary study it was explained that the location of the sound source to both ears (binaural) made an important contribution in the human hearing system. Research on sound separation based on sound localization has been done before. In that study, sound separation was mixed based on only one binaural characteristic, namely interaural time difference (ITD). So in this study, the separation of mixed sounds will be based on two binaural characteristics, namely interaural time difference (ITD) and interaural level difference (ILD). In this study the training process and the separation process were carried out. The training process was carried out 75 times and the separation process was 1440 times with 4 angular variations (30 °, 20 °, 10 ° and 5 °) and 3 variations of SIR (10 dB, 5 dB, and 0 dB). The training process aims to obtain the opportunity density function between ITD and ILD against the relative strength (RS) of the target voice. ITD and ILD values are obtained based on the results of crosscorrelation between signals received by the left ear and right ear. The separation process aims to separate the target sound from the mask based on the density function of the opportunity. Separation is carried out by a binary mask which is estimated based on the pattern of changes in ITD and ILD values to the RS value of the target signal which is calculated statistically based on the opportunity density function. The quality of the separation results is measured using an objective method, namely signal-to-noise ratio (SNR). A high SNR value is 3.15 dB for the female target and 3.44 dB for the male target and 3.15 dB for the female voice target. Keywords: binaural characteristics, binaural hearing, SNR. Abstrak Sistem pendengaran manusia mempu memfokuskan pendengarannya pada seorang lawan bicara dan mengabaikan sumber suara lainnya. Dalam sebuah studi awal dijelaskan bahwa lokasi dari sumber suara terhadap kedua telinga (binaural) memberikan kontribusi penting dalam sistem pendengaran manusia. Penelitian tentang pemisahan suara yang berdasarkan pada lokalisasi bunyi telah dilakukan sebelumnya. Pada penelitian tersebut, pemisahan suara tercampur hanya berdasarkan satu karakteristik binaural, yaitu interaural time difference (ITD). Maka pada penelitian ini, akan dilakukan pemisahan suara tercampur berdasarkan kedua karakteristik binaural, yaitu interaural time difference (ITD) dan interaural level difference (ILD). Pada penelitian ini dilakukan proses pelatihan dan proses pemisahan. Proses pelatihan dilakukan sebanyak 75 kali uji dan proses pemisahan sebanyak 1440 kali uji dengan 4 variasi sudut (30°, 20°, 10°, dan 5°) dan 3 variasi SIR (10 dB, 5 dB, dan 0 dB). Proses pelatihan bertujuan untuk memperoleh fungsi kepadatan peluang antara ITD dan ILD terhadap kekuatan relatif (RS) dari suara target. Nilai ITD dan ILD diperoleh berdasarkan hasil korelasi silang antara sinyal yang diterima oleh telinga kiri dan telinga kanan. Proses pemisahan bertujuan untuk memisahkan suara target dari masker berdasarkan fungsi kepadatan peluangnya. Pemisahan dilakukan oleh binary mask yang diestimasi berdasarkan pola perubahan nilai ITD dan ILD terhadap nilai RS dari sinyal target yang dihitung secara statistik berdasarkan fungsi kepadatan peluangnya. Kualitas hasil pemisahan diukur dengan menggunakan metode objektif yaitu signal-to-noise ratio (SNR), yaitu 3.15 dB untuk target perempuan dan 3.44 dB untuk target laki-laki dan 3,15 dB untuk target suara perempuan. Kata kunci: karakteristik binaural, binaural hearing, SNR. 119 JURNAL TEKNOLOGI TERPADU VOL. 7 NO. 2 OKTOBER 2019 1. Pendahuluan Sistem pendengaran manusia mampu memisahkan beberapa sumber bunyi sekaligus secara bersamaan dan memfokuskan pendengaran pada satu sumber suara meskipun bunyi latar cukup keras dan disertai percakapan beberapa orang lainnya. Fenomena ini dikenal dengan the cocktail party effect[1]. Istilah "cocktail party processing" diciptakan dalam sebuah studi awal terhadap the cocktail party effect, dalam studi ini menggambarkan bahwa sistem pendengaran binaural memberikan kontribusi penting dalam analisa pendengaran yang memungkinkan kita untuk memisahkan dan melokalisir sumber suara[2]. Sistem pendengaran binaural adalah sistem pendengaran yang menggunakan kedua telinga. Dalam sistem tersebut, jika posisi suatu sumber suara tidak berada dalam bidang simetri vertikal atau bidang median maka salah satu telinga akan ISSN 2338-6649 dibayangi oleh kepala sedangkan telinga lain terbuka penuh terhadap sumber bunyi. Akibatnya terjadi perbedaan tingkat tekanan bunyi yang terdengar pada kedua telinga yang disebut Interaural Level Difference (ILD) serta perbedaan waktu tempuh sumber suara terhadap kedua telinga tersebut yang disebut Interaural Time Difference (ITD)[3]. Perubahan nilai ITD dan ILD memiliki pengaruh secara statistik terhadap perubahan kekuatan relatif suara (RS). Sehingga Binary Mask (BM) dapat diestimasi dari nilai RS yang didapat berdasarkan perubahan nilai nilai ITD dan ILD[4]. Telah dilakukan pemisahan suara berdasarkan sistem pendengaran binaural[5], namun karakteristik binaural yang digunakan adalah ITD. Maka pada penelitian ini, akan dilakukan pemisahan suara tercampur dengan dua sensor mikrofon dari dua sumber suara berdasarkan kedua karakteristik binaural ITD dan IL Gambar 1. Metoda Penelitian 2. Metoda Penelitian Penelitian ini dilakukan dengan 2 proses utama yaitu proses pelatihan dan proses pemisahan. Seperti yang ditunjukkan pada Gambar 1, proses pelatihan terdiri dari 5 tahap yaitu pendengaran binaural, auditory periphery, perhitungan nilai ITD, ILD, dan RS kemudian dilakukan perhitungan fungsi kepadatan peluang dari ketiga nilai tersebut. Sedangkan proses pemisahan adalah pendengaran binaural, auditory periphery, perhitungan nilai ITD dan ILD, perhitungan estimasi sudut sumber suara, estimasi BM, dan yang terakhir adalah evaluasi objektif terhadap hasil pemisahannya. 2.1. Proses Pelatihan Hasil pendengaran binaural diperoleh dari hasil konvolusi antara suara mono terhadap data head-related transfer function 120 JURNAL TEKNOLOGI TERPADU VOL. 7 NO. 2 OKTOBER 2019 (HRTF) telinga kiri dan kanan. Suara mono terdiri dari suara target dan masker. Suara target adalah suara yang diinginkan sedangkan suara masker adalah suara pengganggu. Data HRTF yang digunakan adalah HRTF CIPIC Database. HRTF CIPIC Database adalah data pengukuran head-related impulse response (HRIR) pada telinga kiri dan kanan dari KEMAR manikin dalam ruang kedap (unechoic room). Titik sumber suara berada pada jarak 1,4 m terhadap titik tengah kepal (...truncated)


This is a preview of a remote PDF: http://jurnal.poltekba.ac.id/index.php/jtt/article/download/734/509
Article home page: http://jurnal.poltekba.ac.id/index.php/jtt/article/view/734/509

Farid Mifta Nur. PEMISAHAN SUARA TERCAMPUR BERDASARKAN KARAKTERISTIK BINAURAL, JTT (Jurnal Teknologi Terpadu), 2019, pp. 119-124,