Aplikasi Metode Independent Component Analysis untuk Pemisahan Sinyal Wicara dengan Backsound pada Audio Movie (pdf)

Article PDF cannot be displayed. You can download it here:

https://jurnal.fte.uniba-bpn.ac.id/index.php/JTE/article/download/209/107

Aplikasi Metode Independent Component Analysis untuk Pemisahan Sinyal Wicara dengan Backsound pada Audio Movie

JTE UNIBA, Vol. 7, No. 2, April 2023 334 Aplikasi Metode Independent Component Analysis untuk Pemisahan Sinyal Wicara dengan Backsound pada Audio Movie Titon Dutono1, Dinda Ayu Oktaviasari2, Tri Budi Santoso3 1,2,3 Teknik Elektro,Politeknik Elektronika Negeri Surabaya Jln. Raya ITS, Sukolilo, Surabaya, 60111 Email: 1 , Abstract- Voice analysis in establishing speech and non-speech is carried out by audio signal processing from the sound source. This research focuses on mixed voice data in the form of actor voices (speech signal) and background voices (backsound) from a movie. In this study, sound signal separation has been carried out using the Blind Source Separation (BSS) method to separate mixed signals into a number of forming signals without information about the number of signal sources or the process of mixing these signals. The algorithm used for BSS in this study is the Independent Component Analysis (ICA) algorithm. The actor's voice signal that has been separated from the background sound in a film was tested using MSE and SIR analysis to determine the quality of the separation signal. From the Mean Square Error (MSE) test of the speech signal from the separation results, a test value of 5 seconds was obtained of 0.036, for a duration of 10 seconds the MSE value was 0.0432, and in the data of 15 seconds it produced an MSE value of 0.0558. Signal to Interference Ratio (SIR) analysis of speech signals resulting from separation, for data with a duration of 5 seconds of 14,485, for data measuring 10 seconds obtained SIR of 13,645, and for data with a duration of 15 seconds obtained SIR of 12,533. The output of this sorting process is then used as an input for other necessary signal processing processes. Abstrak- Analisis suara dalam menetapkan speech dan nonspeech dilakukan dengan audio signal processing dari sumber suara. Penelitian ini berfokus pada data suara campuran berupa suara aktor (speech signal) dan suara latar (backsound) dari sebuah film. Pada penelitian ini telah dilakukan pemisahan sinyal suara dengan menggunakan metode Blind Source Separation (BSS) untuk memisahkan sinyal tercampur menjadi sejumlah sinyal pembentuknya tanpa informasi mengenai jumlah sumber sinyal atau proses tercampurnya sinyal-sinyal tersebut. Algoritma yang digunakan untuk BSS dalam penelitian ini adalah algoritma Independent Component Analysis (ICA). Sinyal suara aktor yang telah terpisah dari suara latar pada sebuah film diuji menggunakan analisa MSE dan SIR untuk mengetahui kualitas sinyal hasil pemisahan. Dari pengujian Mean Square Error (MSE) terhadap sinyal speech hasil pemisahan, diperoleh nilai pengujian pada durasi 5 detik sebesar 0.036, untuk durasi 10 detik nilai MSE yakni 0.0432, dan pada data sebesar 15 detik menghasilkan nilai MSE sebesar 0.0558. Analisa Signal to Interference Ratio (SIR) terhadap sinyal wicara hasil pemisahan, untuk data berdurasi 5 detik sebesar 14.485, untuk data berukuran 10 detik diperoleh SIR sebesar 13.645, dan untuk data dengan berdurasi 15 detik diperoleh SIR sebesar 12.533. Luaran dari proses pemilahan ini selanjutnya digunakan sebagai input bagi proses pengolahan sinyal lainnya yang diperlukan. Kata Kunci: Sinyal Wicara, Backsound, BSS, ICA. I. PENDAHULUAN Ucapan merupakan cara paling alami untuk pertukaran informasi. Dengan demikian, merancang mesin cerdas yang dapat mengenali informasi lisan telah menjadi topik penelitian bagi para ilmuwan dan insinyur selama lebih dari lima dekade [1]. Hal ini dapat digunakan secara efisien dalam berbagai keseharian untuk meningkatkan lingkungan kerja, atau untuk memecahkan masalah nyata dalam kehidupan seperti membuat teknologi modern yang dapat diakses dalam kegiatan seharihari bagi orang-orang yang menderita cacat fisik. Proses berbicara dapat terjadi jika manusia mampu mengeluarkan sinyal akustik yang disebut dengan suara. Suara manusia dihasilkan dengan adanya interaksi antara organ-organ pembentuk sinyal. Klasifikasi suara menjadi wicara dan non-wicara memberikan segmentasi akustik awal untuk aplikasi pengolahan ucapan seperti pengenal wicara. Masalah pemisahan sumber sinyal audio dari campuran suara merupakan masalah penting yang muncul di berbagai aplikasi industry. Sebagai contoh, permasalahan tersebut dapat menjadi pembahasn pada sound based fault detection and diagnosis di dalam perangkat industry atau suatu multi-speaker recognition didalam suatu cocktail party problem. Satu hal yang sangat panting untuk kreasi pada generasi baru teknologi hearing aid yang mengisolasi dan menguatkan suatu sinyal wicara tertentu di dalam suasana bising. Pada paper ini, disusulkan suatu pendekatan baru untuk menyelesaikan permasalahan, didasarkan pada ansamble jaringan syaraf tiruan. Penyelesaian masalah dibagi dalam dua tahapan. Pada tahapan pertama, ensemble pada convolutional neural network menentukan keberadaan atau tidaknya sinyal wicara di dalam siatu lingkungan bernois, dengan menggunakan suatu set sampel-sampel sinyal wicara, dipersiapkan secara benar. Pada tahapan kedua, ensemble jaringan syaraf yang lain memfilter sinyal wicara, yang telah ditetapkan pada tahap pertama, dan memotong sisa sinyal lainnya dan diperlakukan sebagai noise. Ansambel jaringan saraf convolutional, yang digunakan pada tahap pertama, terdiri dari jaringan saraf, yang masing-masing mencakup tiga lapisan convolutional dan satu lapisan yang terhubung penuh. Analisis suara dilakukan berdasarkan spektogramnya, yang diperoleh dengan menggunakan FFT. Jaringan saraf ini diimplementasikan dengan Python dengan menggunakan pustaka perangkat lunak TensorFlow dan Keras. Hasil eksperimen komputasi dalam menggunakan jaringan saraf yang dirancang dan dilatih untuk menganalisis dan Titon Dutono dkk: Aplikasi Metode Independent Component Analysis.......... E/P-ISSN: 2549-0842/2528 – 6498 JTE UNIBA, Vol. 7, No. 2, April 2023 memfilter aliran audio, yang berisi beberapa suara pria dan wanita yang dilapiskan dengan musik di latar belakang. [2] Pemisahan sinyal wicara dari music background sangat penting di dalam berbagai aplikasi seperti speaker identification, speaker specific information retrieval, word recognition, dsb., yang mana dalam hal ini background music dipertimbangkan sebagai noise. Walaupun pemisahan sinyal wicara telah dipelajari secara luas dalam beberapa tahun ini, tetapi belum mampu menunjukkan kinerja yang cukup di dalam pemisahan sinyal voice ayau sinyal wicara dari background musical noise. Pada penelitian ini disajikan suatu usulan sebuah system untuk memisahkan sinyal wicara dari background music. Sistem yang disusun terdiri dari dua tahapan, yang memodifikasi nonnegative matrix factorization (NMF) untuk melakukan dekomposisi masukan ke mixture spectrogram. Diskontinuitas thresholding diaplikasikan pada mixture spectrogram untuk memilih komponen-komponen luaran NMF. Diskontinuitas ini dipertimbangkan dalam arah temporal (waktu) dan spectral (frekuensi) [3]. Paper ini menyajikan suatu metode baru untuk mengektraks (...truncated)