Aplikasi Metode Independent Component Analysis untuk Pemisahan Sinyal Wicara dengan Backsound pada Audio Movie
JTE UNIBA, Vol. 7, No. 2, April 2023
334
Aplikasi Metode Independent Component Analysis untuk
Pemisahan Sinyal Wicara dengan Backsound pada
Audio Movie
Titon Dutono1, Dinda Ayu Oktaviasari2, Tri Budi Santoso3
1,2,3
Teknik Elektro,Politeknik Elektronika Negeri Surabaya
Jln. Raya ITS, Sukolilo, Surabaya, 60111
Email: 1 ,
Abstract- Voice analysis in establishing speech and non-speech is
carried out by audio signal processing from the sound source. This
research focuses on mixed voice data in the form of actor voices
(speech signal) and background voices (backsound) from a movie.
In this study, sound signal separation has been carried out using the
Blind Source Separation (BSS) method to separate mixed signals
into a number of forming signals without information about the
number of signal sources or the process of mixing these signals. The
algorithm used for BSS in this study is the Independent Component
Analysis (ICA) algorithm. The actor's voice signal that has been
separated from the background sound in a film was tested using
MSE and SIR analysis to determine the quality of the separation
signal. From the Mean Square Error (MSE) test of the speech signal
from the separation results, a test value of 5 seconds was obtained of
0.036, for a duration of 10 seconds the MSE value was 0.0432, and
in the data of 15 seconds it produced an MSE value of 0.0558. Signal
to Interference Ratio (SIR) analysis of speech signals resulting from
separation, for data with a duration of 5 seconds of 14,485, for data
measuring 10 seconds obtained SIR of 13,645, and for data with a
duration of 15 seconds obtained SIR of 12,533. The output of this
sorting process is then used as an input for other necessary signal
processing processes.
Abstrak- Analisis suara dalam menetapkan speech dan nonspeech dilakukan dengan audio signal processing dari sumber
suara. Penelitian ini berfokus pada data suara campuran berupa
suara aktor (speech signal) dan suara latar (backsound) dari
sebuah film. Pada penelitian ini telah dilakukan pemisahan
sinyal suara dengan menggunakan metode Blind Source
Separation (BSS) untuk memisahkan sinyal tercampur menjadi
sejumlah sinyal pembentuknya tanpa informasi mengenai jumlah
sumber sinyal atau proses tercampurnya sinyal-sinyal tersebut.
Algoritma yang digunakan untuk BSS dalam penelitian ini adalah
algoritma Independent Component Analysis (ICA). Sinyal suara
aktor yang telah terpisah dari suara latar pada sebuah film
diuji menggunakan analisa MSE dan SIR untuk mengetahui
kualitas sinyal hasil pemisahan. Dari pengujian Mean Square
Error (MSE) terhadap sinyal speech hasil pemisahan, diperoleh
nilai pengujian pada durasi 5 detik sebesar 0.036, untuk durasi 10
detik nilai MSE yakni 0.0432, dan pada data sebesar 15 detik
menghasilkan nilai MSE sebesar 0.0558. Analisa Signal to
Interference Ratio (SIR) terhadap sinyal wicara hasil
pemisahan, untuk data berdurasi 5 detik sebesar 14.485, untuk
data berukuran 10 detik diperoleh SIR sebesar 13.645, dan untuk
data dengan berdurasi 15 detik diperoleh SIR sebesar 12.533.
Luaran dari proses pemilahan ini selanjutnya digunakan sebagai
input bagi proses pengolahan sinyal lainnya yang diperlukan.
Kata Kunci: Sinyal Wicara, Backsound, BSS, ICA.
I. PENDAHULUAN
Ucapan merupakan cara paling alami untuk pertukaran
informasi. Dengan demikian, merancang mesin cerdas yang
dapat mengenali informasi lisan telah menjadi topik penelitian
bagi para ilmuwan dan insinyur selama lebih dari lima
dekade [1]. Hal ini dapat digunakan secara efisien dalam
berbagai keseharian untuk meningkatkan lingkungan kerja,
atau untuk memecahkan masalah nyata dalam kehidupan
seperti membuat teknologi modern yang dapat diakses dalam
kegiatan seharihari bagi orang-orang yang menderita cacat
fisik. Proses berbicara dapat terjadi jika manusia mampu
mengeluarkan sinyal akustik yang disebut dengan suara.
Suara manusia dihasilkan dengan adanya interaksi antara
organ-organ pembentuk sinyal. Klasifikasi suara menjadi
wicara dan non-wicara memberikan segmentasi akustik awal
untuk aplikasi pengolahan ucapan seperti pengenal wicara.
Masalah pemisahan sumber sinyal audio dari campuran
suara merupakan masalah penting yang muncul di berbagai
aplikasi industry. Sebagai contoh, permasalahan tersebut dapat
menjadi pembahasn pada sound based fault detection and
diagnosis di dalam perangkat industry atau suatu multi-speaker
recognition didalam suatu cocktail party problem. Satu hal yang
sangat panting untuk kreasi pada generasi baru teknologi
hearing aid yang mengisolasi dan menguatkan suatu sinyal
wicara tertentu di dalam suasana bising. Pada paper ini,
disusulkan suatu pendekatan baru untuk menyelesaikan
permasalahan, didasarkan pada ansamble jaringan syaraf tiruan.
Penyelesaian masalah dibagi dalam dua tahapan. Pada tahapan
pertama, ensemble pada convolutional neural network
menentukan keberadaan atau tidaknya sinyal wicara di dalam
siatu lingkungan bernois, dengan menggunakan suatu set
sampel-sampel sinyal wicara, dipersiapkan secara benar. Pada
tahapan kedua, ensemble jaringan syaraf yang lain memfilter
sinyal wicara, yang telah ditetapkan pada tahap pertama, dan
memotong sisa sinyal lainnya dan diperlakukan sebagai noise.
Ansambel jaringan saraf convolutional, yang digunakan pada
tahap pertama, terdiri dari jaringan saraf, yang masing-masing
mencakup tiga lapisan convolutional dan satu lapisan yang
terhubung penuh. Analisis suara dilakukan berdasarkan
spektogramnya, yang diperoleh dengan menggunakan FFT.
Jaringan saraf ini diimplementasikan dengan Python dengan
menggunakan pustaka perangkat lunak TensorFlow dan Keras.
Hasil eksperimen komputasi dalam menggunakan jaringan
saraf yang dirancang dan dilatih untuk menganalisis dan
Titon Dutono dkk: Aplikasi Metode Independent Component Analysis..........
E/P-ISSN: 2549-0842/2528 – 6498
JTE UNIBA, Vol. 7, No. 2, April 2023
memfilter aliran audio, yang berisi beberapa suara pria dan
wanita yang dilapiskan dengan musik di latar belakang. [2]
Pemisahan sinyal wicara dari music background sangat
penting di dalam berbagai aplikasi seperti speaker
identification, speaker specific information retrieval, word
recognition, dsb., yang mana dalam hal ini background music
dipertimbangkan sebagai noise. Walaupun pemisahan sinyal
wicara telah dipelajari secara luas dalam beberapa tahun ini,
tetapi belum mampu menunjukkan kinerja yang cukup di dalam
pemisahan sinyal voice ayau sinyal wicara dari background
musical noise. Pada penelitian ini disajikan suatu usulan sebuah
system untuk memisahkan sinyal wicara dari background
music. Sistem yang disusun terdiri dari dua tahapan, yang
memodifikasi nonnegative matrix factorization (NMF) untuk
melakukan dekomposisi masukan ke mixture spectrogram.
Diskontinuitas thresholding diaplikasikan pada mixture
spectrogram untuk memilih komponen-komponen luaran NMF.
Diskontinuitas ini dipertimbangkan dalam arah temporal
(waktu) dan spectral (frekuensi) [3].
Paper ini menyajikan suatu metode baru untuk mengektraks (...truncated)