Rahman, Alianur (2025) SPEECH EMOTION RECOGNITION DALAM BAHASA INDONESIA MENGGUNAKAN REPRESENTASI SUARA PADA MODEL WAV2VEC 2.0 BERBASIS TRANSFORMER. S1 thesis, UNIVERSITAS JAMBI.
![]() |
Text
COVER.pdf Download (129kB) |
![]() |
Text
HALAMAN PENGESAHAN.pdf Download (222kB) |
![]() |
Text
RINGKASAN.pdf Download (85kB) |
![]() |
Text
BAB I.pdf Download (95kB) |
![]() |
Text
BAB V.pdf Download (104kB) |
![]() |
Text
DAFTAR PUSTAKA.pdf Download (136kB) |
![]() |
Text
FULL SKRIPSI.pdf Restricted to Repository staff only Download (5MB) |
Abstract
Pengenalan Emosi dari Ucapan (Speech Emotion Recognition) memiliki potensi revolusioner dalam mengubah cara kita berinteraksi dengan teknologi, memungkinkan komputer untuk mengenali dan merespons emosi dalam ucapan manusia. Namun, keberagaman aksen dan keterbatasan dataset membuat pencapaian hasil yang optimal menjadi sulit. Penelitian ini mengeksplorasi penggunaan fitur audio mendalam untuk membantu mesin dalam membedakan emosi manusia dan menawarkan antarmuka interaksi dalam Bahasa Indonesia. Penelitian ini mengusulkan pendekatan fine-tuning berurutan (sequential fine-tuning) menggunakan Wav2Vec 2.0 dalam dua fase. Pada fase pertama, model dilatih awal menggunakan empat dataset SER berbahasa Inggris yang banyak digunakan: CREMA-D, RAVDESS, SAVEE, dan TESS. Pada fase kedua, model di-fine-tune lebih lanjut menggunakan dataset ucapan alami berbahasa Indonesia yang dikumpulkan dari YouTube, mencakup lima kategori emosi. Hasil penelitian menunjukkan bahwa pendekatan fine-tuning dua fase ini secara signifikan mengungguli model dasar yang hanya dilatih pada data berbahasa Indonesia, dan mampu mencapai akurasi yang mendekati performa manusia (Human-Level Performance). Kemudian, implementasi model disimpan di Hugging Face Space dengan Gradio untuk keperluan inferensi. Temuan ini menegaskan efektivitas metode yang diusulkan dalam meningkatkan kemampuan pengenalan emosi dalam konteks penutur Bahasa Indonesia, sehingga membuka jalan bagi interaksi manusia dan mesin yang lebih efektif. <br /> Speech Emotion Recognition (SER) presents revolutionary potential in transforming how we interact with technology, enabling machines to interpret and respond to human emotions through speech. Despite this promise, challenges such as diverse accents and limited emotion- labeled datasets—especially in underrepresented languages like Bahasa Indonesia—continue to hinder performance. This study proposes a sequential fine-tuning approach using Wav2Vec 2.0 in two phases. In the first phase, the model is pre-trained on four widely used English SER datasets: CREMA-D, RAVDESS, SAVEE, and TESS. In the second phase, the model is further fine-tuned on a natural Indonesian speech dataset collected from YouTube, covering five emotion classes. Results show that this two-phase fine-tuning approach significantly outperforms the baseline model trained solely on limited Indonesian data and achieves accuracy that approaches human-level performance (HLP). The findings highlight the effectiveness of cross-lingual transfer learning in enhancing SER performance in low-resource languages.
Type: | Thesis (S1) |
---|---|
Uncontrolled Keywords: | Affective Computing, Speech Emotion Recognition, Wav2vec 2.0, Speech Representation, Human-Computer Interaction. |
Subjects: | Q Science > Q Science (General) Q Science > QA Mathematics Q Science > QA Mathematics > QA75 Electronic computers. Computer science T Technology > T Technology (General) |
Divisions: | Fakultas Sains dan Teknologi > Sistem Informasi |
Depositing User: | Rahman |
Date Deposited: | 15 Sep 2025 04:21 |
Last Modified: | 15 Sep 2025 04:22 |
URI: | https://repository.unja.ac.id/id/eprint/85683 |
Actions (login required)
![]() |
View Item |