Laporan Penelitian Model Pengucapan bagi Asisten Virtual Menggunakan Teknik Sintesis dan Konversi Suara

Prahara, Adhi (2021) Laporan Penelitian Model Pengucapan bagi Asisten Virtual Menggunakan Teknik Sintesis dan Konversi Suara. LPPM UAD. (Unpublished)

[thumbnail of Laporan Akhir Adhi Prahara PDP 2021 dan Lampiran.pdf] Text
Laporan Akhir Adhi Prahara PDP 2021 dan Lampiran.pdf

Download (1MB)

Abstract

Asisten virtual merupakan perangkat lunak dengan kecerdasan buatan yang dapat membantu manusia melakukan tugas tertentu. Beberapa contoh dari asisten virtual yang populer yaitu Siri dari Apple, Alexa dari Amazon, Cortana dari Microsoft, dan Google Assistant dari Google [1]. Asisten virtual membutuhkan sensor dan model untuk pengucapan agar dapat berinteraksi dengan manusia. Model pengucapan yang akan dikembangkan dalam penelitian ini yaitu model sintesis suara dan model konversi suara. Model sintesis suara saat ini sudah banyak dikembangkan seperti Wavenet dan Tacotron dari Google, Deep Voice dari Baidu dan lainnya. Dalam model sintesis suara dan konversi suara, permasalahan utamanya yaitu bagaimana menghasilkan pengucapan yang natural [2], [3]. Selain itu, metode sintesis suara hanya dapat mengeluarkan suara pengucapan dari pembicara yang ada dalam dataset pelatihan. Hal ini membuat model tersebut tidak variatif apalagi pengguna mempunyai preferensinya masing-masing. Oleh karena itu, dalam penelitian ini juga dikembangkan model konversi suara untuk mengubah suara pembicara tersebut ke suara pembicara yang lainnya. Model konversi suara tidak hanya melakukan transformasi suara tetapi juga harus bisa menirukan suara target yang sesuai pengucapannya tidak hanya dari segi nada tetapi juga aksennya [4].
Penelitian ini bertujuan untuk mengembangkan model pengucapan bahasa Indonesia bagi asisten virtual yang natural mendekati pengucapan manusia dan dapat menerima masukan berupa teks yang disintesis menjadi suara kemudian mengkonversi suara tersebut ke beberapa tipe suara pembicara yang lainnya.
Model sintesis suara menggunakan baseline dari model Tacotron [5]. Tacotron merupakan model sintesis suara end-to-end yang dilatih menggunakan input dataset pasangan teks dan pengucapan. Dalam penelitian ini, model akan dilatih menggunakan dataset pengucapan bahasa Indonesia. Model Tacotron dibangun berdasarkan model sequence-to-sequence (seq2seq) yang menggunakan attention sehingga tidak memerlukan penyelarasan tingkat fonem atau fitur linguistik seperti pada model WaveNet. Model ini menggunakan rekonstruksi Griffin-Lim untuk mensitesis pengucapannya. Hasil keluaran modelnya berupa spektrogram yang dapat digunakan untuk membuat sinyal suara dari pembicara tersebut berdasarkan masukan teks yang diberikan. Model konversi suara menggunakan baseline MelGAN (Mel-Generative Adversarial Network) yang dilatih menggunakan inputan dari model Tacotron untuk dikonversi ke suara pembicara dari dataset yang diberikan [6].
Luaran yang dicapai pada penelitian ini yaitu satu artikel ilmiah untuk jurnal nasional terindeks SINTA sebagai luaran wajib. TKT penelitian ini pada skala 3. Penelitian berlangsung selama satu tahun dan ditargetkan mendapatkan hasil model sintesis suara dan konversi suara Bahasa Indonesia.

Item Type: Other
Subjects: T Technology > T Technology (General)
Divisi / Prodi: Faculty of Industrial Technology (Fakultas Teknologi Industri) > S1-Informatics Engineering (S1-Teknik Informatika)
Depositing User: Adhi Prahara
Date Deposited: 21 Feb 2022 02:47
Last Modified: 21 Feb 2022 02:47
URI: http://eprints.uad.ac.id/id/eprint/32785

Actions (login required)

View Item View Item