Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/38262
Title: Exploring Efficient Neural Architectures for Text-to-Speech Synthesis
Authors: Reymen, Dean
Advisors: THOELEN, Ronald
AL-RADHI, Mohammed Salah
CSAPO, Tamás Gábor
Issue Date: 2022
Publisher: UHasselt
Abstract: Text-to-Speech is een op de computer gebaseerde technologie die het mogelijk maakt tekst hardop voor te lezen als een menselijke stem. Het doel van deze studie is het verkennen van de deep learning aanpak op basis van neurale netwerken en het onderzoeken van een efficiënte architectuur om de TTS synthese te verbeteren. Eerst zal de huidige architectuur van de spraaksynthese, gebruikt in de Merlin toolkit, onderzocht worden. Verschillende spraaksyntheses, uit de CMU_ARCTIC spraaksynthese databanken, zullen op deze architectuur worden uitgevoerd, en de hand van een objectieve en subjectieve evaluatie zal de prestatie beoordeeld worden. Zo zal onderzoek worden gedaan naar de world en continuous vocoder die al geïntegreerd zijn in de Merlin toolkit en zal er een nieuwe vocoder, de ahocoder, geïntegreerd worden in de toolkit. Daarna zal zowel de configuratie van het neurale netwerk als de verschillende optimalisatie algoritmes aangeboden in Merlin zullen onderzocht worden. Het best gemaakte model bestaat uit een neuraal netwerk met zes hidden layers en het sgd-optimalisatiealgoritme. Volgens de objectieve evaluaties kan worden geconcludeerd dat de WORLD en continuous vocoder vrijwel gelijk presteren waarbij de ahocoder het slechter presteert. Uit de subjectieve evaluaties kan worden geconcludeerd dat de WORLD vocoder het beste resultaat geeft, met een subjectieve waardering van 74. De ahocoder een waardering van 62 heeft, wat betekent dat de spraak verstaanbaar is volgens de luisteraars.
Notes: master in de industriële wetenschappen: elektronica-ICT
Document URI: http://hdl.handle.net/1942/38262
Category: T2
Type: Theses and Dissertations
Appears in Collections:Master theses

Files in This Item:
File Description SizeFormat 
8b791729-db00-4a3e-a619-a37bb45e4d17.pdf4.9 MBAdobe PDFView/Open
1a0c1eca-4487-4e91-b7f2-73dd7d31adaf.pdf176.27 kBAdobe PDFView/Open
Show full item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.