Exploring Efficient Neural Architectures for Text-to-Speech Synthesis

Reymen, Dean

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/38262

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	THOELEN, Ronald
dc.contributor.advisor	AL-RADHI, Mohammed Salah
dc.contributor.advisor	CSAPO, Tamás Gábor
dc.contributor.author	Reymen, Dean
dc.date.accessioned	2022-09-26T08:18:42Z	-
dc.date.available	2022-09-26T08:18:42Z	-
dc.date.issued	2022
dc.identifier.uri	http://hdl.handle.net/1942/38262	-
dc.description.abstract	Text-to-Speech is een op de computer gebaseerde technologie die het mogelijk maakt tekst hardop voor te lezen als een menselijke stem. Het doel van deze studie is het verkennen van de deep learning aanpak op basis van neurale netwerken en het onderzoeken van een efficiënte architectuur om de TTS synthese te verbeteren. Eerst zal de huidige architectuur van de spraaksynthese, gebruikt in de Merlin toolkit, onderzocht worden. Verschillende spraaksyntheses, uit de CMU_ARCTIC spraaksynthese databanken, zullen op deze architectuur worden uitgevoerd, en de hand van een objectieve en subjectieve evaluatie zal de prestatie beoordeeld worden. Zo zal onderzoek worden gedaan naar de world en continuous vocoder die al geïntegreerd zijn in de Merlin toolkit en zal er een nieuwe vocoder, de ahocoder, geïntegreerd worden in de toolkit. Daarna zal zowel de configuratie van het neurale netwerk als de verschillende optimalisatie algoritmes aangeboden in Merlin zullen onderzocht worden. Het best gemaakte model bestaat uit een neuraal netwerk met zes hidden layers en het sgd-optimalisatiealgoritme. Volgens de objectieve evaluaties kan worden geconcludeerd dat de WORLD en continuous vocoder vrijwel gelijk presteren waarbij de ahocoder het slechter presteert. Uit de subjectieve evaluaties kan worden geconcludeerd dat de WORLD vocoder het beste resultaat geeft, met een subjectieve waardering van 74. De ahocoder een waardering van 62 heeft, wat betekent dat de spraak verstaanbaar is volgens de luisteraars.
dc.format.mimetype	Application/pdf
dc.language	nl
dc.publisher	UHasselt
dc.title	Exploring Efficient Neural Architectures for Text-to-Speech Synthesis
dc.type	Theses and Dissertations
local.bibliographicCitation.jcat	T2
dc.description.notes	master in de industriële wetenschappen: elektronica-ICT
local.type.specified	Master thesis
item.fulltext	With Fulltext	-
item.contributor	Reymen, Dean	-
item.accessRights	Open Access	-
item.fullcitation	Reymen, Dean (2022) Exploring Efficient Neural Architectures for Text-to-Speech Synthesis.	-
Appears in Collections:	Master theses

Files in This Item:

File	Description	Size	Format
8b791729-db00-4a3e-a619-a37bb45e4d17.pdf		4.9 MB	Adobe PDF	View/Open
1a0c1eca-4487-4e91-b7f2-73dd7d31adaf.pdf		176.27 kB	Adobe PDF	View/Open

Show simple item record

Google Scholar^TM

Check

Files in This Item:

Google ScholarTM

Google Scholar^TM