Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/38262
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorTHOELEN, Ronald
dc.contributor.advisorAL-RADHI, Mohammed Salah
dc.contributor.advisorCSAPO, Tamás Gábor
dc.contributor.authorReymen, Dean
dc.date.accessioned2022-09-26T08:18:42Z-
dc.date.available2022-09-26T08:18:42Z-
dc.date.issued2022
dc.identifier.urihttp://hdl.handle.net/1942/38262-
dc.description.abstractText-to-Speech is een op de computer gebaseerde technologie die het mogelijk maakt tekst hardop voor te lezen als een menselijke stem. Het doel van deze studie is het verkennen van de deep learning aanpak op basis van neurale netwerken en het onderzoeken van een efficiënte architectuur om de TTS synthese te verbeteren. Eerst zal de huidige architectuur van de spraaksynthese, gebruikt in de Merlin toolkit, onderzocht worden. Verschillende spraaksyntheses, uit de CMU_ARCTIC spraaksynthese databanken, zullen op deze architectuur worden uitgevoerd, en de hand van een objectieve en subjectieve evaluatie zal de prestatie beoordeeld worden. Zo zal onderzoek worden gedaan naar de world en continuous vocoder die al geïntegreerd zijn in de Merlin toolkit en zal er een nieuwe vocoder, de ahocoder, geïntegreerd worden in de toolkit. Daarna zal zowel de configuratie van het neurale netwerk als de verschillende optimalisatie algoritmes aangeboden in Merlin zullen onderzocht worden. Het best gemaakte model bestaat uit een neuraal netwerk met zes hidden layers en het sgd-optimalisatiealgoritme. Volgens de objectieve evaluaties kan worden geconcludeerd dat de WORLD en continuous vocoder vrijwel gelijk presteren waarbij de ahocoder het slechter presteert. Uit de subjectieve evaluaties kan worden geconcludeerd dat de WORLD vocoder het beste resultaat geeft, met een subjectieve waardering van 74. De ahocoder een waardering van 62 heeft, wat betekent dat de spraak verstaanbaar is volgens de luisteraars.
dc.format.mimetypeApplication/pdf
dc.languagenl
dc.publisherUHasselt
dc.titleExploring Efficient Neural Architectures for Text-to-Speech Synthesis
dc.typeTheses and Dissertations
local.bibliographicCitation.jcatT2
dc.description.notesmaster in de industriële wetenschappen: elektronica-ICT
local.type.specifiedMaster thesis
item.fulltextWith Fulltext-
item.contributorReymen, Dean-
item.accessRightsOpen Access-
item.fullcitationReymen, Dean (2022) Exploring Efficient Neural Architectures for Text-to-Speech Synthesis.-
Appears in Collections:Master theses
Files in This Item:
File Description SizeFormat 
8b791729-db00-4a3e-a619-a37bb45e4d17.pdf4.9 MBAdobe PDFView/Open
1a0c1eca-4487-4e91-b7f2-73dd7d31adaf.pdf176.27 kBAdobe PDFView/Open
Show simple item record

Page view(s)

110
checked on Sep 10, 2023

Download(s)

94
checked on Sep 10, 2023

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.