Evaluating the efficiency of large language models in data integration tasks

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/44172

Title:	Evaluating the efficiency of large language models in data integration tasks
Authors:	Singh, Kiran
Advisors:	NEVEN, Frank
Issue Date:	2024
Publisher:	tUL
Abstract:	Dit proefschrift evalueert de effectiviteit en bruikbaarheid van large language models (LLMs) bij data-integratietaken, met een focus op data-extractie. LLMs, gebaseerd op neurale netwerken, worden gebruikt om data uit verschillende bronnen te extraheren en om te zetten voor integratieworkflows. Het onderzoek stelt vier vragen: kunnen LLMs consistent tekst extraheren uit grote documenten, hoe nauwkeurig zijn ze bij het genereren van key-value pairs, hoe presteren open-source versus propriëtaire modellen, en kan menselijke tussenkomst de bruikbaarheid verbeteren. Twee casestudies werden uitgevoerd om de prestaties van verschillende LLMs, zoals OpenAI’s GPT-3 en GPT-4 en open-source modellen van Meta AI en Mistral AI, te testen. Een ontwikkelde LLM-pipeline faciliteert deze experimenten door data-extractie, validatie, inferentie, post-validatie en analyse. Een Human-In-The-Loop (HITL) interface werd gecreëerd om gebruikers te helpen de output van de LLM beter te begrijpen en te evalueren. De resultaten toonden aan dat propriëtaire modellen over het algemeen nauwkeuriger waren dan open-source modellen, met GPT-4 als het beste model.
Notes:	master in de informatica
Document URI:	http://hdl.handle.net/1942/44172
Category:	T2
Type:	Theses and Dissertations
Appears in Collections:	Master theses

File	Description	Size	Format
9e7c5de7-0860-4a3f-9fd2-5fbcf0db4a76.pdf		4.35 MB	Adobe PDF	View/Open

Check