Benchmarking machine learning performance on small datasets

Vilters, Mike

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/47078

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	VANHOENSHOVEN, Frank
dc.contributor.author	Vilters, Mike
dc.date.accessioned	2025-09-08T12:26:46Z	-
dc.date.available	2025-09-08T12:26:46Z	-
dc.date.issued	2025
dc.identifier.uri	http://hdl.handle.net/1942/47078	-
dc.description.abstract	Artificiële Intelligentie (AI) is onmisbaar in de samenleving. Ook KMO’s willen AI inzetten voor meer datagedreven en efficiënte operaties, maar hebben vaak te weinig data om modellen te trainen. Deze masterproef benchmarkt daarom drie state-of-the-art ML-algoritmen in een small-data scenario. De modellen worden getraind op datasets van 100–1000 voorbeelden, waarbij ook zes data-augmentatietechnieken en één dimensiereductiemethode (PCA) worden geëvalueerd. Experimenteel onderzoek met de CDC Diabetes- en Student Dropout-datasets omvat per trainingsgrootte tien steekproeven, waarna optimalisatie en evaluatie plaatsvinden met stratified KFold cross-validation. Performantiemetrieken zijn accuracy, precision, recall en F1-score. Populatiemodellen worden getraind op 70% van de volledige data om de small-data-resultaten te vergelijken met grote datasets. De resultaten tonen dat small-data-modellen vergelijkbare resultaten behalen als grote-data-modellen. Op de diabetesdataset leveren augmentatietechnieken nauwelijks verbetering in F1-score, terwijl PCA de gemiddelde F1-score met 20 procentpunten verhoogt. Op de studentendataset verbeteren SVMSMOTE, BorderlineSMOTE, SMOTE en ADASYN de F1-score van RF- en XGB-modellen licht (ongeveer 1%) ten opzichte van de baseline; bij LogReg is geen enkele augmentatietechniek effectief.
dc.format.mimetype	Application/pdf
dc.language	nl
dc.publisher	UHasselt
dc.title	Benchmarking machine learning performance on small datasets
dc.type	Theses and Dissertations
local.bibliographicCitation.jcat	T2
dc.description.notes	master handelsingenieur in de beleidsinformatica
local.type.specified	Master thesis
item.contributor	Vilters, Mike	-
item.fullcitation	Vilters, Mike (2025) Benchmarking machine learning performance on small datasets.	-
item.accessRights	Open Access	-
item.fulltext	With Fulltext	-
Appears in Collections:	Master theses

Files in This Item:

File	Description	Size	Format
f6424a5d-27af-4db4-8460-2cd9b47f13ce.pdf		8.78 MB	Adobe PDF	View/Open
134687ff-bed2-4659-95ce-5c9bb2c52a4c.pdf		230.83 kB	Adobe PDF	View/Open

Show simple item record

Google Scholar^TM

Check

Files in This Item:

Google ScholarTM

Google Scholar^TM