Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/47078
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorVANHOENSHOVEN, Frank
dc.contributor.authorVilters, Mike
dc.date.accessioned2025-09-08T12:26:46Z-
dc.date.available2025-09-08T12:26:46Z-
dc.date.issued2025
dc.identifier.urihttp://hdl.handle.net/1942/47078-
dc.description.abstractArtificiële Intelligentie (AI) is onmisbaar in de samenleving. Ook KMO’s willen AI inzetten voor meer datagedreven en efficiënte operaties, maar hebben vaak te weinig data om modellen te trainen. Deze masterproef benchmarkt daarom drie state-of-the-art ML-algoritmen in een small-data scenario. De modellen worden getraind op datasets van 100–1000 voorbeelden, waarbij ook zes data-augmentatietechnieken en één dimensiereductiemethode (PCA) worden geëvalueerd. Experimenteel onderzoek met de CDC Diabetes- en Student Dropout-datasets omvat per trainingsgrootte tien steekproeven, waarna optimalisatie en evaluatie plaatsvinden met stratified KFold cross-validation. Performantiemetrieken zijn accuracy, precision, recall en F1-score. Populatiemodellen worden getraind op 70% van de volledige data om de small-data-resultaten te vergelijken met grote datasets. De resultaten tonen dat small-data-modellen vergelijkbare resultaten behalen als grote-data-modellen. Op de diabetesdataset leveren augmentatietechnieken nauwelijks verbetering in F1-score, terwijl PCA de gemiddelde F1-score met 20 procentpunten verhoogt. Op de studentendataset verbeteren SVMSMOTE, BorderlineSMOTE, SMOTE en ADASYN de F1-score van RF- en XGB-modellen licht (ongeveer 1%) ten opzichte van de baseline; bij LogReg is geen enkele augmentatietechniek effectief.
dc.format.mimetypeApplication/pdf
dc.languagenl
dc.publisherUHasselt
dc.titleBenchmarking machine learning performance on small datasets
dc.typeTheses and Dissertations
local.bibliographicCitation.jcatT2
dc.description.notesmaster handelsingenieur in de beleidsinformatica
local.type.specifiedMaster thesis
item.contributorVilters, Mike-
item.accessRightsOpen Access-
item.fulltextWith Fulltext-
item.fullcitationVilters, Mike (2025) Benchmarking machine learning performance on small datasets.-
Appears in Collections:Master theses
Files in This Item:
File Description SizeFormat 
f6424a5d-27af-4db4-8460-2cd9b47f13ce.pdf8.78 MBAdobe PDFView/Open
134687ff-bed2-4659-95ce-5c9bb2c52a4c.pdf230.83 kBAdobe PDFView/Open
Show simple item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.