Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/47078
Title: Benchmarking machine learning performance on small datasets
Authors: Vilters, Mike
Advisors: VANHOENSHOVEN, Frank
Issue Date: 2025
Publisher: UHasselt
Abstract: Artificiële Intelligentie (AI) is onmisbaar in de samenleving. Ook KMO’s willen AI inzetten voor meer datagedreven en efficiënte operaties, maar hebben vaak te weinig data om modellen te trainen. Deze masterproef benchmarkt daarom drie state-of-the-art ML-algoritmen in een small-data scenario. De modellen worden getraind op datasets van 100–1000 voorbeelden, waarbij ook zes data-augmentatietechnieken en één dimensiereductiemethode (PCA) worden geëvalueerd. Experimenteel onderzoek met de CDC Diabetes- en Student Dropout-datasets omvat per trainingsgrootte tien steekproeven, waarna optimalisatie en evaluatie plaatsvinden met stratified KFold cross-validation. Performantiemetrieken zijn accuracy, precision, recall en F1-score. Populatiemodellen worden getraind op 70% van de volledige data om de small-data-resultaten te vergelijken met grote datasets. De resultaten tonen dat small-data-modellen vergelijkbare resultaten behalen als grote-data-modellen. Op de diabetesdataset leveren augmentatietechnieken nauwelijks verbetering in F1-score, terwijl PCA de gemiddelde F1-score met 20 procentpunten verhoogt. Op de studentendataset verbeteren SVMSMOTE, BorderlineSMOTE, SMOTE en ADASYN de F1-score van RF- en XGB-modellen licht (ongeveer 1%) ten opzichte van de baseline; bij LogReg is geen enkele augmentatietechniek effectief.
Notes: master handelsingenieur in de beleidsinformatica
Document URI: http://hdl.handle.net/1942/47078
Category: T2
Type: Theses and Dissertations
Appears in Collections:Master theses

Files in This Item:
File Description SizeFormat 
f6424a5d-27af-4db4-8460-2cd9b47f13ce.pdf8.78 MBAdobe PDFView/Open
134687ff-bed2-4659-95ce-5c9bb2c52a4c.pdf230.83 kBAdobe PDFView/Open
Show full item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.