Please use this identifier to cite or link to this item:
http://hdl.handle.net/1942/47078Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor | VANHOENSHOVEN, Frank | |
| dc.contributor.author | Vilters, Mike | |
| dc.date.accessioned | 2025-09-08T12:26:46Z | - |
| dc.date.available | 2025-09-08T12:26:46Z | - |
| dc.date.issued | 2025 | |
| dc.identifier.uri | http://hdl.handle.net/1942/47078 | - |
| dc.description.abstract | Artificiële Intelligentie (AI) is onmisbaar in de samenleving. Ook KMO’s willen AI inzetten voor meer datagedreven en efficiënte operaties, maar hebben vaak te weinig data om modellen te trainen. Deze masterproef benchmarkt daarom drie state-of-the-art ML-algoritmen in een small-data scenario. De modellen worden getraind op datasets van 100–1000 voorbeelden, waarbij ook zes data-augmentatietechnieken en één dimensiereductiemethode (PCA) worden geëvalueerd. Experimenteel onderzoek met de CDC Diabetes- en Student Dropout-datasets omvat per trainingsgrootte tien steekproeven, waarna optimalisatie en evaluatie plaatsvinden met stratified KFold cross-validation. Performantiemetrieken zijn accuracy, precision, recall en F1-score. Populatiemodellen worden getraind op 70% van de volledige data om de small-data-resultaten te vergelijken met grote datasets. De resultaten tonen dat small-data-modellen vergelijkbare resultaten behalen als grote-data-modellen. Op de diabetesdataset leveren augmentatietechnieken nauwelijks verbetering in F1-score, terwijl PCA de gemiddelde F1-score met 20 procentpunten verhoogt. Op de studentendataset verbeteren SVMSMOTE, BorderlineSMOTE, SMOTE en ADASYN de F1-score van RF- en XGB-modellen licht (ongeveer 1%) ten opzichte van de baseline; bij LogReg is geen enkele augmentatietechniek effectief. | |
| dc.format.mimetype | Application/pdf | |
| dc.language | nl | |
| dc.publisher | UHasselt | |
| dc.title | Benchmarking machine learning performance on small datasets | |
| dc.type | Theses and Dissertations | |
| local.bibliographicCitation.jcat | T2 | |
| dc.description.notes | master handelsingenieur in de beleidsinformatica | |
| local.type.specified | Master thesis | |
| item.contributor | Vilters, Mike | - |
| item.accessRights | Open Access | - |
| item.fulltext | With Fulltext | - |
| item.fullcitation | Vilters, Mike (2025) Benchmarking machine learning performance on small datasets. | - |
| Appears in Collections: | Master theses | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| f6424a5d-27af-4db4-8460-2cd9b47f13ce.pdf | 8.78 MB | Adobe PDF | View/Open | |
| 134687ff-bed2-4659-95ce-5c9bb2c52a4c.pdf | 230.83 kB | Adobe PDF | View/Open |
Google ScholarTM
Check
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.