Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/44173
Title: Enhancing Multimodal Video Retrieval Systems: A Framework for AI Model Integration and Transparency
Authors: Swaanen, Michiel
Advisors: NEVEN, Frank
Issue Date: 2024
Publisher: tUL
Abstract: Deze thesis introduceert een raamwerk dat het maken van foundation modellen democratiseert, waardoor ook kleinere bedrijven zonder grote rekenkracht en data complexe AI-modellen kunnen gebruiken. Dit systeem integreert diverse AI-modellen en maakt het mogelijk om video's te doorzoeken op basis van inhoudelijke elementen zoals acties en dialogen, in plaats van alleen bestandsnamen. De kern van het raamwerk is de plug-and-play functionaliteit, waardoor ontwikkelaars gemakkelijk nieuwe functionaliteiten kunnen toevoegen zonder dat hertraining nodig is. Dit vergroot de flexibiliteit en aanpasbaarheid van het systeem. Bovendien lost dit raamwerk het blackbox-syndroom op dat vaak geassocieerd wordt met foundation modellen, door transparantie te bieden in hoe beslissingen worden genomen. Een praktijkvoorbeeld toont aan hoe effectief het systeem een zoekopdracht zoals "Jan die fietst op een strand" afhandelt, door relevante videoclips te identificeren en te selecteren. Dit raamwerk markeert een belangrijke vooruitgang in de manier waarop interactie met digitale media plaatsvindt, wat essentieel is voor de toekomstige ontwikkeling van videozoektechnologieën.
Notes: master in de informatica
Document URI: http://hdl.handle.net/1942/44173
Category: T2
Type: Theses and Dissertations
Appears in Collections:Master theses

Files in This Item:
File Description SizeFormat 
ca8d7a3b-5bba-4ebe-8178-f74adfb8f201.pdf5.11 MBAdobe PDFView/Open
Show full item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.