Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/17508
Title: Keeping up with Google: Searching in Text Databases
Authors: VUURSTAEK, Jan 
Advisors: GYSSENS, Marc
Issue Date: 2014
Publisher: tUL
Abstract: Op het internet kunnen we gestructureerde informatie terugvinden in de vorm van tabellen, lijsten, etc. Deze kan gebruikt worden voor zowel informatieve doeleinden als voor verdere verwerking. Deze informatie aanbieden is echter niet eenvoudig, aangezien deze soms ingebed is in de webpagina's zelf. We moeten de informatie bijgevolg eerst uit de webpagina's zien te halen. Dit kunnen we doen aan de hand van wrappers. Een wrapper is een procedure ontwikkeld om informatie uit een specifieke soort webpagina's te halen. Dit is echter niet schaalbaar vanwege de grote hoeveelheid verschillende soorten webpagina's die beschikbaar zijn op het web. Vanwege deze reden bestuderen we in deze masterproef een techniek waarmee we de creatie van wrappers kunnen automatiseren. Deze techniek draagt de naam wrapper inductie. We beginnen met het bestuderen van het informatie extractieproces en de rol die het wrapper inductieprobleem hierin speelt. Daarna bekijken we een aantal bestaande wrapper classes die dit probleem oplossen, alsook een eigen ontwikkelde wrapper class die met een aantal beperkingen van de bestaande wrappers classes overweg kan. Verder hebben we twee verbeteringen ontwikkeld die we kunnen doorvoeren aan de wrapper classes. Tot slot hebben we de verschillende wrapper classes en verbeteringen ook getest. Hieruit is gebleken dat één van onze verbeteringen onmisbaar is voor het vinden van wrappers. Verder is ook gebleken dat onze eigen ontwikkelde wrapper class te strenge eisen heeft om op een snelle manier een wrapper te vinden.
Notes: master in de informatica-databases
Document URI: http://hdl.handle.net/1942/17508
Category: T2
Type: Theses and Dissertations
Appears in Collections:Master theses

Files in This Item:
File Description SizeFormat 
09284272013197.pdf3.51 MBAdobe PDFView/Open
Show full item record

Page view(s)

40
checked on Nov 7, 2023

Download(s)

18
checked on Nov 7, 2023

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.