Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/26760
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorSHKEDY, Ziv-
dc.contributor.advisorKASIM, Adetayo-
dc.contributor.authorDE TROYER, Ewoud-
dc.date.accessioned2018-10-01T14:31:50Z-
dc.date.available2018-10-01T14:31:50Z-
dc.date.issued2018-
dc.identifier.urihttp://hdl.handle.net/1942/26760-
dc.description.abstractGrote en hoog dimensionele data met complexe structuren is de laatste jaren enorm in opmars (Kasim et al., 2016). In het bijzonder zijn het de biclustering methodes die aan populariteit winnen (Henriques et al., 2015). Deze methodes hebben als doel om betekenisvolle en lokale patronen te ontdekken in een grote data matrix. In tegenstelling tot de gewone één-dimensionale clustering algoritmes, is biclustering een data analyse methode dat gebruikt wordt om de rijen en kolommen simultaan te groeperen (of te clusteren) in een data matrix. Deze lokale submatrices of biclusters kunnen verscheidene structuren aannemen zoals constante waarden, dominante rij- of kolomeffecten, samenhangende waarden of multiplicatieve effecten. Hiervoor bestaan verschillende algorithmes, bijvoorbeeld de δ-biclustering methode (Cheng and Church, 2000), de Plaid methode (Lazzeroni and Owen, 2002, Turner et al., 2005), Spectral biclustering (Kluger et al., 2003) en FABIA (Hochreiter et al., 2010). Deze dissertatie focuste op zulke biclustering analyses en omvatte verschillende onderwerpen gerelateerd met verschillende wetenschappelijke velden en software ontwikkeling. In Hoofdstuk 2 werd biclustering toegepast in het domein van vroege medicijn ontwikkeling. In dit hoofdstuk werd de CSMFA methode geïntroduceerd als een alternatief voor de Zhang en Gant methode (Zhang and Gant, 2008) om connectie scores te berekenen tussen een groep gelijkaardige kandidaat-stoffen/samenstellingen en een database van referentie stoffen. In tegenstelling tot de paarsgewijze ZG scores zijn de nieuwe connectie scores gebaseerd op lokale correlatie structuren in de data. Bovendien vergt de nieuwe CSFMA ook geen preselectie van genen. Het hoofdstuk bevatte verder ook een uitgewerkt voorbeeld op de cMap data (Lamb et al., 2006) en een simulatie studie. Gebruik makende van de nieuwe CSMFA introduceerde Hoofdstuk 3 twee nieuwe ma nieren om groepen kandidaat stoffen te creëren. In de eerste manier werd de informatie in de andere factoren van de CSMFA gebruikt om onontdekte structuren (factor loadings en scores) waar te nemen. De hoogste “loadings” in elke factor of structuur konden dan worden gebruikt om een nieuwe kandidaat groep van stoffen samen te stellen. Met behulp van deze procedure kan men op een organische wijze de data onderzoeken. Voor de tweede manier werd een externe data set gebruikt om een groep kandidaat stoffen te vormen. Een één-dimensionale clustering methode (hierarchical clustering) werd op de externe databron toegepast en de ontdekte clusters werden als groep kandidaten gebruikt voor de CSFMA. Vervolgens was het mogelijk om een binnen- en tussen-CS’s te berekenen voor deze clusters. Beide manieren werden ten slotte uitgevoerd op de cMap data. In Hoofdstuk 4 en 5 werden diagnostische procedures voorgesteld voor continue biclusters. Een one-way ANOVA model met één observatie per cel werd gebruikt om zowel de additieve als de multiplicatieve effecten te analyseren. De additieve effecten waren afgeleid via de rij en kolom F testen en de multiplicatieve effecen via de (gemodificeerde) Tukey test (Tukey, 1949 en Šimeček and Šimečkobá, 2013). Verscheidene sampling procedures waren voorgesteld om de statistische significantie af te leiden voor deze testen en hun power en Type I error werden vervolgens onderzocht in simulatie studies. In Hoofstuk 6 werd het biclusteren van binaire data van naderbij bekeken. In dit hoofdstuk werd de BiBit methode uitgebreid naar de E-BiBit om het voorkomen van nullen een bicluster toe te laten. Dit laat de ontdekking van meer algemene patronen in de data toe en kan nieuwe onderzoeksvragen beantwoorden. Verder, om het gigantische aantal biclusters terug te schroeven, werd een nieuwe procedure voorgesteld, de BiBit workflow. Met behulp van deze procedure, welke het biclustering resultaat combineert met traditionele hierarchical clustering methodes, kon het aantal biclusters teruggebracht worden tot een meer handelbaar en betekenisvol resultaat. Ten slotte, in Hoofdstuk 7 tot 12, werd een uitgebreide biclustering GUI, RcmdrPlugin.BiclustGUI, gepresenteerd. Verschillende doelpublieken werden bereikt met behulp van de ontwikkelde software, namelijk een plug-in voor R Commander voor gemiddelde tot gevorderde R gebruikers en een Shiny applicatie voor beginners. Om kracht te putten uit de R gemeenschap werden R sjablonen gecreërd waarmee onafhankelijke ontwikkelaars hun eigen biclustering methodes konden toevoegen aan de GUI met minimale tussenkomst van de BiclustGUI onderhouder. Buiten deze GUI werden ook verscheidene andere R packages ontwikkeld gedurende deze dissertatie zoals CSFA, BiBitR en biclust (uitbreiding). Dit hebben we gedaan omdat we niet enkel gedreven waren in het uitgevoerde onderzoek, maar ook omdat we een makkelijke manier wilden aanbieden aan de wetenschappelijke gemeenschap om de bekomen nieuwe methodes en procedures uit te voeren.-
dc.language.isoen-
dc.titleIdentifying and Visualising Data Structures in Big and High Dimensional Data using Biclustering-
dc.typeTheses and Dissertations-
local.format.pages327-
local.bibliographicCitation.jcatT1-
local.type.refereedNon-Refereed-
local.type.specifiedPhd thesis-
local.type.programmeVSC-
item.fullcitationDE TROYER, Ewoud (2018) Identifying and Visualising Data Structures in Big and High Dimensional Data using Biclustering.-
item.accessRightsOpen Access-
item.fulltextWith Fulltext-
item.contributorDE TROYER, Ewoud-
Appears in Collections:PhD theses
Research publications
Files in This Item:
File Description SizeFormat 
dissertation_EwoudDeTroyer.pdf13.21 MBAdobe PDFView/Open
Show simple item record

Page view(s)

66
checked on May 20, 2022

Download(s)

32
checked on May 20, 2022

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.