Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/19087
Title: Modelling High Dimensional Dose-Response Data
Authors: OTAVA, Martin 
Advisors: SHKEDY, Ziv
KASIM, Adetayo
TALLOEN, Willem
Issue Date: 2015
Abstract: Deze thesis focust zich op dosis-respons relaties in de ruime zin. De beschreven methoden kunnen toegepast worden op ieder experiment met categorische blootstelling en een continue respons, zoals bijvoorbeeld bij de ontwikkeling van medicijnen en ecologische of economische studies. De variabelen gerelateerd aan deze blootstelling kunnen tijd, dosis, leeftijd, temperatuur enz. zijn. De natuurlijke orde is de belangrijkste eigenschap van het experiment. De beschreven methoden in deze thesis bevinden zich op de grens van biostatistiek en statistische bio-informatica. Hoewel de focus vooral ligt op de algemene methodologisch ontwikkeling, werd het onderzoek uitgevoerd met data van hoge dimensionaliteit in het achterhoofd. De analyse uitbreiden naar data van hoge dimensionaliteit impliceert dat de analyse van een enkel experiment overgedragen dient te worden naar een situatie waarbij duizenden experimenten met dezelfde studie-opzet gelijktijdig uitgevoerd worden. In dergelijk geval is het onmogelijk om ieder experiment te evalueren door gebruik te maken van visualisatie technieken of meerdere modellen te fitten zoals typisch gedaan wordt voor een enkel experiment. Omwille hiervan zouden geautomatiseerde methoden die duidelijke beslissingsregels bieden (en bij voorkeur rekening houden met modelonzekerheid) de voorkeur moeten krijgen. Immers, in het geval van duizenden experimenten moeten multipliciteitscorrecties gebruikt worden voor een goede bescherming tegen artificiële bevindingen, veroorzaakt door toeval. Een voorbeeld van dergelijke techniek is de false discovery rate met multipliciteitscorrectie, een typische methode die toegepast wordt in transcriptomica. De thesis omvat drie delen. Het eerste deel is gewijd aan de methodologische ontwikkeling terwijl de andere twee delen focussen op toepassingen binnen het domein van de bio-informatica. De structuur van de data en de modelleringsaanpak, i.e. dosis-respons experimenten en een order-restrictie modelleringsaanpak, vormen de rode draad tussen de drie delen. In het eerste deel van de thesis beschrijven we moderne statistische methoden op een algemene wijze zodat de methodes algemeen toepasbaar zijn. We concentreren ons zowel op de theoretische fundamenten als op de empirische evaluatie van de voorgestelde methodologie. De eigenschappen van deze methoden zijn onderzocht door uitgebreide simulatiestudies met verschillende situaties. De besproken methodologie is het Bayesiaanse variabele selectie (BVS) kader in geval van order-restrictie modellering. Het voordeel van de BVS techniek is het schatten en de model selectie gelijktijdig uitvoeren, rekening houden met onzekerheid omtrent de modellen. Deze techniek is uitgebreid met inferentie op basis van technieken die gebruik maken van het hertrekken van de steekproef. Aldus vormt het een verenigd kader zonder de noodzaak om enige post hoc methoden toe te moeten passen. Meer nog, de Bayesiaanse natuur laat toe om voorafgaande wetenschappelijke kennis in rekening te brengen wanneer ze voor handen zijn. Zoals getoond zal worden, presteren de operationele karakteristieken van de methodologie even goed als de beschikbare frequentistische technieken. De BVS techniek wordt over verschillende hoofdstukken van het eerste deel van de thesis besproken. Hoofdstuk 2 bevat de inleiding tot het onderwerp. Hoofdstuk 3 introduceert een inferentie procedure gebaseerd op het hertrekken van de steekproef binnen het BVS kader. Model selectie en de bepaling van de minimale effectieve dosis is het onderwerp van Hoofdstuk 4. De robuustheid van de inferentie, de selectie en de schatting ten opzichte van de specificatie van de priors is onderzocht in Hoofdstuk 5. Daarenboven worden de model complexiteit en model eigenschappen gedefinieerd en geanalyseerd binnen het BVS modelleringskader in Hoofdstuk 5. Tot slot behandelt Hoofdstuk 6 in detail de opzet van de simulaties uit vorige hoofdstukken en toont bijkomende simulatie resultaten. Het tweede deel van de thesis focust zich op de analyse van een bepaalde databank. Het doel is de ontwikkeling van de workflow om complexe data sets van meerdere bronnen te analyseren en er kennis uit te extraheren. In plaats van nieuwe methodologie te ontwikkelen, is het de bedoeling om gekende en gevalideerde methoden op een nieuwe en efficiënte wijze te gebruiken. Hoewel de aandacht gevestigd wordt op de analyse van een bepaalde databank, is het mogelijk om de workflow te veralgemenen naar gelijkaardige problemen binnen het onderzoeksdomein. De studie die geanalyseerd wordt in het tweede deel is een grote toxicogenomische databank. Twee analyse kaders worden gepresenteerd en ieder focust van een andere visie op het translationeel onderzoek. In de eerste analyse ligt de interesse in de identificatie van genen die op dezelfde wijze reageren in twee gerelateerde datasets. Dit in tegenstelling tot de tweede analyse, waar de interesse ligt bij de identificatie van genen die sterke verschillen tonen tussen twee datasets. Beide groepen van genen zijn interessant voor verschillende onderzoeksvragen en hun identificatie zorgt voor lichtjes verschillende statistische problemen. Hierdoor variëren de gebruikte methodes van order-restrictie dosis-respons modelleringstechnieken tot de fractionele polynomen die de aanname van monotoniciteit tot op bepaalde hoogte versoepelen. De biclustering en de visualisatie van de data wordt gebruikt om interessante patronen in de data bloot te leggen. Als gevolg van de resultaten leggen we een sterke nadruk op de interpretatie van de resultaten en de identificatie van kleine interessante groepen, dit terwijl we de grote omvang van de data in rekening brengen. Het is belangrijk in het achterhoofd te houden dat beide analyses verkennende gereedschappen zijn die starten van algemene onderzoeksvragen en leiden tot een verzameling van genen. De resulterende genen blijken gewenste eigenschappen of een relatie tot de respons te bezitten, maar door de verkennende natuur van de algoritmes, dient wetenschappelijke kennis bekeken te worden en bijkomende bevestigende experimenten uitgevoerd te worden om de bevindingen te evalueren. De studie toont hoe statistische technieken succesvol toegepast kunnen worden op grote data van meerdere bronnen met uitdagende interpretatie. De analyses van de toxicogenomische projecten worden in twee hoofdstukken gepresenteerd. In Hoofdstuk 7 wordt gezocht naar de genen die vertaalbaar zijn van in vivo rat naar in vitro mens data. In Hoofdstuk 8 worden genen met verschillende effecten over platformen, d.w.z. in vitro rat en in vivo rat, geïdentificeerd. Tijdens het onderzoekswerk gerelateerd aan het PhD project werden grote inspanningen gedaan om data analyse technieken te voorzien voor de wetenschappelijke gemeenschap. De software ontwikkeling gebeurde in R (R Core Team, 2014), wegens zijn hoge kwaliteit, brede beschikbaarheid van hulpmiddelen en de vrije beschikbaarheid van R. In het derde deel van de thesis presenteren we twee R pakketten. Het eerste R pakket, ORCME, wordt gepresenteerd in Hoofdstuk 9, waarmee men order-restrictie clustering voor microarray experimenten kan uitvoeren, het kader dat typisch gebruikt wordt in de verkennende fase van de data analyse. Het pakket is beschikbaar in de Comprehensive R Archive Network (CRAN, Hornik, 2012) bewaarplaats en de boogde gebruikers zijn wetenschappers met minstens een basis kennis van R. Het tweede pakket IsoGeneGUI, geïntroduceerd in Hoofdstuk 10, is anderzijds geïmplementeerd als een Grafische Gebruikers Interface en is beschikbaar in Bioconductor voor een bredere gemeenschap van wetenschappers werkend op biostatistische problemen. De punt-en-klik natuur van het pakket maakt het bruikbaar voor wetenschappers met zeer beperkte kennis van R.
Document URI: http://hdl.handle.net/1942/19087
Category: T1
Type: Theses and Dissertations
Appears in Collections:PhD theses
Research publications

Files in This Item:
File Description SizeFormat 
thesisOtava_vFinal.pdf2.88 MBAdobe PDFView/Open
Show full item record

Page view(s)

24
checked on Sep 6, 2022

Download(s)

12
checked on Sep 6, 2022

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.