Statistical Methods for Analysis of High Throughput Experiments in Early Drug Development

KHAMIAKOVA, Tatsiana

Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/20344

Title:	Statistical Methods for Analysis of High Throughput Experiments in Early Drug Development
Authors:	KHAMIAKOVA, Tatsiana
Advisors:	SHKEDY, Ziv
Issue Date:	2013
Abstract:	Introduction: Advances in biotechnology and the ability to obtain molecular profiles of biological samples, and in particular, the transcriptomic data, have been transforming the way biomedical research and early drug development are carried out for more than a decade (Clarke et al., 2004; Chengalvala et al., 2007; Hughes et al., 2011). In view of increasing costs of the drug development and nevertheless a large number of drugs which fail the clinical trials either due to the lack of efficacy or side effects, novel technologies can potentially assist the selection of the most promising compounds for later stages in the drug discovery process. In particular, gene expression experiments are known to be of use for the compound target identification and side-effect profiling or toxicogenomics (Chengalvala et al., 2007). The target identification sheds a light on mechanism of action of a drug, whereas toxicogenomics can assist in prioritizing compounds for further development. The knowledge of gene expression activity induced by certain treatment can pinpoint genotypes which would either benefit from the treatment or have side effects in the late phases of clinical trials, thus, saving development costs. As pointed out by Xie et al. (2012); Ma and Zhao (2012a), cancer, neurological disorders and other complex diseases involve many genes and biological pathways. Therefore, development of multi-targeting therapeutics is needed for successful treatment of complex disorders. To obtain the knowledge of activated pathways, either on-target, desirable effects or off-target, possible side-effects, large numbers of gene expression experiments are carried out. In addition to the in-house data, i.e., data collected within a particular company, pharmaceutical industry may profit from the public data collections, such as Connectivity Map (Lamb, 2007) and Comparative Toxicogenomics Database (Davis et al., 2011). The efficient use of the data collections, either public or commercial, requires high quality data preprocessing and analysis tools. This PhD dissertation is dedicated to statistical aspects of data preprocessing and analysis. The dissertation consists of three parts. Part I focuses on the probe-level analysis of Affymetrix microarray data. Part II deals with biclustering analysis of gene expression data. Part III introduces joint biclustering methods for data integration and exploration. Al meer dan tien jaar verandert biotechnologische vooruitgang de manier waarop biomedisch en pharmaceutisch onderzoek worden uitgevoerd. Gelet op de toenemende ontwikkelingskosten voor nieuwe geneesmiddelen en de desondanks grote uitval van kandidaatgeneesmiddelen in de klinische fase vanwege gebrek aan efficaciteit of aanwezigheid van bijwerkingen, kunnen nieuwe technologie en helpen bij de selectie van de meest veelbelovende verbindingen voor volgende stadia van de geneesmiddelenontwikkeling. Met name genexpressie experimenten staan bekend omwille van hun bruikbaarheid bij identiffceren en begrijpen van de werking en de bijwerkingen van de verbindingen. Bij kanker, neurologische aandoeningen en andere complexe ziektes zijn vaak veel genen en biologische pathways betrokken. Om kennis over geactiveerde pathways te verkrijgen, hetzij gewenste werking, hetzij ongewenste bijwerking, worden grote hoeveelheden genexpressie-experimenten uitgevoerd. Aanvullend op in-house gegevens, d.w.z. gegevens binnen een bepaald bedrijf verzameld, kan een farmaceutisch bedrijf proffteren van publieke databanken, zoals de Connectivity Map en de Comparative Toxicogenomics Database. Het effici ente gebruik van databanken, zij het publieke of commerci ele, vereist goede instrumenten voor de data voor te bereiden en te analyseren. Dit proefschrift is gewijd aan de statistische aspecten van zulke instrumenten. Het proefschrift bestaat uit drie delen. Deel I focust op de analyse op probe-niveau van Assymetrix microarray data. De Assymetrix microarrays kwantiffceren de expressie van een gen via meerdere oligonucleotides (probes) van 25 basisparen lang die samen een probe set vormen. Deel II behandelt de biclusteringanalyse van genexpressiedata. Deel III introduceert joint biclusteringsmethoden voor data-integratie en exploratie. In Deel I presenteren we het modelleerkader voor de probe-niveau analyse van Assymetrix GeneChip data. Het modelleerkader is gebaseerd op lineaire mixed modellen (LMM) met experiment-speciffeke en random essecten. We laten zien hoe het LMMkader in verschillende experimentele situaties kan worden toegepast. Het probe-niveau LMM houdt rekening met de correlaties tussen probe-intensiteiten en geeft schattingen voor de vaste essecten die van belang zijn. Bovendien kunnen schattingen van de variantie tussen reeksen worden gebruikt om conclusies te trekken over factoren die het model niet heeft meegenomen. Dit soort informatie gaat verloren wanneer alle probe data samengevat worden in één getal. Daarom kan het probe-niveau LMM gebruikt worden om een kwaliteitscontrole van de gegevens uit te voeren en de aanwezigheid van technische artefacten, zoals batch-essecten, aangeven. Door middel van simulatiestudies tonen we aan dat als de probe-niveau data voldoen aan marginale normaliteit, het probe-niveau LMM even goed presteert met een even goede FDR als de disserenti ele expressie testen op samengevatte gegevens. Het LMM-kader wordt verder uitgebreid om probe-sets te modelleren, waarbij de aanname dat alle probes hetzelfde doel-transcript meten wordt geschonden. Een mixture model wordt gebruikt om het aantal componenten in een probe set te schatten, en de posterior waarschijnlijkheden werden gebruikt om de componentsamenstelling (klasse-label) voor elke probe in de probe set. De schattingen van de intra-class correlaties (ICC's) worden gebruikt voor de geactualiseerde deffnitie van de probe sets. We illustreren hoe een experiment-speciffeke probe-set deffnitie kan worden uitgevoerd, gebaseerd op de uitkomst van het probe-niveau LMM. Als bijvoorbeeld een probe set uit meerdere componenten bestaat, kan hij worden onderverdeeld in een aantal verschillende probe sets. Daarna kunnen deze probe sets worden gebruikt voor de actualisering van de bestanden die per chip type probes annoteren (CDFs). Zo kan de standaard downstream analyse van de genexpressiedata (samenvatting, test voor disserenti ele expressie, etc.) uitgevoerd worden op basis van de geactualiseerde CDFs. In Deel II introduceren we concepten van biclusteringanalyse en presenteren een overzicht van bestaande biclusteringsmethoden. Biclustering is een relatief nieuwe dataanalysetechniek die wordt beschouwd als een data mining methode. Anderzijds zijn klassieke statistische procedures die gebruikt worden om de dimensionaliteit te reduceren (factor analyse, principale componentenanalyse, canonische correlatieanalyse en daarvan afgeleide analyses) ook zeer geschikt. Een simulatiestudie werd uitgevoerd om de prestatie van verschillende biclusteringsmethoden te vergelijken wat betreft de stabiliteit en robuustheid voor verschillen in de initialisatiewaarden. Men heeft gevonden dat sommige biclusteringsmethoden zeer instabiel zijn met betrekking tot deze initialisatieparameters. Om een biclusteringsmethode robuust te maken voor random initialisatiewaarden, hebben we gebruik gemaakt van een ensemble-algoritme. De ensembleprocedure is geprogrammeerd in R en beschikbaar als het superbiclust- pakket op de CRAN. Het centrale onderwerp van Deel II betreft diagnostische methoden voor biclusters. In de huidige biclustering-literatuur wordt de biclusterkwaliteit bepaald door biologische relevantie. Er is echter een behoefte aan statistische methoden, die de signiffcantie van de gedetecteerde patronen kunnen evalueren. Wij beschrijven één van de huidige aanpakken, de disserenti ele gen co-expressie, en breiden de beschikbare methode van Chia and Karuturi (2010) uit tot de identiffcatie van signiffcante essecten in een bicluster. In Deel III breiden we biclustering van afzonderlijke datasets uit tot joint biclustering door het combineren van datasets, die een gemeenschappelijke dimensie (kenmerken of monsters) hebben. We laten zien hoe biclustering kan worden toegepast op genexpressie-data uit verschillende projecten of gemeten met verschillende microarray types. Joint biclustering werd toegepast in een studie waarbij zowel miRNA en mRNA geproffleerd waren voor dezelfde set van biologische monsters. Tot slot presenteren we een nieuwe toepassing van joint biclustering, namelijk de geïntegreerde analyse van gen-expressie en chemische-structuur data.
Document URI:	http://hdl.handle.net/1942/20344
Category:	T1
Type:	Theses and Dissertations
Appears in Collections:	PhD theses Research publications

Files in This Item:

File	Description	Size	Format
5213 D-2013-2451-60 Khamiakova Tatsiana.pdf		8.7 MB	Adobe PDF	View/Open

Show full item record

Google Scholar^TM

Check

Files in This Item:

Google ScholarTM

Google Scholar^TM