Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/19772
Title: Integrative Methods for the Analysis of Structure-Transcription-Assay-Relationships in Drug Discovery and Early Development
Authors: PERUALILA, Nolen Joy 
Advisors: SHKEDY, Ziv
TALLOEN, Willem
KASIM, Adetayo
Issue Date: 2015
Abstract: Vroeg geneesmiddel onderzoek en de bijhorende ontwikkelprocessen omvatten verschillende technologiem de chemische en biologische effecten van chemische samenstellingen op een moleculair niveau te meten en vormen de basis om beslissingen te maken tijdens de ontwikkeling voor een nieuw geneesmiddel. Bijgevolg genereert dit proces meerdere bronnen aan hoogdimensionale gegevens die onder andere high throughput screening (HTS) omvatten, chemische structuren, genexpressie en image based high content screening (HCS). Een geïntegreerde analyse van deze bronnen is het centrale thema van deze scriptie. Hoogdimensionale gegevens worden gekarakteriseerd door het hebben van een enorm aantal kenmerken (variabelen) en relatief weinig chemische samenstellingen (samples). Dit brengt ons bij het probleem van data integratie en vormt een uitdagend platform voor het ontwikkelen van een methodiek en het toepassen ervan om essentiële informatie af te leiden van zowel de biologie als de chemie. Een geïntegreerde methode die toelaat om de relatie tussen al deze kenmerken in kaart te brengen kan zeer relevant zijn om het nut en de veiligheid van samenstellingen te evalueren als eventuele leidende samenstellingen dooruit de optimalisatie. In het onderzoek naar nieuwe geneesmiddelen werken wetenschappers samen om een mogelijk biomoleculair "target"te identificeren. Deze bestaat meestal uit een enkel molecule, gewoonlijk een eiwit, die betrokken is in een bepaalde ziekte en moet kunnen interageren met en beïnvloed worden door een molecuul. Na de identificatie en validatie van het target volgt het proces om veelbelovende samenstellingen te ontdekken die uiteindelijk zouden kunnen uitmonden in een geneesmiddel voor een bepaalde ziekte. Het ontdekken begint daarom met de creatie van een nieuw molecule of het hergebruiken van een bestaand molecule. Op dit punt in het onderzoek kunnen duizenden kandidaat samenstellingen gescreend worden tegen het target voor interactie gebruik maken van HTS reeksen om het vervolgens te optimaliseren door de structuur aan te passen voor een betere interactie. Sinds enkele decennia worden Quantitative Strcutural-Activity Relationships (QSAR) modellerings technieken (Nantasenamat et al., 2009) uitgebreid gebruikt om de relatie tussen de chemische structuur en de activiteit te kwantificeren en om hierdoor meer begrip te winnen over hoe chemische substructuren invloed hebben op de biologische activiteit van een verbinding en vervolgens deze kennis te gebruiken om samenstellingen te ontwerpen met een verbeterde activiteit ofwel gerelateerd aan een grotere werkzaamheid ofwel aan een lagere toxiciteit (Dearden, 2003, Martin et al., 2002, Bruce et al., 2008). Het fundamentele uitgangspunt voor de QSAR aanpak is gebaseerd op de waarneming dat chemicaliën met soortgelijke structuren vaak vergelijkbare fysische eigenschappen and biological activiteiten delen. De Quantitative Structure-Transcriptionele-Assay Relationship (QSTAR) modellerings framework is een uitbreiding van de QSAR. Hier worden transcriptie data gïntegreerd met de structurele informatie van de samenstelling alsook met experimentele biologische gegevens om de effecten van de samenstellingen in biologische systemen te analyseren vanuit verschillende hoeken om een licht te werpen op het werkingsmechanisme (Mechanism of Action, MoA) van de verbindingen. Dit kan inzicht bieden in onbedoelde fenotypische effecten die van grote waarde kunnen zijn in een vroeg stadium van de farmaceutische besluitvorming. Hoewel de bioactieve data, die typisch gemeten wordt per target assay, belangrijk is in het optimalisatieproces van het chemisch ontwerpen van samenstelling, biedt het niet veel waardevol inzicht over de onderliggende biologische mechanismen. In contrast met de biologische gegevens die enkel biologische effecten beschrijven, is genexpressie data, als een multidimensionale assay, in staat om informatie te geven over een brede verscheidenheid van biologische effecten van een samenstelling op het transcriptionele niveau van het gehele genoom, en geeft daarmee een informatie-rijke snapshot van de biologische toestand van een cel (Gölmann en Talloen, 2009, Amaratunga et al., 2014). Transcriptomische veranderingen die optreden na toediening van een samenstelling kunnen ook worden gemeten in high throughput, waardoor screening van veel stoffen in meerdere cellijnen tegen een lage kost kan gebeuren. Ook is het geobserveerd dat transcriptie data veelal biologisch relevante signalen detecteren en beter in staat is om samenstellingen te prioriseren dan de conventionele target assays (Verbist et al., 2015). Toepassingen die met behulp van genexpressie profielen meerdere genen en biologische reactiepaden tegelijkertijd observeren verrijken het inzicht in de onderliggende mechanismen. Binnen het QSTAR kader, kunnen mRNA biomarkers ontdekt worden door samenstelling die ziektegerelateerde variatie van de genexpressie veroorzaken. Analyse van de transcriptie profielen maakt het mogelijk om nieuwe biomarkers gerelateerd aan bepaalde biologische effecten veroorzaakt door deze samenstellingen te identificeren. Met deze aanpak kan een aanzienlijke hoeveelheid middelen worden uitgespaard vanwege de vroege identificatie van gevaren en zo fouten te vermijden in de latere stadium van de farmaceutische ontwikkeling van geneesmiddelen. Dit proefschrift bestaat uit een aantal analyse workflows om de drie hoog-dimensionale datatypes te integreren; gen-expressie, fingerprint eigenschappen (FFS die de chemische structuren voorstellen) en bioassay data (fenotype). De methoden in dit proefschrift zijn verdeeld in drie soorten: het QSTAR modelkader, semi-supervised methoden, van een clustering tot een biclustering analyse en unsupervised multivariate methoden voor data exploratie en integratie. Het laatste deel van het proefschrift behandelt de statistische software ontwikkeld samen met de methoden. Het eerste deel van het proefschrift is toegewijd aan statische modellen die toepasselijk zijn in de context van QSTAR. Hoofstuk 2 omvat het kader van gezamenlijk modelleren (joint modeling framework) wat ons toestaat om (1) actieve genhandtekeningen die de chemie sturen te identificeren, (2) chemische substructuren (oftewel ‘fingerprint features‘, FF) van samenstellingen te bepalen die gerelateerd zijn met de effecten op bio-assay data voor specifieke "targets"van interesse en (3) om na te gaan of dit effect ook kan bevestigd worden door veranderingen in genexpressies (zowel on- of off-target gerelateerd). Hoofdstuk 3 beschrijft de relatie tussen gezamenlijk modelleren, "path analysis"modelleren, en voorwaardelijk modelleren. Het tweede deel van het proefschrift bevat de sequentiële integratie van meerdere datasets met het doel het werkingsmechanisme te verklaren van een deelgroep van samenstellingen (chemische stoffen) met behulp van clustering en biclustering technieken (Kasim et al., 2016). Clustering algoritmes gebruiken de similariteit data om objecten te groeperen en worden voornamelijk gebruikt op één databron. In Hoofdstuk 4 wordt een clustering oplossing voorgelegd die meerdere databronnen kan hanteren in de context van ontwikkeling van nieuwe geneesmiddelen. Een typische strategie voor de selectieprocedure van chemische stoffen omvat het clusteren van deze stoffen gebaseerd op hun chemische structuur. Dit idee wordt verder uitgebreid met een geïntegreerde clustering benadering die gebruik maakt van beide databronnen met het oog op de ontdekking van een deelgroep van chemische stoffen met gelijkaardige structuur- en biologische eigenschappen. Deze methode voegt bioactiviteit en structuur gebaseerde similariteitsmatrices met behulp van complementaire gewichten samen waardoor er een gewogen similariteitsmatrix, de standaard invoer in elk clustering algoritme, wordt gevormd. Hierna wordt een tweede analyse uitgevoerd waarin elke biologische en structuur gestuurde cluster van chemische stoffen verder gelinkt wordt aan een set van transcriptoom kenmerken. Een nieuwe deelgroep van chemische samenstellingen die op vlak van structuur en biologische eigenschappen gelijken op de referentie stof worden zo ontdekt met de voor-gestelde clustering benadering. Hoofdstuk 5 behandelt het integreren van genexpressie profielen van specifieke proteïnen met als doel onze kennis van de fundamentele mechanismen in proteïne-ligand bindingen te verrijken. Dit hoofdstuk focust op de integratie van genexpressie data en in-silico target predictie scores, om inzicht te verschaffen over het werkingsmechanisme (Mechanism of Action, MoA). De chemische samenstellingen worden geclusterd op basis van de similariteit van hun voorspelde proteïne targets waarna elke cluster gelinkt wordt aan "gene sets"door middel van Lineaire Modellen voor Microarray Data. Pathway analysis wordt vervolgens gebruikt om de gene sets te identificeren op basis van hun biologische processen. Verder wordt er een kwalitatief onderzoek uitgevoerd op the homogene clusters van de chemische stoffen gebaseerd op hun targets om de pathways te identificeren. Hoofdstuk 6 stelt een workflow voor om de genexpressie biclusters te ranken met behulp van een andere bron van informatie wat in dit geval de chemische structuur zal zijn. Het derde deel van het proefschrift bestaat uit 3 hoofdstukken, beginnende met Hoofdstuk 7 waarin de Multiple Factor Analysis (MFA) voor normalisatie en integratie van datasets wordt geïntroduceerd. Voor deze analyse zullen de 3 QSTAR datasets gebruikt worden. Hoofdstuk 8 illustreert het gebruik van MFA als een gen-module verrijkingstechniek. In Hoofdstuk 9 worden 2 varianten van MFA gepresenteerd, namelijk SMFA and biMFA. In dit hoofdstuk wordt de genexpressie (GE) data geïntegreerd met "high content screening"(HCS) data. Het doel hiervan is de transcriptionele effecten van de chemische samenstellingen te relateren met bioactiviteitsmetingen in een cel na toediening gebaseerd op beelden. Deze idenficatie van fenotypische subklasses (GE en HCS) die co-gereguleerd zijn over een deelgroep van chemische stoffen, kan worden toegepast als een biologisch screening tool om het potentieel voor doeltreffendheid en toxiciteit van deze stoffen te schatten. Dit is in lijn met het basis concept van biclustering, rekening houdende met meerdere databronnen. Vandaar, met het oog op deze doelstelling, zijn Sparse Multiple Factor Analysis (SMFA) en biclustering met MFA (biMFA) ontwikkeld om simultaan te zoeken naar associatie tussen kenmerken en chemische stoffen. Deze integratie methodes combineren de ideeën van MFA en singulierewaardeontbinding technieken met een strafterm. De resultaten brengen een groep van potentiële geno-toxische leidende stoffen en een Tubulin-gelinkte groep van stoffen, samen met hun respectievelijke HCS kenmerken indicators aan het licht. De laatste 2 hoofdstukken van het proefschrift bevatten de ontwikkelde R producten voor de voorgestelde methodologie in de verhandeling. Het eerste R pakket biclustRank, wordt behandeld in Hoofdstuk 10 en Hoofdstuk 11 bespreek het R pakket biMFA welke ontwikkeld is voor de methodologie in het derde deel van het proefschrift.
Document URI: http://hdl.handle.net/1942/19772
Category: T1
Type: Theses and Dissertations
Appears in Collections:PhD theses
Research publications

Files in This Item:
File Description SizeFormat 
PhD Nolen Joy Perualila.pdf7.21 MBAdobe PDFView/Open
Show full item record

Page view(s)

34
checked on Sep 5, 2022

Download(s)

14
checked on Sep 5, 2022

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.