Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/16246
Title: Flexible Modeling For Hierarchical Data, Data With Random Sample Sizes and Selection Bias, with Applications in Pharmaceutical Research
Authors: MILANZI, Elasma 
Advisors: MOLENBERGHS, Geert
ALONSO ABAD, Ariel
Issue Date: 2013
Abstract: Ruw geschetst bestaat het ontwikkelingsproces van nieuwe geneesmiddelen uit de volgende stappen: de ontdekkingsfase, waar potentieel actieve chemische componenten worden onderscheiden die verdere studie vereisen; de optimisatie-fase die de farmacologische profielen optimiseert, en de ontwikkelingsfase waar de potenti¨ele component aan rigoureuse evaluatie wordt onderworpen. Het is uiteraard belangrijk dat het finale product veilig en werkzaam is, binnen de populatie die men voor ogen heeft (Schultz, Ruppel, and Johnson, 1988). Gemeenschappelijk aan alle fasen is het gebruik van empirische evidentie, of gegevens, om het proces en de eraan gekoppelde beslissing te ondersteunen. Er is dus grote nood aan statistische expertise. De klemtoon hier ligt op het ontwikkelen van gepaste methodologie, gekoppeld aan ingewikkeld proefopzet, in de ontdekkings- en ontwikelingsfases. Ze vormen het onderwerp van respectievelijk Deel I en Deel II van onderhavig werk. Flexibele methodologie voor hi¨erarchische gegevens, en voor gegevens met selectie-effecten Farmaceutische bedrijven houden bibliotheken bij van voor de ontwikkeling van geneesmiddelen veelbelovende chemische componenten. Het is cruciaal dat dergelijke bibliotheken een grote fractie “interesssante” componenten bevatten. Dit verhoogt uiteraard de kans op succes bij screening (Lajiness and Watson, 2008). Het is gebruikelijk van de eigen ontdekkingen aan te vullen met aangekochte bibliotheken. Recent werd voorgesteld van de bibliotheken te versterken door ze te voorzien van de opinie van experten (Hack et al., 2011). De aanpak voorgesteld door Hack et al. (2011) vertrekt van de aankoop van verscheidene structurele filters die ook de eigenschappen van de componenten screenen. Hierdoor is het mogelijk van onmiddellijk die componenten te verwijderen die geen enkele belofte vertonen. De resterende componenten worden dan in zogenaamde clusters ondergebracht, samen met de reeds in huis aanwezige componenten. Clusters die uitsluitend uit externe componenten bestaan worden voorgelegd aan de wereldwijde gemeenschap van medicinale chemici; zij scoren de componenten om op die manier uit te maken of ze een plaats verdienen in de bibliotheken of niet. Naast een ja/neen beslissing worden de componenten ook van een rangorde voorzien, uiteraard met het oog op het aanbrengen van prioriteiten. Het boven geschetste proces heeft hoog-dimensionale aspecten om twee redenen: (i) als experten vele clusters scoren, dan is de dimensie van de respons vector hoog; (ii) een score toekennen aan een cluster impliceert het schatten van duizenden fixed-effect parameters. Uiteraard is de methodologie voor hi¨erarchische gegevens goed ontwikkeld (Molenberghs and Verbeke, 2005; Verbeke and Molenberghs, 2000; Liang and Zeger, 1986). Er is heel wat vooruitgang geboekt ook bij de analyse van hoog-dimensionale herhaalde metingen. Bijvoorbeeld, Fieuws and Verbeke (2006) maken gebruik van paarsgewijs schatten, terwijl Molenberghs, Verbeke, and Iddi (2011) grote steekproeven in stukjes hakken, elk stukje apart analyseren, en dan volgens bepaalde combinatieregels tot ´e´en conclusie komen. Om expert opinie te kwantificeren is het nodig van de bestaande methodologie uit te breiden zodat tegelijkertijd de beide hoog-dimensionale aspecten (fixed effecten en herhaalde respons vector) in rekening kunnen gebracht worden. Een dergelijke procedure wordt voorgesteld in Hoofdstuk 3. Vertrekkend van de splitsingsidee in Molenberghs, Verbeke, and Iddi (2011), wordt een permutatie-splitsing procedure voorgesteld. Ze laat toe van het geschetste probleem aan te pakken binnen de grenzen van standaard beschikbare statistische software. De resultaten liggen zeer dicht bij de maximum likelihood schatters die men zou krijgen indien de steekproef als geheel wordt geanalyseerd. Alleen is er een enorme winst aan berekeningstijd en -vereisten. Dit is mogelijk door: (i) oordeelkundig splitsen van de dataset is deelverzamelingen; (ii) adequate schattingsmethoden toepassen op elk van de delen; (iii) permutatie van de gegevens en herhalen van stappen (i) en (ii); (iv) combinatie van de voor de delen verkregen schatters tot ´e´en enkele conclusie. De performantie van de methode wordt ook onderzocht aan de hand van simulaties. In deze methode is het niet zo dat het aantal clusters dat door een expert behandeld wordt bij voorbaat vast ligt. In overeenstemming met de praktijk hangt zulks af van de tijd beschikbaar voor een bepaalde expert. Het aantal bestudeerde clusters (number of clusters rated, NoCR bevat meer dan waarschijnlijk minstens een beetje informatie over de scores van de expert. In Hoofdstuk 4 worden de theoretische implicaties hiervan besproken. Het belang van het mee in rekening brengen van NoCR wordt aangetoond, zelfs onafhankelijk van het feit of het al of niet een invloed heeft op de score van een expert. Daarnaast worden aantrekkelijke proefopzetten besproken die dit probleem vermijden, zoals dat waarbij een expert alle clusters bestudeerd, of het random toekennen van een aantal clusters over de experten, waarbij het aantal wel degelijk wordt vastgehouden. Ondanks hun theoretische voordelen zijn ze voor de praktijk minder aangewezen. Pragmatisch kan het dus niet anders dan toch maar met NoCR rekening te houden. De meeste methoden voor niet-gerandomiseerde studies impliceren een vorm van data-verrijking (enrichtment). Dit betekent dat er meer in het model verondersteld wordt dan gegevens kunnen valideren. Verrijking stoelt dus op niet-verifieerbare aannames. Typische voorbeelden van verrijking zijn: ontbrekende gegevens, censurering bij overlevingstijden, random effecten, enz. Het foutief specifi¨eren van de random effect verdeling kan problemen veroorzaken voor de statistische conclusies (Liti`ere, Alonso, and Molenberghs, 2008). Om die reden zoeken we naar methodologie die robuust is tegen misspecificatie, omdat verrijking nu eenmaal niet te vermijden is. Hoofdstuk 5 stelt een dergelijke methode voor. De impact op de conclusies wanneer dit fenomeen verwaarloosd wordt, vormt het voorwerp van studie in Hoofdstuk 6. Via simulaties wordt ook nagegaan wat er gebeurt indien overdispersie wordt verwaarloosd. Flexibele methodologie voor gegevens met random steekproefgrootte Klinische studies gaan na of een potentieel geneesmiddel voldoende veilig en werkzaam is (Rodda et al., 1988). Om de impact op de studiepopulatie te verkleinen, maakt men sedert decennia gebruik van zogenaamde random steekproefgrootte (random sample size, RSS). Dit heeft geleid tot het kader van de groep sequenti¨ele studies (group sequential trials, GST). Een GST kan gestopt worden indien het resultaat vroeg in de studie buiten verwachting heel sterk zou zijn, of wanneer net het tegendeel voorkomt. Er zijn duidelijk ethische en economische voordelen aan deze manier van werken, maar tegelijk zijn er problemen op het vlak van parameterschatting. Er is een brede consensus dat schatters gebaseerd op GST minder elegante eigenschappen hebben dan wanneer conventionele gegevens uit een studie met vaste steekproefgrootte gebruikt worden. Bijvooorbeeld, het steekproefgemiddelde (sample average, SA) verliest de zogenaamde minimum variantie onvertekende eigenschap (Todd, Whitehead, and Facey, 1996; Jennison and Turnbull, 2000). Als antwoord hierop werden heel wat alternatieve schatters voorgesteld (Whitehead, 1997; Emerson and Fleming, 1990; Liu and Hall, 1999). Deel Part II bestudeert dit probleem in detail en vanuit een orginele invalshoek. Ten eerste wordt RSS gekoppeld aan het nu goed ontwikkelde gebied van joint modeling, waarbij ook de link gelegd wordt met onvolledige gegevens en overlevingsanalyse. Concepten zoals ignorability, separability, en ancillarity kunnen dan handig binnen deze context geplaatst worden om op die manier eigenschappen van lineaire schatters af te leiden. De relevantie voor het kader van de klinische studie wordt bestudeerd door de nadruk te leggen op data uit GST. We leiden af dat standaardschatters een veel grotere geldigheid binnen de context van GST dan meestal wordt aangenomen. Een en ander wordt grondig bestudeerd in Hoofdstukken 7 en 8 . Naast de hoger genoemde eigenschappen wordt ook het verband gelegd met statistische volledigheid, suffici¨ente statistieken en de stelling van Lehman-Scheff´e. Tenslotte is er een verband met concepten uit de ontbrekende gegevens, zoals missing at random (MAR) en ingorability. Een cruciaal gegeven is dat bijvoorbeeld het gewone steekproefgemiddelde nog steeds volgt uit het gebruik van maximum likelihood, ondanks het verlies van een aantal schijnbaar belangrijke frequentistische eigenschappen. Daarnaast wordt ook conditionele maximum likelihood gebruikt om een schatter af te leiden die onvertekend is ook in kleine steekproeven. Het verschil tussen de schatters verkregen uit de gewone en de conditionele likelihood is nauw verwant aan de vertekening die vanuit frequentistisch oogpunt bestudeerd wordt. De meeste geneesmiddelen die bedoeld zijn om het leven te verlengen worden ook bestudeerd in functie van kwaliteit van het leven. Dit laatste wordt vaak in kaart gebracht door het gebruik van gevalideerde schalen. Ze moeten natuurlijk geldig en betrouwbaar zijn, in de psychometrische betekenis van het woord; dit betekent dat ze voldoende precies datgene meten wat ze verondersteld worden van te meten. Indien de schalen een continue maat opleveren, is betrouwbaarheid uit te drukken als een verhouding van varianties. Voor binaire respons is dit minder evident. In Hoofdstuk 9 worden benaderende uitdrukkingen afgeleid voor de betrouwbaarheid in voorkomend geval; een en ander wordt binnen het Item Response Theory paradigma geplaatst. Gebaseerd op de benaderende, zogenaamd manifestie correlatiefuncties van Vangeneugden et al. (2010) kunnen we aantonen dat betrouwbaarheid van een binaire schaal evengoed als een variantieratio kan berekend worden. Dit vermijdt uiteraard belangrijke computationele problemen.
Document URI: http://hdl.handle.net/1942/16246
Category: T1
Type: Theses and Dissertations
Appears in Collections:PhD theses
Research publications

Files in This Item:
File Description SizeFormat 
Thesis_Ela_03.pdf1.15 MBAdobe PDFView/Open
Show full item record

Page view(s)

40
checked on Nov 7, 2023

Download(s)

10
checked on Nov 7, 2023

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.