Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/12213
Title: Statistical and Mathematical Models to Estimate the Transmission of Airborne Infections from Current Status Data
Authors: GOEYVAERTS, Nele 
Advisors: HENS, Niel
AERTS, Marc
BEUTELS, Philippe
Issue Date: 2011
Abstract: In this thesis, we explored diverse modelling methods for current status data and social contact data to enhance our understanding of the transmission of endemic or actively immunized infectious diseases which spread from person to person. In Chapter 4, we thoroughly studied the Belgian contact survey, collected as part of the POLYMOD project. The data mining analyses revealed that there are robust associations between general contact intimacy indicators, such as contacts taking place at home, lasting at least 4 hours, occurring on a daily basis, and involving skin-to-skin touching. The total number of reported contacts in the survey increased significantly with increasing household size and class size for children, and for adults who were employed or in further education, whereas it decreased significantly for children and teenagers during a school holiday period. We proposed a semiparametric, bivariate smoothing approach to estimate contact rates from social contact survey data in Chapter 5, and found this method to outperform Wallinga et al. (2006)’s low dimensional, fully parametric maximum likelihood approach. Furthermore, the bivariate smoothing method revealed a common pattern in the contact surfaces for all countries in the POLYMOD project: individuals mostly mix assortatively i.e. with people of similar age, which also includes contact with a person’s partner and siblings, and non-assortatively with (grand)children or (grand)parents, i.e. first-degree and second-degree relatives. However, there is still room for improvement as our generalized additive model did not directly take into account zero-inflation, digit preference or clustering of the contact counts, though the latter two aspects were accounted for in the non-parametric bootstrap approach. Further in Chapter 5, we estimated age-specific transmission rates for VZV in Belgium by augmenting the serological data with the estimated contact rates, hereby extending the work of Wallinga et al. (2006). An improvement of fit to the seroprevalence was obtained by modeling transmission as the product of two age-specific variables: the age-specific contact rate and an age-specific proportionality factor q(a, a′ ). Despite the fact that the social contact data approach tackles the main disadvantages of the traditional Anderson and May (1991) method, it still involves two dimensions of uncertainty: the choice of the type of contact underlying actual transmission of disease, and the choice of a parametric model relating the contact rates to the transmission rates. Focussing on close contacts lasting longer than 15 minutes, which induced the best fit to the VZV data under constant proportionality, different models for q(a, a′ ) resulted in a similar fit, while entailing different estimates of the basic reproduction number R0. To overcome this problem of model selection uncertainty, we turned to multimodel inference and computed a model averaged estimate of R0. We conducted a compartmental model structure analysis in Chapter 6, to estimate basic immunological processes for PVB19, such as waning immunity, natural boosting of immunity and secondary infections, and to assess the impact on the inferred maternal risk. The social contact data approach revealed evidence towards long term processes of waning immunity for PVB19, however, it was difficult to discern from the current status data whether individuals with low immunity remain protected and can be boosted, or become susceptible again and potentially get reinfected. Our results showed that for four of the five European countries studied, model selection criteria favor the scenarios allowing for waning immunity at an age-specific rate over the assumption of lifelong immunity, assuming that the transmission rates are directly proportional to the contact rates. Different views on the evolution of the immune response to PVB19 infection led to altered estimates of the age-specific force of infection and R0. The scenarios which allowed for multiple infections during one lifetime predicted a higher frequency of PVB19 infection in pregnant women and of associated fetal deaths. Finally, in Chapter 7, we reviewed the work of Gay (2000) and Altmann and Altmann (2000) on the estimation of trivalent vaccination coverage from trivariate serological data. While the exact, algebraic method of Altmann and Altmann (2000) was found less interesting from a statistical point of view, we elaborated on Gay (2000)’s maximum likelihood approach by explicitly modelling the association between the probabilities of exposure to each of the three diseases for a non-vaccinated individual. To this purpose, the Bahadur model for trivariate binary data was used, which produced a decrease in the estimated MMR vaccination coverage and an increase in the corresponding estimated variability when applied to the serology for Belgium and Ireland. Because of the restrictive Bahadur parameter space, we are currently exploring the trivariate Dale model as well.
NL Infectieziekten zijn ziektes in mensen, dieren of planten die veroorzaakt worden door ziektekiemen zoals bijvoorbeeld virussen, bacteri¨en of parasieten. Er bestaan verschillende wegen waarlangs deze ziektekiemen overgedragen kunnen worden van de ene ‘gastheer’ op de andere, bijvoorbeeld: via de lucht (airborne), druppelcontact (bijv. door te hoesten), direct of indirect fysiek contact, fecaal-orale overdracht (bijv. via besmet drinkwater of voedsel), seksueel contact of vectoroverdracht (bijv. via muggen). In deze thesis ligt de nadruk op modellen voor virale infectieziekten in mensen, die hoofdzakelijk via sociale contacten van een niet-seksuele aard overgedragen worden, bijvoorbeeld via de lucht, druppelcontact of direct fysiek contact. In het algemeen, wanneer een persoon ge¨ınfecteerd wordt met een virale infectieziekte, gaat het adaptief immuunsysteem complexe mechanismen activeren om de gastheer te beschermen. Het adaptief immuunsysteem bestaat uit twee soorten verdedigingsmechanismen: de cel-gemedieerde en de humorale afweer. Het is deze laatste soort die verantwoordelijk is voor de productie van virusspecifieke antilichamen die zorgen voor langetermijnbescherming. Wanneer er geen vaccinatie bestaat, wijst de aanwezigheid van virusspecifieke IgG antilichamen in het bloed op een historische infectie met het virus of op maternele antilichamen bij een pasgeborene. De voornaamste gegevensbron die gebruikt wordt in deze thesis, zijn cross-sectionele databanken bestaande uit bloedstalen. De bloedstalen worden getest met een virusspecifieke ELISA-kit (Enzyme-Linked Immuno Sorbent Assay). De resultaten hiervan worden serologische gegevens genoemd en geven informatie met betrekking tot de immuniteitsstatus van de individuen. Wij focussen hier op de gedichotomiseerde uitkomst van de ELISA-test die weergeeft of een persoon seropositief of seronegatief is voor het virus (current status data). Deze thesis werd gemaakt in een interdisciplinair Belgisch onderzoeksconsortium om simulatiemodellen te ontwikkelen voor infectieziektenoverdracht en controleprocessen, gesteund door het Strategisch BasisOnderzoek (SBO) van het Agentschap voor Innovatie door Wetenschap en Technologie (IWT) in Vlaanderen (project ‘SIMID’, 060081). Het doel van de thesis was om statistische modellen te ontwikkelen gebaseerd op wiskundige modelvergelijkingen, om specifieke parameters te schatten over de persoon-tot-persoon overdracht van infectieziekten, die ofwel endemisch zijn of waarvoor actief gevaccineerd wordt, gebruik makend van gedichotomiseerde serologische gegevens. Een ‘endemische’ infectieziekte is een ziekte die over een langere tijd in een constante frequentie in een bevolking voorkomt. De incidentie van een endemische infectieziekte kan cyclische epidemie¨en ondergaan over de tijd, maar fluctueert steeds rond een stationair gemiddelde. Het schatten van zulke parameters is belangrijk, omdat het helpt om leeftijdsspecifieke patronen van ziekteverspreiding op populatieniveau af te leiden en te begrijpen. Verder worden deze parameters ook gebruikt in modellen om universele vaccinatieprogramma’s te plannen en op te volgen, en om controlemaatregelen (schoolsluiting, vaccinatie, antivirale middelen, enzovoort) te evalueren wanneer een epidemie uitbreekt. Een van die belangrijke parameters is de ‘infectiedruk’, de snelheid waarmee een vatbaar persoon ge¨ınfecteerd wordt met een infectieziekte. Een ander basisconcept is de ‘wie verkrijgt infectie van wie’- matrix (‘Who Acquires Infection From Whom’ of WAIFW matrix). Deze matrix geeft de leeftijdsspecifieke overdrachtsintensiteiten weer over twee dimensies, namelijk de leeftijd van diegene die vatbaar is voor de infectieziekte en de leeftijd van diegene die ge¨ınfecteerd is. Hoe groter de overdrachtsintensiteit tussen twee leeftijdsgroepen, i.e. de frequentie van doeltreffende contacten tussen twee individuen uit deze leeftijdsgroepen, des te groter de kans dat het virus overgedragen wordt, gegeven dat ´e´en van de twee betrokkenen besmettelijk is en de andere vatbaar. In het verleden was het zeer moeilijk om de WAIFW matrix te kwantificeren omdat er geen gegevens waren over contactpatronen. Toen werd de WAIFW matrix voornamelijk geschat met behulp van de methode die gepopulariseerd werd door het boek van Anderson and May (1991). Deze methode veronderstelt dat de WAIFW matrix een bepaalde structuur heeft (mixing pattern) die geparametriseerd wordt onder een aantal beperkingen, zodat alle parameters identificeerbaar zijn. Gebruik makend van de wet van massa-actie voor de leeftijdsspecifieke infectiedruk, worden de parameters vervolgens geschat op basis van serologische gegevens. Hoewel deze Anderson and May (1991) methode een realistischer alternatief aanbiedt voor de sterke veronderstelling van homogeneous mixing, die overeenkomt met een constante WAIFW matrix, zijn er ook nadelen aan verbonden. De keuze van de structuur en de verdeling in leeftijdsgroepen is eerder subjectief en berust op een ‘prior’ idee dat de onderzoeker heeft over sociale contactpatronen of vatbaarheid/besmettelijkheid. Verder houdt de methode sterke parametrische veronderstellingen in die in de praktijk kunnen leiden tot onrealistische discontinu¨ıteiten. Tenslotte kunnen verschillende matrixstructuren in gelijke mate ondersteund worden door de data, terwijl ze verschillende schattingen opleveren voor gerelateerde parameters zoals het basisreproductiegetal (Greenhalgh and Dietz, 1994). Het basisreproductiegetal R0 stelt het gemiddeld aantal secundaire gevallen voor, voortgebracht door ´e´en typisch ge¨ınfecteerd individu in een totaal vatbare populatie. Wallinga et al. (2006) argumenteerden dat enquˆetes over sociale contacten een nuttige bron van informatie zouden zijn om de persoon-tot-persoon overdracht van infectieziekten te modelleren en ze stelden een alternatieve schattingsmethode voor. Ze initieerden de ‘sociale-contact-hypothese’: leeftijdsspecifieke overdrachtsintensiteiten zijn recht evenredig aan frequenties van verbale contacten die geschat kunnen worden vanuit contactbevragingen. Door de geschatte contactfrequenties te integreren in een wiskundig transmissiemodel en dit te contrasteren tot een serologische dataset, kan de WAIFW matrix voor een bepaalde infectieziekte geschat worden. In navolging van dit onderzoek werd in het POLYMOD project een grootschalige enquˆete uitgevoerd over contactgedrag in acht Europese landen (Mossong et al., 2008b). Deelnemers aan de enquˆete dienden gedurende ´e´en dag al hun contacten te rapporteren in een dagboekje. Een contact tussen twee personen werd gedefinieerd als een uitwisseling van tenminste drie woorden in elkaars nabijheid en/of een fysieke aanraking (bijv. een hand of kus geven). Het dagboekje bevat informatie over de deelnemer zelf maar ook details over zijn/haar contacten zoals de leeftijd en het geslacht van de betrokkene en de plaats, duur, frequentie en al dan niet fysieke aard van het contact. In Hoofdstuk 4 hebben we een grondige analyse gemaakt van de Belgische contactenquˆete. In tegenstelling tot de andere Europese landen dienden de deelnemers hun contacten gedurende twee dagen te rapporteren, namelijk tijdens een weekdag en een dag in het weekend. Twee data mining technieken, namelijk associatieregels en classificatiebomen, toonden aan dat er robuuste associaties bestaan tussen verschillende indicatoren van ‘intieme’ contacten i.e. met een hoger risico op infectieziekteoverdracht. Deze indicatoren zijn bijvoorbeeld contacten die thuis plaatsvinden, langer dan vier uur duren, dagelijks gebeuren of gepaard gaan met fysieke aanrakingen. Het effect van verschillende factoren op het totaal aantal gerapporteerde contacten werd onderzocht, gebruik makend van weighted generalized estimating equations zodat de correlatie tussen de twee dagen in rekening gebracht kon worden. We stelden vast dat het aantal gerapporteerde contacten stijgt wanneer de huishoudgrootte toeneemt. Hetzelfde effect werd geobserveerd bij kinderen wanneer het aantal leerlingen in de klas toeneemt en bij volwassenen wanneer ze tewerkgesteld zijn of voortgezet onderwijs volgen. Anderzijds is er tijdens de schoolvakantie een significante daling van de dagelijkse contactfrequentie voor kinderen en adolescenten. In Hoofdstuk 5 hebben we de methodologie van Wallinga et al. (2006) om de WAIFW matrix te schatten gebruik makend van sociale contactgegevens, verder verfijnd in een toepassing voor waterpokken in Belgi¨e. We hebben een flexibel alternatief voorgesteld voor de laagdimensionale, parametrische schattingsmethode voor contactfrequenties: een semiparametrisch, bivariaat smoothing model dat toelaat om een continu 3D contactoppervlak te schatten. Dit levert een betere fit op voor de sociale contactgegevens. Via deze schattingsmethode vinden we voor alle Europese landen in het POLYMOD project een gemeenschappelijk patroon terug: mensen maken voornamelijk contact met leeftijdsgenoten en met hun (klein)kinderen of (groot)ouders. Er is echter nog ruimte voor verbetering, aangezien het model geen rekening houdt met nul-inflatie, digit preference of clustering van het aantal contacten, hoewel de laatste twee aspecten in rekening worden gebracht in de niet-parametrische bootstrap procedure voor de overdrachtsintensiteiten. Naast de variabiliteit die voortkomt uit de serologische data, erkent deze procedure immers ook die variabiliteit die voortkomt uit de contactgegevens. Dit heeft een duidelijk effect op de precisie van de parameterschattingen. De sociale-contact-hypothese van Wallinga et al. (2006) dat de WAIFW matrix recht evenredig is aan het contactoppervlak, kan in vraag gesteld worden. De contacten die gerapporteerd worden in de enquˆete gelden immers als benadering voor die gebeurtenissen waarbij een infectie via de lucht overgedragen zou kunnen worden en zijn zeker niet alomvattend. Verder kan het zijn dat er leeftijdsspecifieke karakteristieken bestaan met betrekking tot vatbaarheid en besmettelijkheid die niet vervat zitten in de contactfrequenties, zoals het aantal dagen dat men besmettelijk is, afscheiding van slijmen en persoonlijke hygi¨ene. Een verbeterde fit voor de seroprevalentie van het waterpokkenvirus wordt verkregen via een nieuwe methode waarbij de WAIFW matrix ontrafeld wordt in twee leeftijdsspecifieke variabelen: het contactoppervlak en een leeftijdsspecifieke evenredigheidsfactor q(a, a′ ). Ondanks het feit dat de methode gebaseerd op sociale contactgegevens de belangrijkste nadelen van de traditionele Anderson and May (1991) methode aanpakt, blijven er twee aspecten van onzekerheid bestaan: de keuze van het soort contact dat de eigenlijke overdracht van infectieziekten drijft, en de keuze van een (parametrisch) model dat het contactoppervlak relateert tot de overdrachtsintensiteiten. Van vijf pre-gedefinieerde soorten van contacten bleken contacten die langer duren dan 15 minuten en gepaard gaan met een fysieke aanraking, het best in staat te zijn om het leeftijdsspecifiek serologisch profiel voor het waterpokkenvirus te beschrijven. Conditioneel op dit soort contact, resulteerden verschillende modellen voor q(a, a′ ) in een gelijkaardige fit, doch met verschillende schattingen voor het basisreproductiegetal R0. Concepten van multi-model inferentie werden toegepast om dit probleem van modelselectie-onzekerheid te overbruggen, waarbij een model-gemiddelde schatting werd berekend voor R0. Verder werd in deze thesis de ‘sociale contact’-methodologie uit Hoofdstuk 5 uitgebreid om fundamentele immunologische processen voor parvovirus B19 (PVB19) te kunnen bestuderen. Algemeen wordt aangenomen dat de IgG antilichamen, die door de mens aangemaakt worden na een infectie met PVB19, levenslange bescherming bieden (MSIR model). In dat geval zou het geobserveerd percentage seropositieven monotoon moeten toenemen over de leeftijd. Verschillende databronnen vertonen echter een seroprevalentie waarbij een steile, monotone stijging over de leeftijd gevolgd wordt door een dal of plateau voor volwassenen tussen 20 en 40 jaar. In Hoofdstuk 6 hebben we aangetoond dat andere compartimentele modellen meer plausibel zijn voor de geobserveerde leeftijdsspecifieke serologische profielen in vier van de vijf bestudeerde Europese landen. Enerzijds betreft dit het MSIRW model waarbij antilichamen langzaam afnemen over de tijd mogelijks gevolgd door een natuurlijke boosting van het immuunsysteem door contact met iemand die besmet is met PVB19. Anderzijds betreft dit het MSIRS model waarbij men na een periode van bescherming terug vatbaar wordt voor een PVB19 infectie. Deze modellen zijn meer plausibel in vergelijking met de hypothese van levenslange immuniteit. Op basis van ´e´en seroprevalentiestudie is het echter moeilijk te zeggen of een scenario van boosting van lage immuniteit (MSIRW) al dan niet een scenario van re¨ınfecties (MSIRS) het meest waarschijnlijk is voor PVB19. Nochtans is dit belangrijk gezien de impact op de geschatte leeftijdsspecifieke infectiedruk en het daaraan gerelateerd risico van een infectie tijdens de zwangerschap. De geschatte frequentie van een PVB19 infectie tijdens de zwangerschap en het jaarlijks aantal vruchtdoden dat daaraan te wijten is, verschillen niet sterk voor een MSIRW en een MSIR model. Zo vari¨eren de schattingen voor het jaarlijks aantal vruchtdoden tussen 23 en 31 voor Belgi¨e in 2003. Maar gebaseerd op een MSIRS scenario, waarbij iemand gedurende zijn/haar leven meerdere infecties kan ondergaan, wordt het risico van een PVB19 infectie tijdens de zwangerschap wel veel hoger geschat, tot 77 jaarlijkse vruchtdoden in Belgi¨e (2003). Dit is mogelijk omdat de meeste secundaire infecties waarschijnlijk zonder specifieke of met atypische symptomen verlopen en dus niet opgemerkt worden door traditionele rapporteringssystemen. minuten en gepaard gaan met een fysieke aanraking, het best in staat te zijn om het leeftijdsspecifiek serologisch profiel voor het waterpokkenvirus te beschrijven. Conditioneel op dit soort contact, resulteerden verschillende modellen voor q(a, a′ ) in een gelijkaardige fit, doch met verschillende schattingen voor het basisreproductiegetal R0. Concepten van multi-model inferentie werden toegepast om dit probleem van modelselectie-onzekerheid te overbruggen, waarbij een model-gemiddelde schatting werd berekend voor R0. Verder werd in deze thesis de ‘sociale contact’-methodologie uit Hoofdstuk 5 uitgebreid om fundamentele immunologische processen voor parvovirus B19 (PVB19) te kunnen bestuderen. Algemeen wordt aangenomen dat de IgG antilichamen, die door de mens aangemaakt worden na een infectie met PVB19, levenslange bescherming bieden (MSIR model). In dat geval zou het geobserveerd percentage seropositieven monotoon moeten toenemen over de leeftijd. Verschillende databronnen vertonen echter een seroprevalentie waarbij een steile, monotone stijging over de leeftijd gevolgd wordt door een dal of plateau voor volwassenen tussen 20 en 40 jaar. In Hoofdstuk 6 hebben we aangetoond dat andere compartimentele modellen meer plausibel zijn voor de geobserveerde leeftijdsspecifieke serologische profielen in vier van de vijf bestudeerde Europese landen. Enerzijds betreft dit het MSIRW model waarbij antilichamen langzaam afnemen over de tijd mogelijks gevolgd door een natuurlijke boosting van het immuunsysteem door contact met iemand die besmet is met PVB19. Anderzijds betreft dit het MSIRS model waarbij men na een periode van bescherming terug vatbaar wordt voor een PVB19 infectie. Deze modellen zijn meer plausibel in vergelijking met de hypothese van levenslange immuniteit. Op basis van ´e´en seroprevalentiestudie is het echter moeilijk te zeggen of een scenario van boosting van lage immuniteit (MSIRW) al dan niet een scenario van re¨ınfecties (MSIRS) het meest waarschijnlijk is voor PVB19. Nochtans is dit belangrijk gezien de impact op de geschatte leeftijdsspecifieke infectiedruk en het daaraan gerelateerd risico van een infectie tijdens de zwangerschap. De geschatte frequentie van een PVB19 infectie tijdens de zwangerschap en het jaarlijks aantal vruchtdoden dat daaraan te wijten is, verschillen niet sterk voor een MSIRW en een MSIR model. Zo vari¨eren de schattingen voor het jaarlijks aantal vruchtdoden tussen 23 en 31 voor Belgi¨e in 2003. Maar gebaseerd op een MSIRS scenario, waarbij iemand gedurende zijn/haar leven meerdere infecties kan ondergaan, wordt het risico van een PVB19 infectie tijdens de zwangerschap wel veel hoger geschat, tot 77 jaarlijkse vruchtdoden in Belgi¨e (2003). Dit is mogelijk omdat de meeste secundaire infecties waarschijnlijk zonder specifieke of met atypische symptomen verlopen en dus niet opgemerkt worden door traditionele rapporteringssystemen.
Document URI: http://hdl.handle.net/1942/12213
Category: T1
Type: Theses and Dissertations
Appears in Collections:PhD theses
Research publications

Files in This Item:
File Description SizeFormat 
Printversie def thesis Goeyvaerts Nele.pdf6.84 MBAdobe PDFView/Open
Show full item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.