Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/19174
Title: Semi-Parametric Methods for Applications in Survey Data and Geostatistical Data
Authors: VANDENDIJCK, Yannick 
Advisors: FAES, Christel
HENS, Niel
Issue Date: 2015
Abstract: Classical linear regression models involve relating a response variable as a linear function of one or more covariates. In practice, however, many relationships between a response and a covariate are non-linear. A standard statistical technique to model these kind of relationships are smoothing splines. A spline function consists of polynomials with the polynomial pieces joining at the so-called knots. In this thesis, we make use of penalized splines to deal with problems encountered in applications of survey data and geostatistical data. To fit the penalized splines, the useful property that penalized splines can be cast in a (generalized) linear mixed model is used. This property is based on the connection between the mixed components in a (generalized) linear mixed model and the penalization of the spline coefficients to overcome overfitting. These (generalized) linear mixed models are fit within the likelihood framework. Besides fitting models within the likelihood paradigm, Bayesian approaches are considered in some chapters. In that case, non-linear relationships between a response and a covariate are modelled using random walks which are the stochastic analogue of P-splines of degree zero. In the first part of the thesis, applications on survey datasets are of interest. Statistical surveys are used to collect quantitative information from a specific population. In Chapters 3, 4 and 5, the focus is on a survey for which the sampling design is out of the control of the researcher (a non-probabilistic design). Whereas, in Chapters 6 and 7, the focus is on surveys for which the sampling design is known. To reflect this sampling design survey weights are attached to each observation which represent the probability to be included in the survey. The success of surveys with a non-probabilistic design depends on the representativeness of the sample with respect to the target population of interest. Surveys with a non-probabilistic sampling design are known to produce biased samples and techniques are needed to account for this. The Great Influenza Survey (GIS) is such a survey where who is observed is out of the control of the researcher. The GIS is an online survey, open for everyone, aiming at the surveillance of influenza-like illness (ILI) in the general population. In Chapter 3, we assess the validity of the GIS in Flanders with respect to the representativeness of the survey population and ILI incidence time trends. We observe that the age distribution of the survey population is dissimilar to the age distribution of the general population. Since ILI incidence and age are related we expect that ILI attack rates and incidence rates estimated from the GIS, without correcting for the dissimilar age distribution, are biased. To correct for the difference between the age distribution of the survey sample and the general population post-stratification weights can be calculated. Standard estimates using these post-stratification weights can then be calculated to obtain ILI attack rates and incidence rates, but these estimates are inefficient when highly variable post-stratification weights are present. This problem is the motivation for the statistical methods proposed in Chapters 4 and 5. In these two chapters, we investigate statistical methods that can reduce variability in prevalence and trend estimation of binary survey outcomes when high post-stratification weights are present. In Chapter 4, we describe the weight smoothing model for prevalence estimation. Penalized splines are used in the weight smoothing model to allow for a flexible relationship between the post-stratum means and the post-stratifying variable. Since a prevalence estimate based on the weight smoothing model is not robust against model misspecification, a model-assisted design-based generalized regression estimator is proposed. In the chapter, we also present how appropriate estimates of the variance of the estimators can be obtained. We show in a simulation study that our proposed methods perform the most consistent and robust over all simulation conditions. As an application of the proposed methods, we apply the estimators to the Great Influenza Survey to estimate the ILI attack rate during the 2010-2011 influenza season. Whereas Chapter 4 deals with prevalence estimation from surveys with highly dispersed post-stratification weights, the focus in Chapter 5 is on trend estimation. We extend the ideas developed in Chapter 4 to incorporate a time trend in the weight smoothing model which is modelled through a penalized spline function. In a simulation study, we clearly observe the benefit of the model-assisted design-based generalized regression estimator in the case of model misspecification. Again the GIS is considered as an application, namely ILI incidence rates during the 2010-2011 influenza season are estimated. Surveys with a probabilistic design and thus surveys with accompanying survey weights are of interest in Chapters 6 and 7. More specific, we investigate statistical methods that deal with survey weights in small area estimation. The goal of small area estimation is providing reliable estimates of characteristics such as means and totals for areas or domains for which only small samples or no samples are available. In Chapter 6, an overview of often used models in small area estimation is presented. In Chapter 7, we propose a predictive model-based approach to small area estimation with design weights. As predicting model, a hierarchical Bayesian model is used in which the outcome is regressed on the sampling weight using a random walk. The model also accounts for the spatial structure in the data. To make predictions using the model, the sampling weights themselves are modelled. In a simulation study, we observe that the proposed model-based approach performs at least as well as other methods dealing with survey weights in small area estimation. As an application, asthma prevalences are calculated for the 43 districts in Belgium using the 2001 Health Interview Survey. In the second part of this thesis, statistical methods dealing with the analysis of geostatistical data are of interest. The goal of geostatistics is the production of a (prediction) map of a quantity of interest over particular domain based on, usually noisy, measurements taken at several locations over the domain. In this thesis, only Gaussian geostatistical response data is considered. In Chapter 8 the basics of two geostatistical prediction methods, namely kriging and splines, are described. Both methods, however, suffer from some disadvantages. In kriging, for example, it is not common to take non-linear relationships between the response and a covariate into account. In addition, kriging methods are not capable of accounting for clustered observations or multiple measurements at one location. The main criticism against the use of smoothing splines is the fact that the spatial autocorrelation is not accounted for. These disadvantages are the motivation of Chapter 9 where we propose the concept of K-splines. K-splines are an extension of the geoadditive model such that the spline function estimates the underlying spatial process with similar accuracy and precision as in kriging. Radial basis functions of the form of often used covariance functions are used as spline basis functions. These radial basis functions require a choice for the spatial decay parameter. We propose to estimate this parameter via the likelihood approach. The mixed model presentation of the K-splines enables one to easily take into account other model complexities such as non-linear covariate effects, clustered observations or multiple measurements at one spatial location. In a simulation study, K-splines are compared with kriging and the standard geoadditive model in terms of both the estimation of the underlying process and the prediction of the underlying surface. The results indicate that K-splines perform similar as kriging and outperform the standard geoadditive model in simple geostatistical data cases. In more complex cases, such as non-linear covariate effects or clustered observations, K-splines outperform the other methods. To evaluate K-splines on real-life data examples we apply them on precipitation data and on pollution data of heavy metals in the soil. The proposed methodology of K-splines is still basic and much more developments could be made.
In klassieke lineaire regressiemodellen wordt een responsvariabele gemodelleerd als een lineaire functie van ´e´en of meer covariabelen. Echter, in praktijk zijn vele relaties tussen een responsvariabele en een covariabele vaak niet-lineair. Een standaard statistische techniek om dit soort relaties te modelleren is het gebruik van smoothing splines. Een spline functie is een serie van polynomiale functies waarvan de verschillende polynomialen aan elkaar worden gekoppeld bij de zogenoemde knopen. In deze thesis maken we gebruik van gepenaliseerde splines om enkele problemen met toepassingen in enquˆetedata en geostatistische data aan te pakken. Om deze gepenaliseerde splines te fitten maken we gebruik van de eigenschap dat gepenaliseerde splines gefit kunnen worden door ze te schrijven als een (gegeneraliseerd) lineair gemengd model. Deze eigenschap gebruikt de connectie tussen de gemengde componenten in een (gegeneraliseerd) lineair gemengd model en het penaliseren van de spline co¨effici¨enten om overfitten van de data te voorkomen. De bekomen (gegeneraliseerde) lineair gemengde modellen worden gefit binnen het likelihood kader. Naast het fitten van modellen in dit kader, maken we ook gebruik van het Bayesiaanse kader in enkele hoofdstukken. Binnen dit kader worden niet-lineaire relaties tussen een responsvariabele en een covariabele gemodelleerd door middel van toevalsbewegingen omdat deze laatste de stochastische evenknie zijn van gepenaliseerde splines van graad nul. In het eerste deel van deze thesis staan de toepassingen op enquˆetedata centraal. Enquˆetes worden gebruikt om kwantitatieve gegevens over een bepaalde populatie te bekomen. In Hoofdstukken 3, 4 en 5 ligt de focus op enquˆetes waarvan het steekproefdesign niet onder controle is van de onderzoeker en dus ook ongekend (een zogenoemd niet-probabilistisch steekproefdesign). In hoofdstukken 6 en 7 focussen we dan weer op enquˆetes waarvan het steekproefdesign gekend is. Dit design wordt gereflecteerd door enquˆetegewichten die de kans weergeven voor specifieke individuen om opgenomen te worden in de enquˆete. Het succes van enquˆetes met een niet-probabilistisch steekproefdesign hangt sterk af van de representativiteit van de steekproefpopulatie en de algemene populatie waarvan we informatie willen bekomen. Bij enquˆetes met een niet-probabilistisch steekproefdesign bekomt men vaak vertekende steekproeven en er zijn bijgevolg statistische technieken nodig om dit in rekening te brengen. De Grote GriepMeting (GGM) is een voorbeeld van zo een enquˆete waar de onderzoeker niet onder controle heeft wie er wordt opgenomen in de enquˆete. De GGM is een online enquˆete waaraan iedereen kan deelnemen. Het doel van de GGM is de surveillantie van griepachtige ziektebeelden (influenza-like illness = ILI) in de algemene populatie. In Hoofdstuk 3 onderzoeken we de validiteit van de GGM in Vlaanderen met betrekking tot de representativiteit van de steekproefpopulatie en de bekomen ILI incidentietendensen. Het blijkt dat de leeftijdsverdeling van de steekproefpopulatie zeer verschillend is van de leeftijdsverdeling van de algemene populatie. Omdat we weten dat leeftijd en ILI incidentie afhankelijk zijn bekomen we vertekende schattingen van de ILI attack rates en ILI incidentietrends wanneer we niet zouden corrigeren voor deze sterk afwijkende leeftijdsverdelingen. Om voor de verschillen in de leeftijdsverdelingen te corrigeren kunnen we gebruik maken van post-stratificatiegewichten. Veel gebruikte schatters die deze post-stratificatiegewichten in rekening brengen kunnen dan worden gebruikt om ILI attack rates and ILI incidentie trends te berekenen. Spijtig genoeg zijn deze schatters ineffici¨ent wanneer deze post-stratificatiegewichten veel variabiliteit vertonen. Dit probleem was de motivatie voor de statistische methoden die we ontwikkelen in Hoofdstukken 4 en 5. In deze twee hoofdstukken onderzoeken we statistische methoden die de variabiliteit doen afnemen van prevalentie- en incidentieschattingen gebaseerd op binaire uitkomsten van een enquˆete met post-stratificatiegewichten die veel variabiliteit vertonen. In Hoofdstuk 4 beschrijven we het weight smoothing model voor het bekomen van prevalentieschattingen. Gepenaliseerde splines worden gebruikt in het weight smoothing model om flexibele relaties toe te laten tussen de poststratificatiegemiddelden en de post-stratificatievariabele. Omdat prevalentieschattingen bekomen door middel van het weight smoothing model niet robuust zijn tegen een eventuele modelmisspecificatie, stellen we ook een model-geholpen design-gebaseerde gegeneraliseerde regressieschatter voor. In dit hoofdstuk, geven we ook de details hoe variantie schatters voor deze schatters bekomen kunnen worden. In een simulatiestudie tonen we aan dat de door ons voorgestelde methoden het meest consistent en robuust presteren over alle beschouwde simulatiesituaties. Als toepassing in dit hoofdstuk gebruiken we de GGM van het 2010-2011 griepseizoen om ILI attack rates te schatten aan de hand van de voorgestelde schatters. Waar de focus in Hoofstuk 4 prevalentieschattingen zijn, concentreren we ons in Hoofdstuk 5 op tendensschattingen gebaseerd op enquˆetes met poststratificatiegewichten die veel variabiliteit vertonen. We breidden de idee¨en ontwikkeld in Hoofdstuk 4 uit door een tijdscomponent op te nemen in het weight smoothing model. Deze component wordt gemodelleerd door middel van gepenaliseerde splines. In een simulatiestudie blijkt duidelijk dat de voorgestelde model-geholpen designgebaseerde gegeneraliseerde regressieschatter goed presteert in geval van modelmisspecificatie. De GGM wordt weer gebruikt als toepassing. ILI incidentieratio’s tijdens het 2010-2011 influenza seizoen worden geschat aan de hand van de ontwikkelde methoden. Enquˆetes met een probabilistisch design − en dus enquˆetes met bijhorende enquˆetegewichten − zijn de focus in Hoofdstukken 6 en 7. Om meer specifiek te zijn, we onderzoeken statistische methoden die enquˆetegewichten in rekening brengen bij small area schattingen. Het doel van small area schattingen is het bekomen van goede en betrouwbare schatters van bepaalde karakteristieken zoals gemiddelden en totalen voor gebieden (vb. arrondissementen, gemeenten,. . . ) waarvan enkel een kleine steekproef of geen steekproef aanwezig is. In Hoofdstuk 6 geven we een overzicht van veel gebruikte modellen binnen het domein van small area schattingen. In Hoofdstuk 7 stellen we een voorspellende modelgebaseerde methode voor om small area schattingen te bekomen aan de hand van enquˆetes met bijhorende enquˆetegewichten. Een hi¨erarchisch Bayesiaans model waarin de uitkomst wordt gemodelleerd op de enquˆetegewichten door middel van toevalsbewegingen wordt gebruikt als voorspellend model. Het model houdt ook rekening met de spatiale structuur van de data. Om de voorspellingen te kunnen maken dienen de enquˆetegewichten ook zelf gemodelleerd te worden. In een simulatiestudie laten we zien dat de door ons voorgestelde schatter minstens even goed presteert als andere methoden die enquˆetegewichten in rekening brengen binnen het domein van small area schattingen. Als toepassing schatten we astmaprevalenties overheen de 43 arrondissementen in Belgi¨e door gebruik te maken van de 2001 Gezondheidsenquˆete. In het tweede deel van deze thesis ligt de focus op de ontwikkeling van statistische methoden voor toepassingen in geostatistische data. Het doel van geostatistiek is de productie van een (voorspellende) kaart voor een variabele over een spatiaal domein. Dit gebeurt aan de hand van observaties − meestal geobserveerd met ruis − genomen op locaties over het spatiaal domein. In deze thesis focussen we enkel op normaal verdeelde geostatistische uitkomsten. In Hoofdstuk 8 beschrijven we de basisconcepten van twee veelgebruikte geostatistische methoden, namelijk kriging en splines. Beide methoden hebben echter enkele nadelen. Bij kriging is het bijvoorbeeld zeer ongewoon om niet-lineaire relaties tussen de uitkomsten en covariabelen in rekening te brengen. Verder is het niet mogelijk om bij kriging methoden rekening te houden met geclusterde observaties of met meerdere observaties op eenzelfde locatie. Daartegenover staat dat de belangrijkste kritiek tegen spline gebruik in geostatistiek het feit is dat er geen rekening wordt gehouden met de spatiale autocorrelatie. Deze nadelen van beide methoden zijn de motivatie voor het ontwikkelen van het concept K-splines in Hoofdstuk 9. K-splines zijn een uitbreiding van het geoadditieve model waarin de gebruikte spline functies het onderliggend spatiaal proces (de spatiale autocorrelatie) met dezelfde accuraatheid en precisie schatten als in kriging. Radiale basisfuncties van de vorm van veel gebruikte covariantiefuncties worden gebruikt als spline basisfuncties. Men moet een keuze maken voor de spatiale-afname-parameter bij deze radiale basisfuncties. Wij stellen voor om deze parameter te schatten binnen het likelihood kader. De lineair gemengde modelrepresentatie van K-splines maakt het mogelijk om uitbreidingen zoals niet-lineaire covariabele effecten, geclusterde gegevens of meerdere observaties op eenzelfde locatie makkelijk op te nemen. In een simulatiestudie vergelijken we de prestaties van K-splines met kriging methoden, spline methoden en het standaard geoadditief model in termen van schatten van het onderliggend spatiaal proces en de predicties van een voorspellende kaart. De resultaten van de simulatie tonen dat K-splines analoog presteren als kriging en beter presteren dan het standaard geoadditief model voor simpele datavoorbeelden. Voor meer complexe scenario’s, zoals niet-lineaire covariabele effecten of geclusterde gegevens, zijn de prestaties van de K-splines beter. Om K-splines te evalueren op levensechte datasets gebruiken we regenvaldata en data in verband met de vervuiling van de bodem door zware metalen. De voorgestelde methodologie van K-splines is nog zeer basis, maar er kunnen nog vele uitbreidingen in de toekomst worden aangebracht.
Document URI: http://hdl.handle.net/1942/19174
Category: T1
Type: Theses and Dissertations
Appears in Collections:PhD theses
Research publications

Files in This Item:
File Description SizeFormat 
thesis_YV_20150925.pdf11.54 MBAdobe PDFView/Open
Show full item record

Page view(s)

28
checked on Sep 6, 2022

Download(s)

20
checked on Sep 6, 2022

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.