Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/31872
Title: Hierarchical models for the analysis of spatial health surveys with missing information at individual and areal level
Authors: WATJOU, Kevin 
Advisors: Faes, Christel
Issue Date: 2020
Abstract: Statistics are used to draw conclusions from a population of interest, based on a representative sample. Surveys are a frequent example of a sample, where people, sampled from the population, answer questions or fill out a questionnaire. The distribution of certain characteristics (e.g. age, sex, socioeconomic status) between sample and population may differ. In order to account for this difference, a survey weight is assigned to every person in the sample. When conducting a survey, some respondents do not want to or are unable to answer certain questions. This introduces incomplete data when analyzing the survey. It is important for researchers to deal with the missing data in a correct way, in order to avoid biased estimates. Therefore, an assumption has to be made for the reason why someone did not respond to the question of interest. We distinguish three possibilities: (1) the missingness is completely random (MCAR), (2) the missingness depends solely on the observed measurements, independent of the unobserved measurements (MAR) and (3) the missingness depends on both the observed and unobserved measurements (MNAR)(Rubin, 1976). In this thesis, we investigate models which can correctly analyse survey data with missing observations. Furthermore, we account for the spatial context of the data. Estimates are provided at the level of “small areas” (e.g. districts, counties, provinces). The measurements of areas which are close to each other are assumed to be more alike than those of areas which are more distant. The goal of this thesis is to develop methodology which can analyse these three types of data simultaneously. In Chapter 2, the impact of missing data in health surveys was evaluated when estimating area-specific prevalences. The methods described by Mercer et al. (2014) and Vandendijck et al. (2016) served as a foundation, and vary from the unweighted mean in the frequentist framework to the unit-specific spatial random effects model in the Bayesian framework. To account for missing observations in the analysis, a new missingness weight was defined. The inclusion of this missingness weight can correct for distributional shifts, caused by missing data. An extensive simulation study showed that unbiased estimates for the prevalence were yielded under the MCAR and MAR assumption. However, under the MNAR assumption the missingness weight did not have enough support to account for the missing data, as expected. Furthermore, we define a new weight smoothing model, which can model the survey design and the missing data in a flexible, non-linear way. This model produced the best results when a strong spatial effect is present in the data. The 2001 Belgian Health Interview Survey (HIS) was used as an application. The perceived health of respondents was investigated using the proposed models for the 43 administrative districts. Chapter 3 further extended these weight smoothing models by adding covariate information. The analysis was carried out under the MAR assumption. The 2013 Florida Behavioral Risk Factor Surveillance System (BRFSS) was used as an example. The proportion of inhabitants without health insurance coverage was the outcome of interest for the 67 counties. The income of the inhabitants was incorporated in the weight smoothing model as a covariate on the one hand and by means of a subgroup analysis on the other hand. Finally, the direct standardized rate was determined, which corrects for risk factors and allows us to directly compare the results from different counties. Due to economical or practical reasons, it might occur that not every area is included in the survey. As such, it is more difficult to produce unbiased estimates for the areas missing in the sample. In Chapter 4, methods were introduced to cope with the lack of information in these unsampled areas. Again, the methods from Mercer et al. (2014) were used as a foundation in the analysis. The simulation study showed that the results remained stable if about 75% of the intended areas were included in the survey. Furthermore, a strong spatial effect in the data implied that the results remained stable longer as more areas were missing from the survey. Next, we demonstrated a new methodology to improve the estimates for non-sampled areas, using census data about certain population characteristics. While this method had no effect on the results of the sampled areas, the results for the non-sampled areas greatly improved, given that the support for these areas was strong enough. Lastly, this new methodology was applied to the 2008 Mozambique Poverty and Social Impact Analysis (PSIA) survey, where the proportion of school attendance was investigated for the 125 districts. Finally, in Chapter 5, the performance of several multivariate methods were compared in order to model two outcome variables. Since these two outcome variables can be correlated, it is important to include this correlation when constructing the model. Four spatial multivariate models were considered in this chapter. The correlated random effects models produced the best results, highlighting the importance of including the correlation structure between the two outcome variables in the analysis. This was illustrated using the 2013 Florida BRFSS survey, where the prevalences of asthma and COPD were jointly estimated.
models produced the best results, highlighting the importance of including the correlation structure between the two outcome variables in the analysis. This was illustrated using the 2013 Florida BRFSS survey, where the prevalences of asthma and COPD were jointly estimated. meten bij het schatten van gebiedsspecifieke prevalenties. Hierbij werd er verder gebouwd op methodologie die reeds werd beschreven door Mercer et al. (2014) en Vandendijck et al. (2016). Deze modellen variëren van het ongewogen gemiddelde uit het frequentistische kader tot een persoonsgebonden spatiaal random effect model binnen het Bayesiaanse kader. Om de ontbrekende gegevens mee in rekening te nemen bij de analyse werd een nieuw “missingness-”gewicht gedefinieerd. Door dit gewicht mee in de modellen op te nemen, kunnen eventuele verschuivingen in verdeling door de ontbrekende data gecorrigeerd worden. Uit een uitgebreide simulatiestudie volgde dat onder de MCAR- en MAR-assumptie correcte schattingen werden verkregen voor de prevalenties. In het MNAR-scenario had, zoals verwacht, het nieuwe missingess-gewicht echter niet genoeg draagkracht om de ontbrekende data op te vangen. Bovendien definiëren we een nieuw weight smoothing model waarbij het design van de studie en de ontbrekende gegevens op een flexibele, niet-lineaire manier apart werden gemodelleerd. Dit model presteerde het beste wanneer er een sterk spatiaal effect in de data aanwezig was. Als toepassing werd in dit hoofdstuk de Belgische gezondheidsenquête (HIS) uit 2001 gebruikt. Hierbij werd de waargenomen gezondheid van ondervraagden onderzocht aan de hand van de voorgestelde modellen voor de 43 administratieve arrondissementen. Hoofdstuk 3 ging verder in op deze modellen en breidde deze nog verder uit door een verklarende variabele in het weight smoothing model toe te voegen. De analyse gebeurde onder de MAR-assumptie. Hierbij werd de Florida Behavioral Risk Factor Surveillance System (BRFSS) enquête uit 2013 ter illustratie gebruikt. Het percentage inwoners zonder ziekteverzekering werd als uitkomstvariabele onderzocht binnen de 67 provincies in Florida. In de analyse met het weight smoothing model werd het inkomen van de ondervraagde personen mee in rekening genomen, enerzijds als verklarende variabele, anderzijds met behulp van een subgroepanalyse. Tenslotte berekenen we met behulp van het flexibele weight smoothing model de direct standardized rate, waardoor we kunnen corrigeren voor risicofactoren en de gebieden rechtstreeks met elkaar kunnen vergelijken. Uit economische of praktische overwegingen kan het voorkomen dat niet ieder gebied in de populatie mee in rekening genomen worden in de enquête. Hierdoor wordt het moeilijker om een correcte schatting te geven voor die ontbrekende gebieden. In Hoofdstuk 4 werden methodes onderzocht om het gebrek aan informatie in deze gebieden op te vangen. Opnieuw werden de modellen gebruikt uit Mercer et al. (2014) als basis gebruikt in de analyse. Uit een simulatiestudie bleek dat de resultaten stabiel bleven indien ongeveer 75% van de beoogde gebieden in de steekproef werden opgenomen. Verder zorgde een sterk spatiaal effect in de data ervoor dat de geschatte parameters langer stabiel blijven naarmate meer gebieden uit de steekproef zouden ontbreken. Vervolgens demonstreerde we een nieuwe methodologie om betere schattingen te krijgen voor de niet-bevraagde gebieden door gebruik te maken van algemene populatiedata over karakteristieken van de populatie. Hoewel deze werkwijze geen effect had op de gebieden in de steekproef, was er een sterke verbetering zichtbaar voor de niet-bevraagde gebieden, mits het draagvlak sterk genoeg was. Tenslotte werd deze nieuwe methodologie toegepast op de Poverty and Social Impact Analysis (PSIA) enquête uit 2008, uitgevoerd in Mozambique. De variabele die hierbij werd onderzocht was de schoolaanwezigheid binnen 125 districten. Tenslotte werden in Hoofdstuk 5 methodes vergeleken om twee uitkomsten tegelijkertijd te modelleren. Aangezien deze twee uitkomstvariabelen gecorreleerd kunnen zijn, is het belangrijk om deze parameter mee in rekening te nemen bij het opstellen van het model. Vier spatiale multivariate modellen werden opgesteld en vergeleken. Het gecorreleerd random effect model presteerde hierbij het beste, waardoor het belang werd getoond om de correlatiestructuur tussen beide uitkomstvariabelen mee in rekening te nemen bij de analyse. Dit werd geïllustreerd aan de hand van de Florida BRFSS studie uit 2013 waarbij de prevalenties van astma en chronische obstructieve longziekte werden geschat.
Document URI: http://hdl.handle.net/1942/31872
Category: T1
Type: Theses and Dissertations
Appears in Collections:Research publications

Files in This Item:
File Description SizeFormat 
Ordner1.pdf
  Until 2025-09-08
11.51 MBAdobe PDFView/Open    Request a copy
Show full item record

Page view(s)

166
checked on Sep 7, 2022

Download(s)

12
checked on Sep 7, 2022

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.