Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/25992
Title: Nonparametric Statistics with Shape Constraints and Censored Data
Authors: HENDRICKX, Kim 
Advisors: VERHASSELT, Anneleen
JANSSEN, Paul
Groeneboom, Piet
Issue Date: 2018
Abstract: Statistical models are used to analyze data and to search for relationships between observed variables. In many models, shape constraints are imposed and therefore, the procedures that are developed to analyze the data need to include the shape restriction. In the first part of this thesis, we discuss statistical applications that have to take a monotonicity constraint into account. The specific problems are discussed in more detail in the Introduction of Part I. In Chapter 2, we model a linear relationship between a response variable and a set of covariate variables. The covariates are fully observed but the response variable is subject to type 1 interval censoring. Instead of observing the response, a censoring variable is observed together with an indicator informing about whether or not the unobserved response lies before or after the censoring variable. This type of censored data is known as current status data. One could say that each observation indicates the current status of the response at the observed censored value. The objective of Chapter 2 is to estimate the regression parameters that describe the linear relationship in the covariates based on observations for the censoring variable, the indicator and the covariates. A well-known technique to obtain the estimators in a regression model is the maximum likelihood approach, where the estimators are defined by the regression parameters that maximize the likelihood of the observed data. The censored nature of the data results in a monotonicity constraint for a function that appears in the likelihood function of the data. Since the eighties, researchers have investigated the behavior of this so-called maximum likelihood estimator (MLE) of the regression parameters in the current status linear regression model and a lot of open questions still exist. We derive a score function from the likelihood function and develop estimators that are defined by the root of this score function. Consequently, our score estimators still depend on the behavior of the MLE. Based on the asymptotic study of the score estimators, we are able to answer questions for the score estimators, that are still unsolved questions for the MLE. It is the first time that estimators for the regression parameters are developed that depend on the behavior of the maximum likelihood procedure and that converge at the parametric rate to the true regression parameters in the current status linear regression model. In Chapter 3, we focus on estimating the distribution function of the response variable in absence of covariate information. The available data consists of censoring variables and censoring indicators. The distribution function, which completely defines the behavior of the response, is a monotone increasing function. The aim of Chapter 3 is to construct pointwise confidence intervals for this unknown distribution function. The principle of maximum likelihood can again be used to estimate the distribution function under a monotonicity constraint. We call this estimator the MLE of the distribution function. Confidence intervals can be centered around this MLE using a bootstrap procedure which consists of resampling data from the observed sample. It was proved in Abrevaya and Huang (2005) that a combination of the MLE with the classical nonparametric bootstrap proposed by Efron (1979) leads to incorrect confidence intervals for the distribution function under current status data. We propose to estimate the distribution function by a smoothed version of the MLE (the smoothed maximum likelihood estimator, SMLE) and show that the nonparametric bootstrap does result in valid confidence intervals around the SMLE. We also propose a second model-based bootstrap procedure that depends on the SMLE. In this procedure, the censoring variables in the bootstrap sample are the same and only the censoring indicators are resampled. In the nonparameteric bootstrap algorithm, both censoring variables and indicators are resampled with replacement from the original observations, independent of the true underlying model. We compare the quality of the two bootstrap procedures for constructing confidence intervals for the distribution function under current status data. In our numerical experiments, it is not clear which of two bootstrap procedures is better and the most striking finding is the similarity of the results between the smooth and nonparametric bootstrap. The additional information on the underlying model in the smooth bootstrap method does not result in an improvement of the nonparametric bootstrap for the construction of pointwise confidence intervals for the distribution function under current status data. An advantage of the purely nonparametric bootstrap is its conceptual simplicity. An advantage of the smooth bootstrap is that only indicators are resampled and that in this sense, one stays closest to the sampling distribution of the censoring variable. The smoothing technique used to construct the SMLE from the MLE depends on a bandwidth parameter. In the simulation studies of Chapter 3, much attention is given to the effect of the bandwidth on the confidence intervals. We demonstrate the importance of a proper bandwidth choice and we develop a selection procedure for the bandwidth parameter that results in good confidence intervals for the distribution function. In Chapter 4, we extend the findings of Chapter 2 for the current status linear regression model to the monotone single index model. Both covariates and response are fully observed in this regression model. The response depends on a linear combination of the covariates, i.e. the single index of the covariates, via an unknown link function. The only assumption that one makes for this link function is that it has a monotone increasing behavior. The goal of Chapter 4 is to estimate the regression parameters that describe the linear combination of the covariates and hence to determine the single index component in this model. The monotonicty constraint on the link function has to be taken into account during the estimation process. We analyze the behavior of the least squares estimator (LSE). In this algorithm, we search for the regression parameters and the monotone increasing link function that minimize the sum of squared errors which arises by taking the sum of the squared difference between the observed responses and the predicted responses in the estimated model. The asymptotic properties of the LSE of the regression parameters in the monotone single index model are comparable to the properties of the MLE in the current status linear regression model and so far, the behavior of this LSE was not yet fully understood. We derive a score function from the sum of squared errors and define score estimators by the root of this score function. From a comparison between the score estimators and the rank estimators proposed in Han (1987) and in Cavanagh and Sherman (1998), we conclude that both estimators have the same asymptotic convergence rate but the score estimators have smaller variances than the rank estimators. Based on our simulation experiments, we did not get conclusive insights into the converge rate of the LSE. However, even if the LSE has the same convergence rate as the score estimators, our findings do show a better finite sample behavior of the score estimators. In Part II of the thesis, we look at a model where the regression coefficients are functions of the covariates (varying coefficient model, VCM) and where the observed responses are subject to random right censoring. For some observations, the response is unknown and only a lower bound is observed. We introduce two data-transformation approaches that create a transformed variable which has the same expectation, conditionally on covariates, as the unobserved response variable. This transformed response variable is used in a penalized least squares procedure where we use splines to estimate the coefficient functions in the underlying VCM, referred to as P-spline estimates of the coefficient functions in the VCM. Our theoretical results and our simulations illustrate the quality of our proposed techniques for estimating a VCM subject to random right censoring. We also compare our estimates to the estimates proposed in Yang et al. (2014) and moreover discuss how the finite sample performance of the estimates in Yang et al. (2014) can be improved.
Statistische modellen worden gebruikt om gegevens te analyseren en verbanden tussen geobserveerde variabelen te beschrijven. Voor sommige modellen is de onderstelling dat het verband tussen de variabelen monotoon is, een natuurlijke aanname. In dat geval moet deze monotoniciteitseis ingebouwd worden in de procedure die ontwikkeld wordt om de data te analyseren. In het eerste deel van deze thesis bespreken we statistische modellen waarin dergelijke monotoniciteitsvoorwaarden aan de orde zijn. De concrete problemen worden in detail beschreven in het introductie hoofdstuk van Deel 1. In Hoofdstuk 2 zijn we geïnteresseerd in een lineair verband tussen een responsvariabele enerzijds en een groep covariaten anderzijds. De verklarende covariaatvariabelen worden volledig waargenomen maar de responsvariabele wordt niet geobserveerd. We weten enkel of de responsvariabele voor of na een geobserveerde censureringsvariabele ligt. Een corresponderende censureringsindicator geeft aan of de responsvariabele groter of kleiner is dan de censureringsvariabele. Dit censureringsmechanisme wordt het "current status" model genoemd. Het doel van Hoofdstuk 2 is het schatten van parameters die het lineair verband tussen de respons en de covariaten beschrijven op basis van observaties voor de censureringsvariabele, indicator en covariaten. Een welgekende techniek om de parameters in een regressiemodel te schatten maakt gebruik van de “maximum likelihood” methode waarbij de schatters voor de regressieparameters gevonden worden door de aannemelijkheid van de data te maximaliseren. Het gecensureerde karakter van de observaties leidt tot een monotoniciteitseis voor een functie die voorkomt in de aannemelijkheidsfunctie van de data. Omtrent het gedrag van deze “maximum likelihood estimators" (MLEs) voor de regressieparameters in het current status model zijn nog een aantal vragen onopgelost in de statistische literatuur. Op basis van de aannemelijkheidsfunctie construeren we in Hoofdstuk 2 een scorefunctie en bekomen we nieuwe schatters die gedefinieerd zijn via het nulpunt van deze scorefunctie. Onze schatters zijn daardoor nog steeds afhankelijkheid van het gedrag van de MLE. Door de studie van het asymptotisch gedrag van deze schatters, zijn we in staat om de vragen, nog steeds onopgelost voor de MLE, te beantwoorden voor de nieuwe scoreschatters die opgebouwd zijn vanuit het maximum likelihood mechanisme. In Hoofdstuk 3 gaat onze interesse uit naar de verdelingsfunctie van de respons in afwezigheid van covariaten. De beschikbare informatie zijn de censureringsvariabelen en de censureringsindicatoren. De verdelingsfunctie bepaalt het gedrag van de responsvariabele en is per definitie monotoon stijgend. De bedoeling is om puntsgewijze betrouwbaarheidsintervallen te construeren voor de ongekende verdelingsfunctie. Opnieuw kan het maximum likelihood principe gebruikt worden om deze verdelingsfunctie te schatten (opnieuw MLE genoemd). Om betrouwbaarheidsintervallen op te stellen rond deze MLE voor de verdelingsfunctie, kan gebruik gemaakt worden van een bootstrapmethode die gebaseerd is op het genereren van gegevens door het hertrekken uit de geobserveerde waarnemingen. Uit de bestaande statistische literatuur is bekend dat de MLE in combinatie met de typische niet-parametrische bootstrapmethode geen goede betrouwbaarheidsintervallen oplevert. In Hoofdstuk 3 schatten we de verdelingsfunctie via een gladgemaakte versie van de MLE en tonen we aan dat de klassieke bootstrap wel gebruikt kan worden om betrouwbaarheidsintervallen op te stellen rond deze gladgemaakte MLE. We stellen in dit hoofdstuk ook een tweede bootstrapalgoritme voor en vergelijken deze methode met de klassieke bootstrap. Het verschil tussen beide procedures is dat het klassieke hertrekken van censureringsvariabelen en indicatoren onafhankelijk van het onderliggende model kan uitgevoerd worden terwijl de tweede methode afhankelijk is van de gladgemaakte schatter voor de verdelingsfunctie en dat enkel indicatoren (en geen censureringsvariabelen) hertrokken worden. Uit onze numerieke experimenten volgt er geen uitgesproken voorkeur voor één van beide bootstraptechnieken en het is opmerkelijk dat voor het construeren van betrouwbaarheidsintervallen voor de verdelingsfunctie, beide bootstrapmethoden het even goed lijken te doen. De extra informatie omtrent het onderliggende model bij de tweede bootstrapmethode leidt niet tot een verbetering van de niet-parametrische methode. De eenvoud van de klassieke procedure is een voordeel van de niet-parametrische bootstrapmethode. Een voordeel van de tweede bootstrap is dat enkel de indicatoren hertrokken worden, op die manier blijft de verdeling van de censureringsvariabelen ongewijzigd. De techniek die gebruikt wordt om de oorspronkelijke MLE glad te maken, is afhankelijk van een parameter, die de bandbreedte genoemd wordt. In onze simulatiestudies bestuderen we het effect van deze bandbreedte op de betrouwbaarheidsintervallen. We illusteren hoe belangrijk een goede keuze voor deze parameter is en ontwikkelen een selectieprocedure voor de bandbreedte. In het laatste hoofdstuk van Deel I bestuderen we het monotoon single index model. In dit regressiemodel worden zowel de covariaten als de respons volledig geobserveerd. De gegevens zijn niet gecensureerd. De respons hangt af van een lineaire combinatie van de covariaten via een ongekende linkfunctie. De enige voorwaarde op deze linkfunctie is dat ze een monotoon stijgend verloop heeft. Het doel is om de regressieparameters te schatten, dit zijn de parameters die het lineair verband in de covariaten bepalen. In de schattingsprocedure moet rekening gehouden worden met het stijgend karakter van de linkfunctie. We werken met kleinste kwadratenschatters (KKS). Deze minimaliseren de gekwadrateerde foutensom die ontstaat door de som te nemen van de gekwadrateerde verschillen tussen de geobserveerde respons en de voorspelde respons in het geschatte model. De statistische eigenschappen van de KKS zijn vergelijkbaar met de eigenschappen van de MLE in het current status lineair regressie model van Hoofdstuk 2. Het asymptotisch gedrag van de KKS werd tot op heden nog niet helemaal doorgrond. We construeren vanuit de gekwadrateerde foutensom een scorefunctie die leidt tot scoreschatters voor de regressieparameters in het monotoon single index model. Uit een vergelijking van deze scoreschatters met reeds eerder voorgestelde rangschatters in Han (1987) en in Cavanagh and Sherman (1998), volgt dat beide schatters weliswaar dezelfde asymptotische convergentiesnelheid hebben maar de scoreschatters hebben een kleinere variantie dan de rangschatters. Op basis van onze simulatie-experimenten kunnen we geen overtuigende conclusies trekken omtrent de asymptotische convergentiesnelheid van de KKS. We kunnen wel besluiten dat scoreschatters een kleinere variantie hebben in eindige steekproeven dan de KKS die beiden gebaseerd zijn op een kleinste kwadratenprocedure. In het tweede deel van deze thesis, bestuderen we een model waarbij de regressiecoëfficiënten functies zijn van covariaten (varying coefficients model, VCM) en waarbij niet alle responsvariabelen geobserveerd worden door de aanwezigheid van rechtse censurering. De respons is dan voor een aantal observaties niet gekend, er wordt enkel een ondergrens waargenomen. We ontwikkelen twee datatransformatie technieken waardoor een nieuwe variabele met dezelfde verwachtingswaarde als de niet-geobserveerde respons geconstrueerd wordt. De getransformeerde variabele wordt gebruikt in een gepenaliseerde kleinste kwadratenprocedure waarbij spline schatters gebruikt worden om de onderliggende variërende coëfficiënten functies te schatten. De theoretische eigenschappen van deze gepenaliseerde spline schatters maken de schatters vergelijkbaar met reeds eerder gedefinieerde schatters voor het VCM met rechts gecensureerde observaties. Aan de hand van simulatiestudies en data voorbeelden illustreren we de kwaliteit van de voorgestelde schattingsprocedure.
Document URI: http://hdl.handle.net/1942/25992
Category: T1
Type: Theses and Dissertations
Appears in Collections:PhD theses
Research publications

Files in This Item:
File Description SizeFormat 
Thesis_Hendrickx_2018.pdf3.36 MBAdobe PDFView/Open
Show full item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.