Please use this identifier to cite or link to this item: http://hdl.handle.net/1942/41742
Title: Advanced data analytics for high-dimensional mass spectrometry and high-resolution digital pathology
Authors: AGTEN, Annelies 
Advisors: Valkenborg, Dirk
Faes, Christel
Issue Date: 2023
Abstract: Geavanceerde data-analysetechnieken hebben een revolutie teweeggebracht in het veld van hoog-dimensionale massaspectrometrie en hoge resolutie digitale pathologie. Deze technieken stellen ons in staat om waardevolle inzichten te verkrijgen uit complexe datasets en dragen bij aan het verbeteren van de diagnose van ziekten, gepersonaliseerde geneeskunde en biomedisch onderzoek. In deze context spelen geavanceerde data-analyse tools een cruciale rol bij het ontdekken van patronen, identificeren van biomarkers en vergroten van ons begrip van complexe biologische processen. Deze thesis belicht het belang en de toepassingen van geavanceerde data-analyse technieken in het domein van hoog-dimensionale massaspectrometrie en hoog-resolutie digitale pathologie, en illustreert hun potentieel om nieuwe doorbraken te realiseren in de medische wetenschap. De nadruk in dit proefschrift ligt op het verbeteren van de methodologie voor gegevensanalyse, met als doel nauwkeurigere identificaties te verkrijgen door middel van verbeterde principes en technieken. Dit proefschrift bestaat uit twee delen. Het eerste deel, ‘Spectrale gegevensverwerking en moleculaire identificatie’, richt zich op toepassingen binnen de analyse van massaspectrometriegegevens en bestaat uit vier hoofdstukken waarin we statistische analysetools voor verschillende omics-data voorstellen. Het visualiseren van de overeenkomst in peptide identificaties tussen verschillende zoekmachines Er is momenteel een trend in de analyse van shotgun-proteomicsgegevens om peptidenannotaties te verbeteren door informatie van meerdere zoekmachines te integreren. Doorgaans wordt dit gevisualiseerd met behulp van Venn-diagrammen, die de overlap van niet-redundante peptidenannotaties verkregen uit database-zoekopdrachten illustreren. We geven echter aan dat deze methode niet optimaal is omdat het informatie over complementariteit over het hoofd ziet en overeenstemming op het niveau van spectrumidentificatie vaak verbergt. In dit hoofdstuk stellen we een nieuwe manier van visualisatie voor die focust op de overeenstemming van peptide-spectrum-matches (PSM’s), waarbij overeenstemming tussen twee zoekmachines met nominale uitkomsten wordt weergegeven. Door deze visualisaties toe te passen op ons benchmarkorganisme, Caenorhabditis elegans, laten we zien dat het nodig is om de informatie over de onzekerheid en de identiteit van PSMs te scheiden bij het beoordelen van de overeenstemming tussen zoekmachines. De bijbehorende R-functie stelt onderzoekers in staat om deze visualisaties toe te passen in een gepersonaliseerde workflow, waardoor een meer uitgebreide evaluatie en vergelijking tussen resultaten van verschillende zoekmachines mogelijk is. Machine learning methode voor de predictie van het aantal sulfer atomen in peptiden, gebruik makend van de geaggregeerde isotoopdistributie De isotoopdistributie die wordt waargenomen in massaspectra van proteomics experimenten speelt een cruciale rol bij de identificatie van peptiden en eiwitten. Met name zwavelatomen hebben een distincte elementaire isotoopdefinitie die de isotoopverdeling van biomoleculen aanzienlijk be¨ınvloedt. Daarom, als we het aantal zwavelatomen kennen, kunnen we de nauwkeurigheid van peptide- en eiwitidentificatie verbeteren. In dit hoofdstuk voeren we een theoretisch onderzoek uit naar de isotoopeigenschappen van zwavelhoudende peptiden. We introduceren een gradient boosting aanpak om het aantal zwavelatomen te voorspellen op basis van de geaggregeerde isotoopdistributie. We evalueren de nauwkeurigheid en voorspellende waarde van verschillende kenmerken, gebruik makend van de massa’s en de isotoop probabiliteiten van de eerste drie, vijf en acht geaggregeerde isotoop pieken. Het onderzoek wijst uit dat enkel gebruik maken van massakenmerken niet voldoende is voor een nauwkeurige voorspelling van het aantal zwavelatomen. Wanneer we echter ook isotoop kenmerken toevoegen, bereiken we een bijna perfecte classificatie. De ratio van de achtste en zevende, vijfde en vierde, en derde en tweede geaggregeerde isotoop pieken kwamen naar voren als de meest invloedrijke kenmerken. De massaverschillen tussen de achtste, vijfde of derde geaggregeerde isotoop pieken en de monoisotopische piek bleken de meest predictieve massa features te zijn. Gebaseerd op onze analyse is het duidelijk dat het voorspellen van het aantal zwavelatomen op basis de isotoopdistributie een uitdaging is, omdat de isotoopratio’s niet nauwkeurig worden gemeten. Deze bevindingen onderstrepen het belang van de focus op het verbeteren van de spectrale nauwkeurigheid in toekomstige instrumentontwikkeling om preciezere metingen van kDa. We genereren de geaggregeerde isotoopverdeling met behulp van het BRAIN-algoritme. Onze modelleringsmethode maakt gebruik van de additieve log-ratio methode van Aitchison vanwege de compositionele aard van de isotoopdistributie. We passen een univariaat gewogen polynomiaal regressiemodel van orde 10 toe om de eerste 20 isotoop pieken voor DNA- en RNA-moleculen te voorspellen. Het model wordt gevalideerd aan de hand van de mean square error en een aangepaste Pearson’s χ 2 goodness-of-fit statistiek op experimentele gegevens. Uit onze analyse blijkt dat de fouten in spectrale nauwkeurigheid van het experimentele spectrum meer bijdragen aan de variabiliteit dan het benaderen van de theoretische gegevens met ons voorgestelde gemiddelde DNA/RNA-model. Het model werd beschikbaar gesteld als een online tool. Een Rfunctie is beschikbaar om het voor onderzoekers mogelijk te maken om de methode te integreren in een gepersonaliseerd workflow. Een compositioneel model voor de predictie van de geaggregeerde isotoopdistributie voor een gemiddeld peptide, gebruik makend van een compositioneel spline model We stellen een aangepaste aanpak voor om de isotoopdistributie van gemiddelde peptiden te bepalen op basis van hun monoisotopische massa, met als doel om de limitaties van eerdere studies te adresseren. In onze methode splitsen we de gehele UNIPROT database van Human reviewed eiwitten in-silico met Trypsine, wat resulteert in een theoretische dataset van peptiden. We maken gebruik van het BRAIN algoritme om de theoretische isotoopdistributies te bepalen. Om de compositionele aard van de data correct te modelleren, maken we gebruik van strategie die een additieve log-ratiotransformatie combineert met een penalized spline regressie. Zwavelatomen hebben een grote invloed op de isotoopverdeling van moleculen. Daarom ontwikkelen we afzonderlijke modellen voor peptiden met nul tot vijf sulfer atomen. Bovendien stellen we drie methoden voor om het aantal zwavelatomen te voorspellen aan de hand van de waargenomen isotoopdistributie. We maken gebruik van de mean square error en een aangepaste Pearson’s χ 2 goodness-of-fit statistiek om onze modellen te evalueren op een experimentele dataset van UPS2-eiwitten. We tonen aan dat de variabiliteit in spectrale nauwkeurigheid meer bijdraagt aan de fout dan de benadering van de theoretische isotoopverdeling door ons voorgestelde gemiddelde peptide-model. Bovendien blijkt dat de nauwkeurigheid van het voorspellen van het aantal zwavelatomen op basis van de waargenomen isotoopverdeling beperkt wordt door de experimentele meetnauwkeurigheid. In het tweede deel van dit proefschrift, ‘Spatiale statistiek’, onderzoeken we spatiale heterogeniteit in de micro-omgeving van leverweefsels door gebruik te maken van diversiteitsindices overgenomen uit de ecologie en het modelleren van punt processen. Maten voor spatiale heterogeniteit in de micro-omgeving van lever weefsel voor de voorspelling van fibrosis score De interactie en de rangschikking tussen hepatocyten en andere niet-parenchymale cellen in de lever spelen een essenti¨ele rol bij het handhaven van een normale structuur en functie van de lever. In dit hoofdstuk analyseren we beelden van 110 kernnaaldbiopten van pati¨enten met chronische hepatitis B en verschillende mate van fibrose volgens de METAVIR-score. Door middel van immunofluorescente kleuring en beeldvorming identificeren we de spatiale locaties van CD45-positieve immuuncellen en HBsAg-negatieve en HBsAgpositieve hepatocyten in het weefsel. Om de mate van colocatie tussen immuuncellen en verschillende types levercellen te beoordelen, maken we gebruik van beschrijvende technieken die vaak worden gebruikt in de ecologie, zoals Getis-Ord, de Shannonindex en de Morisita-Horn-index. Daarnaast modelleren we de spatiale verdeling van de verschillende celtypen met behulp van een joint log-Gaussian Cox proces en stellen we verschillende kenmerken voor om de spatiale heterogeniteit te kwantificeren. Met behulp van lineaire discriminantanalyse linken we deze kenmerken van heterogeniteit met het fibrosestadium van de pati¨enten. Onze bevindingen tonen aan dat de interactie tussen HBsAg-negatieve hepatocyten en immuuncellen en de interactie tussen HBsAg-positieve hepatocyten en immuuncellen belangrijke voorspellende factoren zijn voor de fibrosisscore bij pati¨enten met chronische hepatitis B. Bovendien observeren we dat als we een foutenmarge van 1 in de METAVIR-score toestaan, we een nauwkeurigheid van ongeveer 80% bereiken. Deze studie toont aan dat methoden uit de ecology toegepast kunnen worden bij het beoordelen van de heterogeniteit van het leverweefselmilieu en benadrukt hun potenti¨ele waarde in biomarkeranalyses voor levertopologie.
Advanced data analytics techniques have transformed biomedical research, enabling insights from complex data sets in high-dimensional mass spectrometry and highresolution digital pathology. Mass spectrometry analyzes biological molecules, while digital pathology provides detailed tissue analysis. These analytics tools are crucial for pattern discovery, biomarker identification, and deepening our understanding of biological processes. This thesis explores their applications in high-dimensional mass spectrometry and high-resolution digital pathology, emphasizing their potential to advance disease diagnosis, personalized medicine, and biomedical research. It focuses on enhancing data analysis methodology to improve the analysis of generated data, aiming for more precise identifications using enhanced principles and techniques. This thesis is made up of two parts. The first part, ‘Spectral processing and molecular identification’, focuses on applications within mass spectrometry data analysis, and consists of four chapters in which we propose statistical analysis tools for different omics data. Visualizing the agreement of peptide assignments between different search engines There is a current trend in the analysis of shotgun proteomics data to enhance peptide annotations by integrating information from multiple search engines. Typically, this is visualized using Venn diagrams, which illustrate the overlap of nonredundant peptide annotations obtained from database searches. However, we argue that this practice is inadequate as it overlooks and often hides information regarding complementarity and agreement at the level of spectrum identification. In this chapter, we propose a novel visualization approach that focuses on peptide-spectrum match (PSM) agree ment, representing consensus between two search engines with nominal outcomes. By applying these visualizations and considering percentage sequence agreement in our benchmark organism, Caenorhabditis elegans, we demonstrate the need to separate PSM confidence and PSM identity when assessing agreement between search engines. The accompanying R function allows the researcher to integrate these visualizations into a custom workflow, offering a more comprehensive evaluation of search engine pairs Machine learning approach for the prediction of the number of sulphur atoms in peptides using the theoretical aggregated isotope distribution The isotope distribution observed in mass spectrometry-based proteomics plays a crucial role in peptide and protein identification. Sulphur atoms, in particular, have a distinct elemental isotope definition that significantly impacts the isotope distribution of biomolecules. Hence, having knowledge about the number of sulphur atoms can enhance the accuracy of peptide and protein identification. In this chapter, we conduct a theoretical investigation to explore the isotope properties of sulphur-containing peptides. We introduce a gradient boosting approach to predict the number of sulphur atoms based on the aggregated isotope distribution. We evaluated prediction accuracy and the predictive power of different features using mass and isotope abundance information derived from the first three, five, and eight aggregated isotope peaks. We discovered that relying solely on mass features is insufficient for accurate prediction of the number of sulphur atoms. However, when incorporating isotope abundance features, our predictions achieved near-perfect accuracy. The abundance ratios between the eighth and seventh, fifth and fourth, and third and second aggregated isotope peaks emerged as the most influential abundance features. Meanwhile, the mass differences between the eighth, fifth, or third aggregated isotope peaks and the monoisotopic peak proved to be the most predictive mass features. Based on our validation analysis, it is evident that predicting the number of sulphur atoms based on the isotope profile is challenging because the isotope ratios are not measured accurately. These findings underscore the importance of future instrument developments focusing on improving spectral accuracy to achieve more precise measurements of peak intensities, especially for higher-order isotope peaks. A Compositional Model to Predict the Aggregated Isotope Distribution for Average DNA and RNA Oligonucleotides Structural modifications of DNA and RNA molecules play a crucial role in the regulation of epigenetic and posttranscriptional processes. To understand and analyze these modifications, an increasing number of MS and MS/MS-based tools are being developed for nucleic acid analysis. When identifying an oligonucleotide in a mass spectrum, it is valuable to compare the observed isotope pattern with the theoretically expected pattern based on its elemental composition. However, this becomes challenging when the identity of the molecule is unknown. In this chapter, we propose a modeling approach to predict the aggregated isotope distribution of an average DNA or RNA molecule given its monoisotopic mass. To accomplish this, we construct a theoretical database containing all possible DNA/RNA oligonucleotides up to a mass of 25 kDa and generate the aggregated isotope distribution using the BRAIN algorithm. Our modeling method utilizes additive log-ratio analysis of Aitchison due to the compositional nature of the isotope information. We fit a univariate weighted polynomial regression model of order 10 to predict the first 20 isotope peaks for DNA and RNA molecules. The performance of the prediction model is assessed using mean squared error and a modified Pearson’s χ 2 goodness-of-fit measure on experimental data. Our analysis reveals that errors in spectral accuracy contribute more to variability than approximating the theoretical isotope distribution with our proposed average DNA/RNA model. The prediction model is implemented as an online tool, and an R function is available for integrating the method into custom analysis workflows for processing mass spectral data. A compositional data model to predict the isotope distribution for average peptides using a compositional spline model We present an updated approach to approximate the isotope distribution of average peptides based on their monoisotopic mass, aiming to overcome the limitations of previous studies. Our methodology involves in-silico cleavage of the entire UNIPROT database of Human reviewed proteins using Trypsin, generating a theoretical peptide data set, employing the BRAIN algorithm, to compute the isotope distribution. To properly account for the compositional nature of the isotope probabilities, we utilize a data modelling strategy incorporating an additive log-ratio transformation, followed by penalized spline regression. Recognizing the impact of sulphur atoms on the isotope distribution, we develop separate models for peptides with zero to five sulphur atoms. Additionally, we propose three methods to estimate the number of sulphur atoms based on the observed isotope distribution. Evaluation using a mean squared error and modified Pearson’s χ 2 goodness-of-fit measure on experimental UPS2 data demonstrates that variability in spectral accuracy contributes more to the error than the approximation of the theoretical isotope distribution by our proposed average peptide model. Furthermore, we find that the accuracy of predicting the number of Sulphur atoms based on the observed isotope distribution is limited by measurement accuracy. In the second part of this dissertation, ‘Spatial statistics’, we investigate spatial heterogeneity in the liver tissue microenvironment through the means of diversity indices adopted from ecology and point process modelling. Measures of spatial heterogeneity in the liver tissue microenvironment as predictive factors for fibrosis score The interplay and arrangement of hepatocytes and other nonparenchymal cells within the liver have a crucial role in maintaining its normal structure and function. In this chapter, we analyze images from 110 core needle biopsies taken from chronic hepatitis B patients with varying degrees of fibrosis according to the METAVIR score. Through immunofluorescent staining and imaging, we identify the spatial locations of CD45- positive immune cells, as well as HBsAg-negative and HBsAg-positive hepatocytes within the tissue. To assess the extent of colocalization between immune cells and different liver cell types, we utilize descriptive techniques commonly used in ecology, such as the Getis-Ord, the Shannon Index, and the Morisita-Horn Index. Additionally, we employ a joint log-Gaussian Cox process to model the spatial distribution of the various cell types and propose several features to quantify spatial heterogeneity. We employed a linear discriminant analysis approach to correlate these measures with the fibrosis stage of the patients. Our findings reveal that the colocalization of HBsAg-negative hepatocytes with immune cells, as well as the colocalization of HBsAg-positive hepatocytes with immune cells, serve as significant predictive factors for the fibrosis score in patients with chronic hepatitis B. Furthermore, we observe that, by allowing for an error margin of 1 in the METAVIR score, we achieved an accuracy of approximately 80%. Through this study, we demonstrate the applicability of ecological methods in assessing liver tissue microenvironment heterogeneity and highlight their potential value in biomarker analyses for liver topology.
Document URI: http://hdl.handle.net/1942/41742
Category: T1
Type: Theses and Dissertations
Appears in Collections:Research publications

Files in This Item:
File Description SizeFormat 
PhD thesis Annelies Agten 27.10.2023.pdf
  Until 2028-10-27
20.47 MBAdobe PDFView/Open    Request a copy
Show full item record

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.