Open this publication in new window or tab >>2025 (English)Doctoral thesis, comprehensive summary (Other academic)
Probabilistiska metriska rum för maskininlärning : data- och modellrum
Abstract [en]
Machine learning models are inherently shaped by the data used to train them. Understanding the relationship between datasets and the models they generate is essential for tasks such as model selection, privacy metrics, and robustness evaluation. This thesis presents a rigorous mathematical framework for comparing machine learning models and algorithms by formalizing the interaction between two fundamental spaces: the database space, which captures possible datasets, and the model space, which contains the models or hypotheses derived from those datasets. A central motivation stems from the observation that different datasets can lead to the same or highly similar models. Such recurrent models—which arise frequently across diverse data sources—are particularly significant in privacy-sensitive applications. Their recurrence suggests reduced dependence on any specific data point or subgroup, thus offering inherent privacy and generalization benefits. By quantifying the relationship between models and their generating data, this work enables principled evaluation of a model’s robustness and disclosure risk.
To formalize relationships between the two spaces, the thesis develops a family of probabilistic metric space constructions tailored to different aspects of the data–model interaction. The first contribution models database evolution as a Markov process and defines probabilistic distances between models based on the likelihood of transitioning between their generating datasets. The second contribution introduces F-space, a framework based on fuzzy measures that captures richer structural properties of the data—such as redundancy, synergy, and overlap among subsets. Building on this, the third contribution applies the F-space theory in practical machine learning scenarios. It demonstrates how fuzzy measures can be used to compare different linear regression algorithms trained over structured subsets of real datasets. The final contribution further generalizes the framework through Generalized F-spaces, where the model space itself is endowed with probabilistic structure—allowing uncertainty in both the datasets and the model outputs to be captured simultaneously.
Together, these constructions offer a principled alternative to traditional model comparison metrics. Rather than relying solely on pointwise loss or accuracy, the proposed framework incorporates the diversity, dynamics, and internal structure of the data that underlies each model—enabling more robust and privacy-aware assessments.
Abstract [sv]
Maskininlärningsmodeller formas i grunden av den data de tränas på. Att förstå relationen mellan datamängder och de modeller som genereras från dem är avgörande för uppgifter såsom modellval, sekretessmätningar och robusthetsanalys. Denna avhandling presenterar ett rigoröst matematiskt ramverk för att jämföra maskininlärningsmodeller och algoritmer genom att formalisera samspelet mellan två grundläggande omfång: databasrummet, som representerar möjliga datamängder, och modellrummet, som innehåller de modeller eller hypoteser som härrör från dessa datamängder.
Ett centralt motiv är observationen att olika datamängder kan leda till samma eller mycket liknande modeller. Sådana återkommande modeller —som ofta uppstår över varierande datakällor — är särskilt betydelsefulla i integritetskänsliga tillämpningar. Återkommandet antyder ett minskat beroende av enskilda datapunkter eller undergrupper, vilket ger fördelar vad gäller både integritet och generaliserbarhet. Genom att kvantifiera relationen mellan modeller och deras genererande data möjliggör detta arbete en principbaserad utvärdering av en modells robusthet och risk för avslöjande.
För att formalisera relationen mellan de två omfången introducerar avhandlingen en familj av probabilistiska metriska rum, anpassade för olika aspekter av samspelet mellan data och modeller. Det första bidraget modellerar databasers utveckling som en Markovprocess och definierar probabilistiska avstånd mellan modeller baserat på sannolikheten att övergå mellan deras genererande datamängder. Det andra bidraget introducerar F-rum (F-space), ett ramverk baserat på fuzzy-mått som fångar rikare strukturella egenskaper hos data—såsom redundans, synergi och överlappning mellan delmängder. Det tredje bidraget tillämpar F-rum-teorin i praktiska maskininlärningsscenarier. Detvisar hur fuzzy-mått kan användas för att jämföra olika linjära regressionsalgoritmer tränade på strukturerade delmängder av verkliga datamängder. Det fjärde och sista bidraget generaliserar ramverket ytterligare genom Generaliserade F-rum, där även modellrummet ges en probabilistisk struktur — vilket möjliggör att osäkerhet i både datamängden och modellutdata fångas samtidigt. Tillsammans erbjuder dessa konstruktioner ett principiellt alternativ till traditionella jämförelsemått för modeller. I stället för att enbart förlita sig på punktvisa fel eller noggrannhet beaktar det föreslagna ramverket datans mångfald, dynamik och inre struktur — vilket möjliggör mer robusta och integritetsmedvetna analyser.
Place, publisher, year, edition, pages
Umeå: Umeå University, 2025. p. 50
Series
Report / UMINF, ISSN 0348-0542 ; 25.05
Keywords
probabilstic metric space, space of data, space of models, fuzzy measures
National Category
Computer Sciences
Research subject
Computer Science
Identifiers
urn:nbn:se:umu:diva-238256 (URN)978-91-8070-681-0 (ISBN)978-91-8070-680-3 (ISBN)
Public defence
2025-05-23, Hörsal NAT.D. 360, Naturvetarhuset, Umeå, 09:00 (English)
Opponent
Supervisors
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP)
2025-04-302025-04-282025-04-28Bibliographically approved