Semantic integration and query answering of multidimensional data with knowledge graphs
2026 (English)Doctoral thesis, monograph (Other academic)Alternative title
Semantisk integration och frågesvar för flerdimensionella data med kunskapsdiagram (Swedish)
Abstract [en]
Modern enterprises face an overwhelming volume of big data—continuously generated at high velocity, in diverse formats, from multiple sources, and stored at significant expense. To derive value for AI training and insightful analytics, this heterogeneous data must be properly linked and processed in machine-readable form. Traditional data ingestion pipelines, such as Extract-Transform-Load (ETL/ELT), materialise structured and unstructured data for query processing, but they become inefficient or overloaded when updates occur frequently. This thesis investigates Virtual Knowledge Graphs (VKGs), also known as Ontology-based Data Access (OBDA), as a virtualisation approach for flexible, efficient management of large-scale structured and unstructured data without materialisation. Our core focus is on integrating multidimensional raster data (e.g., images or continuous spatial-temporal phenomena represented as arrays) with relational/vector data (points, lines, polygons) and linked data. Conventional VKG systems mediate OWL ontologies over relational databases via declarative R2RML mappings, translating SPARQL queries over the ontology into optimised SQL executions. However, they lack native support for the multidimensional nature of raster data and seamless integration with vector geometries, which limits their use in geospatial settings such as Earth Observation, Geographical Information Systems, and Urban planning. To overcome these limitations, we propose OntoRaster, a novel extended VKG framework that enables virtual integration and querying of raster, relational, and vector data. OntoRaster leverages domain-specific ontologies and supports on-the-fly query processing, thus minimising expensive data transfers by delegating computations to specialised back-ends. For rigorous evaluation, we introduce comprehensive benchmarks to assess such VKG systems, i.e., OntoRaster on integrated raster-vector data processing workloads, using domain ontologies and synthetically generated, similar, scalable datasets that vary in properties (e.g., resolution, coverage, pixel density, polygons, etc.). Finally, we explore semantic enrichment for location-based business intelligence by exposing a SQL-accessible knowledge graph to BI tools. Additionally, we explore an LLM-based system that generates raster-based SPARQL queries based on ontologies from natural-language queries. This empowers business experts to obtain actionable insights for location-based decision-making and risk assessment without requiring advanced geospatial expertise. Overall, this dissertation bridges Big Data, Semantic Web, AI and BI communities, advancing scalable, ontology-mediated access to heterogeneous multidimensional data.
Abstract [sv]
Moderna organisationer står inför en överväldigande mängd Big Data, som genereras kontinuerligt i hög hastighet, varierande format, från flera källor och lagras till en betydande kostnad. För att utvinna värde för AI träning och avancerad analys måste denna heterogena data kopplas samman och bearbetas så att den kan läsas av maskiner. Traditionella pipelines för datahantering, såsom Extract-Transform-Load (ETL/ELT), materialiserar strukturerad och ostrukturerad data för frågebearbetning. Dessa metoder blir dock ineffektiva eller överbelastade när uppdateringar sker frekvent. Denna avhandling undersöker Virtual Knowledge Graphs (VKGs), även kända som Ontology-based Data Access (OBDA), som en virtualiseringsmetod för flexibel och effektiv hantering av storskalig strukturerad och ostrukturerad data utan materialisering. Vårt huvudsakliga fokus är integrationen av multidimensionell rasterdata (t.ex. bilder eller kontinuerliga rumsligt-temporala fenomen representerade som matriser) med relations- och vektordata (punkter, linjer, polygoner) samt länkad data. Konventionella VKG-system använder OWL-ontologier och relationsdatabaser sammankopplade med hjälp av deklarativa R2RML-mappingar, där SPARQL-frågor för ontologin översätts till optimerade SQL-exekveringar. Dessa system saknar dock inbyggt stöd för multidimensionell raster data och sömlös integration med vektorgeometrier. Detta begränsar deras användning i geospatiala tillämpningsområden såsom Earth Observation (EO), Geographical Information Systems (GIS) och stadsplanering. För att överkomma dessa begränsningar föreslår vi ett nytt utökat VKG-ramverk, OntoRaster, som möjliggör virtuell integration och frågebearbetning av raster-, relations- och vektordata. OntoRaster utnyttjar domänspecifika ontologier och stödjer bearbetning av frågor on-the-fly, vilket minimerar kostsamma dataöverföringar genom att delegera beräkningar till specialiserade backend-system. För en rigorös utvärdering av VKG-system såsom OntoRaster introducerar vi omfattande benchmarks med arbetslaster för integrerad bearbetning av raster-vektor-data. Dessa benchmarks använder domänontologier samt syntetiskt genererade, skalbara dataset med varierande egenskaper (upplösning, täckning, pixeltäthet, polygoner etc.). Slutligen undersöker vi metoder för semantisk berikning för platsbaserad business intelligence (BI) genom att exponera en SQL-åtkomlig knowledge graph för BI-verktyg. Dessutom utforskar vi ett LLM-baserat system för att generera rasterbaserade SPARQL-frågor från naturligt språk baserat på ontologier. Detta gör det möjligt för experter inom verksamheter att ta reda på handlingsbara insikter för platsbaserat beslutsfattande och riskbedömning utan krav på expertis med avancerade geospatiala verktyg Sammantaget bygger denna avhandling en bro mellan Big Data-, Semantic Web, AI och BI forskningsområdena genom att främja skalbar, ontologibaserad åtkomst till heterogen multidimensionell data.
Place, publisher, year, edition, pages
Umeå, Sweden: Umeå University, 2026. , p. 172
Series
Report / UMINF, ISSN 0348-0542 ; 26.04
Keywords [en]
Artificial Intelligence (AI), Semantic Web (SW), Business Intelligence (BI), Virtual Knowledge Graph (VKG), Multidimensional Raster Data, Relational Data, Vector Data, Linked Data, Large Language Models (LLMs)
Keywords [sv]
Artificiell intelligens (AI), Semantiska webben (SW), Affärsanalys (BI), Virtuell kunskapsgraf (VKG), Multidimensionell rasterdata, Relationella data, Vektordata, Länkade data, Stora Språkmodeller (LLM)
National Category
Computer and Information Sciences
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:umu:diva-250923ISBN: 978-91-8070-971-2 (print)ISBN: 978-91-8070-972-9 (electronic)OAI: oai:DiVA.org:umu-250923DiVA, id: diva2:2045634
Public defence
2026-04-08, MIT.A.121, MIT-huset, Campustorget 5, 901 87 Umeå, Sweden, Umeå, 13:00 (English)
Opponent
Supervisors
Projects
Wallenberg AI, Autonomous Systems and Software Program (WASP)
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP), 5700113622026-03-182026-03-122026-03-17Bibliographically approved