Umeå University's logo

umu.sePublications
Change search
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf
Semantic integration and query answering of multidimensional data with knowledge graphs
Umeå University, Faculty of Science and Technology, Department of Computing Science. (Artificial Intelligence for Data Management)ORCID iD: 0000-0003-3789-0900
2026 (English)Doctoral thesis, monograph (Other academic)Alternative title
Semantisk integration och frågesvar för flerdimensionella data med kunskapsdiagram (Swedish)
Abstract [en]

Modern enterprises face an overwhelming volume of big data—continuously generated at high velocity, in diverse formats, from multiple sources, and stored at significant expense. To derive value for AI training and insightful analytics, this heterogeneous data must be properly linked and processed in machine-readable form. Traditional data ingestion pipelines, such as Extract-Transform-Load (ETL/ELT), materialise structured and unstructured data for query processing, but they become inefficient or overloaded when updates occur frequently. This thesis investigates Virtual Knowledge Graphs (VKGs), also known as Ontology-based Data Access (OBDA), as a virtualisation approach for flexible, efficient management of large-scale structured and unstructured data without materialisation. Our core focus is on integrating multidimensional raster data (e.g., images or continuous spatial-temporal phenomena represented as arrays) with relational/vector data (points, lines, polygons) and linked data. Conventional VKG systems mediate OWL ontologies over relational databases via declarative R2RML mappings, translating SPARQL queries over the ontology into optimised SQL executions. However, they lack native support for the multidimensional nature of raster data and seamless integration with vector geometries, which limits their use in geospatial settings such as Earth Observation, Geographical Information Systems, and Urban planning. To overcome these limitations, we propose OntoRaster, a novel extended VKG framework that enables virtual integration and querying of raster, relational, and vector data. OntoRaster leverages domain-specific ontologies and supports on-the-fly query processing, thus minimising expensive data transfers by delegating computations to specialised back-ends. For rigorous evaluation, we introduce comprehensive benchmarks to assess such VKG systems, i.e., OntoRaster on integrated raster-vector data processing workloads, using domain ontologies and synthetically generated, similar, scalable datasets that vary in properties (e.g., resolution, coverage, pixel density, polygons, etc.). Finally, we explore semantic enrichment for location-based business intelligence by exposing a SQL-accessible knowledge graph to BI tools. Additionally, we explore an LLM-based system that generates raster-based SPARQL queries based on ontologies from natural-language queries. This empowers business experts to obtain actionable insights for location-based decision-making and risk assessment without requiring advanced geospatial expertise. Overall, this dissertation bridges Big Data, Semantic Web, AI and BI communities, advancing scalable, ontology-mediated access to heterogeneous multidimensional data.

Abstract [sv]

Moderna organisationer står inför en överväldigande mängd Big Data, som genereras kontinuerligt i hög hastighet, varierande format, från flera källor och lagras till en betydande kostnad. För att utvinna värde för AI träning och avancerad analys måste denna heterogena data kopplas samman och bearbetas så att den kan läsas av maskiner. Traditionella pipelines för datahantering, såsom Extract-Transform-Load (ETL/ELT), materialiserar strukturerad och ostrukturerad data för frågebearbetning. Dessa metoder blir dock ineffektiva eller överbelastade när uppdateringar sker frekvent. Denna avhandling undersöker Virtual Knowledge Graphs (VKGs), även kända som Ontology-based Data Access (OBDA), som en virtualiseringsmetod för flexibel och effektiv hantering av storskalig strukturerad och ostrukturerad data utan materialisering. Vårt huvudsakliga fokus är integrationen av multidimensionell rasterdata (t.ex. bilder eller kontinuerliga rumsligt-temporala fenomen representerade som matriser) med relations- och vektordata (punkter, linjer, polygoner) samt länkad data. Konventionella VKG-system använder OWL-ontologier och relationsdatabaser sammankopplade  med hjälp av deklarativa R2RML-mappingar, där SPARQL-frågor för ontologin översätts till optimerade SQL-exekveringar. Dessa system saknar dock inbyggt stöd för multidimensionell raster data och sömlös integration med vektorgeometrier. Detta begränsar deras användning i geospatiala tillämpningsområden såsom Earth Observation (EO), Geographical Information Systems (GIS) och stadsplanering. För att överkomma dessa begränsningar föreslår vi ett nytt utökat VKG-ramverk, OntoRaster, som möjliggör virtuell integration och frågebearbetning av raster-, relations- och vektordata. OntoRaster utnyttjar domänspecifika ontologier och stödjer bearbetning av frågor on-the-fly, vilket minimerar kostsamma dataöverföringar genom att delegera beräkningar till specialiserade backend-system. För en rigorös utvärdering av VKG-system såsom OntoRaster introducerar vi omfattande benchmarks med arbetslaster för integrerad bearbetning av raster-vektor-data. Dessa benchmarks använder domänontologier samt syntetiskt genererade, skalbara dataset med varierande egenskaper (upplösning, täckning, pixeltäthet, polygoner etc.). Slutligen undersöker vi metoder för semantisk berikning för platsbaserad business intelligence (BI) genom att exponera en SQL-åtkomlig knowledge graph för BI-verktyg. Dessutom utforskar vi ett LLM-baserat system för att generera rasterbaserade SPARQL-frågor från naturligt språk baserat på ontologier. Detta gör det möjligt för experter inom verksamheter att ta reda på handlingsbara insikter för platsbaserat beslutsfattande och riskbedömning utan krav på expertis med avancerade geospatiala verktyg Sammantaget bygger denna avhandling en bro mellan Big Data-, Semantic Web, AI och BI forskningsområdena genom att främja skalbar, ontologibaserad åtkomst till heterogen multidimensionell data.

Place, publisher, year, edition, pages
Umeå, Sweden: Umeå University, 2026. , p. 172
Series
Report / UMINF, ISSN 0348-0542 ; 26.04
Keywords [en]
Artificial Intelligence (AI), Semantic Web (SW), Business Intelligence (BI), Virtual Knowledge Graph (VKG), Multidimensional Raster Data, Relational Data, Vector Data, Linked Data, Large Language Models (LLMs)
Keywords [sv]
Artificiell intelligens (AI), Semantiska webben (SW), Affärsanalys (BI), Virtuell kunskapsgraf (VKG), Multidimensionell rasterdata, Relationella data, Vektordata, Länkade data, Stora Språkmodeller (LLM)
National Category
Computer and Information Sciences
Research subject
Computer Science
Identifiers
URN: urn:nbn:se:umu:diva-250923ISBN: 978-91-8070-971-2 (print)ISBN: 978-91-8070-972-9 (electronic)OAI: oai:DiVA.org:umu-250923DiVA, id: diva2:2045634
Public defence
2026-04-08, MIT.A.121, MIT-huset, Campustorget 5, 901 87 Umeå, Sweden, Umeå, 13:00 (English)
Opponent
Supervisors
Projects
Wallenberg AI, Autonomous Systems and Software Program (WASP)
Funder
Wallenberg AI, Autonomous Systems and Software Program (WASP), 570011362Available from: 2026-03-18 Created: 2026-03-12 Last updated: 2026-03-17Bibliographically approved

Open Access in DiVA

fulltext(43246 kB)108 downloads
File information
File name FULLTEXT02.pdfFile size 43246 kBChecksum SHA-512
769e886799fa8052214b1ee3dc992d7c4ac0cffc89ab5fcc87a12c5749d7718b7c43dbc9c20a3dfbd05332394cc5faeeaedb24e3c58a40e08d558b0c7d4e1b65
Type fulltextMimetype application/pdf
spikblad(246 kB)18 downloads
File information
File name SPIKBLAD01.pdfFile size 246 kBChecksum SHA-512
017264dcb5a7e5718eaa718a91f8e917f61ab82850a62e81cb35020683e718b70443fcb890bb94b58d3d0d2ef6cfda980518129d96c114dfe879c7e1c1ca1ccb
Type spikbladMimetype application/pdf

Authority records

Ghosh, Arka

Search in DiVA

By author/editor
Ghosh, Arka
By organisation
Department of Computing Science
Computer and Information Sciences

Search outside of DiVA

GoogleGoogle Scholar
Total: 108 downloads
The number of downloads is the sum of all downloads of full texts. It may include eg previous versions that are now no longer available

isbn
urn-nbn

Altmetric score

isbn
urn-nbn
Total: 823 hits
CiteExportLink to record
Permanent link

Direct link
Cite
Citation style
  • apa
  • ieee
  • vancouver
  • Other style
More styles
Language
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Other locale
More languages
Output format
  • html
  • text
  • asciidoc
  • rtf