Umeå universitets logga

umu.sePublikationer
Ändra sökning
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf
Integrally private model selection for support vector machine
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.ORCID-id: 0000-0002-8073-6784
Umeå universitet, Teknisk-naturvetenskapliga fakulteten, Institutionen för datavetenskap.ORCID-id: 0000-0002-0368-8037
2024 (Engelska)Ingår i: Computer Security. ESORICS 2023 International Workshops: CyberICS, DPM, CBT, and SECPRE, The Hague, The Netherlands, September 25–29, 2023, Revised Selected Papers, Part I / [ed] Sokratis Katsikas; Frédéric Cuppens; Nora Cuppens-Boulahia; Costas Lambrinoudakis; Joaquin Garcia-Alfaro; Guillermo Navarro-Arribas; Pantaleone Nespoli; Christos Kalloniatis; John Mylopoulos; Annie Antón; Stefanos Gritzalis, Springer Nature, 2024, s. 249-259Konferensbidrag, Publicerat paper (Refereegranskat)
Abstract [en]

Today, there are unlimited applications of data mining techniques. According to ongoing privacy regulations, data mining techniques that preserve users’ privacy are a primary requirement. Our work contributes to the Privacy-Preserving Data Mining (PPDM) domain. We work with Integral Privacy, which provides users with private machine learning model recommendations and privacy against model comparison attacks. For machine learning, we work with Support Vector Machine (SVM), which is based on the structural risk minimization principle. Our experiments show that we obtain highly recurrent SVM models due to their peculiar properties, requiring only a subset of the training data to learn well. Not only high recurrence, but from our empirical results, we show that integrally private SVM models obtain good results in accuracy, recall, precision, and F1-score compared with the baseline SVM model and the ϵ Differentially Private SVM (DPSVM) model.

Ort, förlag, år, upplaga, sidor
Springer Nature, 2024. s. 249-259
Serie
Lecture Notes in Computer Science, ISSN 0302-9743, E-ISSN 1611-3349
Nyckelord [en]
Differential Privacy, Integral Privacy, Privacy-Preserving Data Mining, Support Vector Machine
Nationell ämneskategori
Datavetenskap (datalogi)
Identifikatorer
URN: urn:nbn:se:umu:diva-222652DOI: 10.1007/978-3-031-54204-6_14ISI: 001207238300014Scopus ID: 2-s2.0-85187781947ISBN: 978-3-031-54203-9 (tryckt)ISBN: 978-3-031-54204-6 (digital)OAI: oai:DiVA.org:umu-222652DiVA, id: diva2:1852806
Konferens
International Workshops which were held in conjunction with 28th European Symposium on Research in Computer Security, ESORICS 2023, The HAgue, The Netherlands, September 25-29, 2023
Tillgänglig från: 2024-04-19 Skapad: 2024-04-19 Senast uppdaterad: 2025-04-28Bibliografiskt granskad
Ingår i avhandling
1. Navigating model anonymity and adaptability
Öppna denna publikation i ny flik eller fönster >>Navigating model anonymity and adaptability
2025 (Engelska)Doktorsavhandling, monografi (Övrigt vetenskapligt)
Abstract [en]

In the rapidly evolving era of Artificial Intelligence (AI), privacy-preserving techniques have become increasingly important, particularly in areas such as deep learning (DL). Deep learning models are inherently data-intensive and often rely on large volumes of sensitive personal information to achieve high performance. The increasing usage of data has raised critical concerns around data privacy, user control, and regulatory compliance. As data-driven systems grow in complexity and scale, safeguarding individual privacy while maintaining model utility has become a central challenge in the field of deep learning. Traditional privacy-preserving frameworks focus either on protecting privacy at the database level (e.g., k-anonymity) or during the inference/output from the model (e.g., differential privacy), each introducing trade-offs between privacy and utility. While these approaches have contributed significantly to mitigating privacy risks, they also face practical limitations, such as vulnerability to inference attacks or degradation in model performance due to the added noise. 

In this thesis, we take a different approach by focusing on anonymous models (i.e., models that can be generated by a set of different datasets) in model space with integral privacy. Anonymous models create ambiguity to the  intruder by ensuring that a trained model could plausibly have originated from various datasets, at the same time it gives the flexibility of choosing models which do not cause much utility loss. Since exhaustively exploring the model space to find recurring models is computationally intensive, we introduce a relaxed variant called ∆-Integral Privacy, where two models are considered recurring if they are within a bounded ∆ distance. Using this notion, we present practical frameworks for generating integrally private models for both machine learning and deep learning settings. We also provide probabilistic guarantees, demonstrating that under similar training environments, models tend to recur with high probability when optimized using mean samplers (e.g., SGD, Adam). These recurring models can be further utilized as an ensemble of private model that can estimate prediction uncertainty, which can be used for privacy-preserving concept drift detection in streaming data. We further extend our investigation to distributed settings, particularly Federated Learning (FL), where a central server only aggregates client-side model updates without accessing raw data. With strong empirical evidences supported by theoretical guarantees, we can claim that our frameworks with integral privacy are robust alternatives to conventional privacy-preserving methods.

In addition to generating anonymous models, this thesis also focus on developing approaches which enable users to remove their data and their influence from a machine learning model (machine unlearning) under their right-to-be-forgotten. As the demand for data removal and compliance with right-to-be-forgotten regulations intensifies, the need for efficient, auditable, and realistic unlearning mechanisms becomes increasingly urgent. Beyond regulatory compliance, machine unlearning plays a vital role in removing copyrighted content as well as mitigating security risks. In federated learning, when the clients share same feature space and participate in a huge number, we argue that if the server employs integrally private aggregation mechanism then it can plausibly deny client participation in training the global model up to certain extent. Hence, reducing the computational requirements for frequent unlearning requests. However, when there are limited number of clients with complimentary features, the server must employ unlearning mechanisms to deal with the model compression and high communication cost. This thesis shows that machine unlearning can be made efficient, effective and auditable, even in complex, distributed and generative environments. Our work spans across multiple dimensions, including privacy, auditability, computational efficiency, and adaptability across diverse data modalities and model architectures. 

Abstract [sv]

I den snabbt utvecklande eran av artificiell intelligens (AI) har tekniker för att bevara integritet blivit allt viktigare, särskilt inom områden som djupinlärning (deep learning, DL). Djupinlärningsmodeller är i grunden dataintensiva och förlitar sig ofta på stora mängder känslig personlig information för att uppnå hög prestanda. Den ökande användningen av data har väckt kritiska frågor kring dataintegritet, användarkontroll och efterlevnad av regler. När datadrivna system växer i komplexitet och skala har det blivit en central utmaning inom djupinlärning att skydda individers integritet samtidigt som modellens använd-barhet bibehålls. Traditionella integritetsbevarande ramverk fokuserar antingen på att skydda integritet på databasnivå (t.ex. k-anonymitet) eller i samband med inferens/utdata från modellen (t.ex. differentiell integritet), där bägge introducerar avvägningar mellan integritet och användbarhet. Även om dessa metoder har bidragit avsevärt till att minska integritetsrisker, står de också inför praktiska begränsningar, såsom sårbarhet för inferensattacker eller försämring av modellprestanda på grund av medkommande brus.

I denna avhandling tar vi en annan ansats genom att fokusera på anonyma modeller (dvs. modeller som kan genereras av en uppsättning olika datamäng-der) i modellrummet med väsentlig integritet (integral privacy). Anonyma modeller skapar tvetydighet för inkräktaren genom att säkerställa att en tränad modell rimligen kan ha härstammat från olika datamängder, samtidigt som det ger flexibiliteten att välja modeller som inte orsakar stora förluster i användbar-het. Eftersom det är beräkningsintensivt att uttömmande utforska modellutrymmet för att hitta återkommande modeller, introducerar vi en mindre strikt variant kallad ∆-essentiell integritet, där två modeller anses återkomma-nde om de ligger inom ett begränsat ∆-avstånd. Med hjälp av detta begrepp presenterar vi praktiska ramverk för att generera integrerade privata modeller för både maskininlärnings- och djupinlärningsmiljöer. Vi tillhandahåller också sannolikhetsgarantier som visar att under liknande träningsmiljöer tenderar modeller att återkomma med stor sannolikhet när de optimeras med medelvärdesprover (t.ex. SGD, Adam). Dessa återkommande modeller kan vidare användas som en gruppering av privata modeller som kan uppskatta prediktionsosäkerhet, vilket kan användas för integritetsbevarande upptäckt av konceptavvikelse i strömmande data. Vidare utvidgar vi vår undersökning till distribuerade miljöer, särskilt federerad maskininlärning (federated learning, FL), där en central server endast aggregerar klient-sidans modelluppdateringar utan att komma åt rådata. Med starka empiriska bevis stödda av teoretiska garantier kan vi hävda att våra ramverk med integrerad integritet är robusta alternativ till konventionella integritetsbevarande metoder.

Förutom att generera anonyma modeller fokuserar denna avhandling också på att utveckla metoder som gör det möjligt för användare att ta bort sina data och deras påverkan från en maskininlärningsmodell (maskinavlärning) vid deras rätt-att- bli-bortglömd (right-to-be-forgotten). När efterfrågan på dataradering och överensstämmelse med rätt-att-bli-bortglömd intensifieras, blir behovet av effektiva, reviderbara och realistiska avlärningsmekanismer alltmer angeläget. Utöver överensstämmelse med regelverket spelar maskinavlärning en viktig roll i att ta bort upphovsrättsskyddat innehåll samt minska säkerhetsrisker. I federerad inlärning, när klienterna delar samma omfång av särdrag och deltar i stort antal, hävdar vi att om servern använder en integrerad privat aggregeringsmekanism kan den rimligen förneka klientdeltagande i att träna den globala modellen till viss del. Därmed minskar beräkningskraven för frekventa avlärningsförfrågningar. Däremot när det finns ett begränsat antal klienter med kompletterande särdrag måste servern använda avlärningsmekanismer för att hantera modellkompression och höga kommunikationskostnader. Denna avhandling visar att maskinavlärning kan göras ändamålsenlig, effektiv och reviderbar, även i komplexa, distribuerade och generativa miljöer. Vårt arbete sträcker sig över flera dimensioner, inklusive integritet, reviderbarhet, beräkningsmässig effektivitet och anpassningsbarhet över olika datamodaliteter och modellarkitekturer.

Ort, förlag, år, upplaga, sidor
Umeå: Umeå University, 2025. s. 180
Serie
Report / UMINF, ISSN 0348-0542 ; 25.04
Nyckelord
Machine learning, Integral privacy, Federated Learning, Machine Unlearning, Federated Unlearning, Generative Machine Unlearning, Multimodal Unlearning.
Nationell ämneskategori
Artificiell intelligens
Forskningsämne
datalogi
Identifikatorer
urn:nbn:se:umu:diva-238196 (URN)978-91-8070-671-1 (ISBN)978-91-8070-672-8 (ISBN)
Disputation
2025-05-26, BIO.A.206 - Aula Anatomica, Biologihuset, plan 2, Umeå, 10:00 (Engelska)
Opponent
Handledare
Forskningsfinansiär
Wallenberg AI, Autonomous Systems and Software Program (WASP)
Tillgänglig från: 2025-05-05 Skapad: 2025-04-27 Senast uppdaterad: 2025-05-05Bibliografiskt granskad

Open Access i DiVA

Fulltext saknas i DiVA

Övriga länkar

Förlagets fulltextScopus

Person

Kwatra, SaloniVarshney, Ayush K.Torra, Vicenç

Sök vidare i DiVA

Av författaren/redaktören
Kwatra, SaloniVarshney, Ayush K.Torra, Vicenç
Av organisationen
Institutionen för datavetenskap
Datavetenskap (datalogi)

Sök vidare utanför DiVA

GoogleGoogle Scholar

doi
isbn
urn-nbn

Altmetricpoäng

doi
isbn
urn-nbn
Totalt: 156 träffar
RefereraExporteraLänk till posten
Permanent länk

Direktlänk
Referera
Referensformat
  • apa
  • ieee
  • vancouver
  • Annat format
Fler format
Språk
  • de-DE
  • en-GB
  • en-US
  • fi-FI
  • nn-NO
  • nn-NB
  • sv-SE
  • Annat språk
Fler språk
Utmatningsformat
  • html
  • text
  • asciidoc
  • rtf