Differentiell integritet är en uppsättning metoder som ger de mest exakta frågorna till en statistisk databas samtidigt som möjligheten att identifiera enskilda poster i den minimeras.
Differentiell integritet är den matematiska definitionen av förlust av individers känsliga data när deras personliga information används för att skapa en produkt. Termen myntades av Cynthia Dwork 2006 [1] men används också i en tidigare publikation av Dwork, Frank McSherry , Kobe Nissim och Adam D. Smith [2] . Arbetet baseras särskilt på forskning av Nissim och Irit Dinur [3] [4] som visade att det är omöjligt att publicera information från en privat statisk databas utan att exponera en del av den privata informationen, och att hela databasen kan lämnas ut. genom att publicera resultaten av ett ganska litet antal förfrågningar [4] .
Efter studien stod det klart att det var omöjligt att säkerställa konfidentialitet i statistiska databaser med hjälp av befintliga metoder, och som ett resultat av detta fanns ett behov av nya som skulle begränsa riskerna förknippade med förlust av privat information i statistiken. databas. Som ett resultat av detta har nya metoder skapats som i de flesta fall gör det möjligt att tillhandahålla korrekt statistik från databasen, samtidigt som det ger en hög nivå av konfidentialitet [5] [6] .
Differentiell integritet bygger på att införa slumpmässighet i data.
Ett enkelt exempel utvecklat inom samhällsvetenskapen [7] är att be en person svara på frågan "Har du attribut A?" enligt följande procedur:
Sekretess uppstår eftersom det är omöjligt att med säkerhet veta från svaret om en person har en given egenskap. Ändå är dessa uppgifter betydande, eftersom positiva svar kommer från en fjärdedel av de människor som inte har denna egenskap och tre fjärdedelar av dem som faktiskt har den. Således, om p är den sanna andelen personer med A, förväntar vi oss att få (1/4) (1- p) + (3/4) p = (1/4) + p / 2 positiva svar. Därför kan man uppskatta R.
Låt ε vara ett positivt reellt tal och A vara en probabilistisk algoritm som tar en uppsättning data som indata (representerar handlingar av en betrodd part som har datan). Beteckna bilden av A av im A . Algoritm A är ε - differentiellt privat om för alla datamängder och som skiljer sig åt med ett element (d.v.s. data för en person), såväl som alla delmängder S av uppsättningen im A :
där P är sannolikheten.
Enligt denna definition är differentiell integritet ett villkor för datapubliceringsmekanismen (det vill säga bestäms av den betrodda part som släpper information om datamängden), inte själva datamängden. Intuitivt betyder detta att för två liknande datauppsättningar kommer den differentiella privata algoritmen att bete sig ungefär likadant på båda datauppsättningarna. Definitionen ger också en stark garanti för att närvaron eller frånvaron av en individ inte kommer att påverka den slutliga utmatningen av algoritmen.
Anta till exempel att vi har en databas med medicinska journaler där varje journal är ett par av ( Namn , X ) där är noll eller en som anger om personen har gastrit eller inte:
namn | Förekomst av gastrit (X) |
---|---|
Ivan | ett |
Peter | 0 |
Vasilisa | ett |
Michael | ett |
Maria | 0 |
Anta nu att en illvillig användare (ofta kallad en angripare) vill ta reda på om Mikhail har gastrit eller inte. Låt oss också anta att han vet vilken rad som innehåller information om Mikhail i databasen. Anta nu att en angripare endast tillåts använda en specifik form av fråga som returnerar en delsumma av de första raderna i en kolumn i databasen. För att ta reda på om Mikhail har gastrit, utför angriparen frågor: och , beräknar sedan deras skillnad. I det här exemplet är , och , så skillnaden är . Detta betyder att fältet "Närvaro av gastrit" i Mikhails linje bör vara lika med . Detta exempel visar hur individuell information kan äventyras även utan en uttrycklig begäran om en specifik persons uppgifter.
Om vi fortsätter med detta exempel, om vi bygger datamängden genom att ersätta (Mikhail, 1) med (Mikhail, 0), kommer angriparen att kunna skilja från genom att beräkna för varje datamängd. Om en angripare skulle få värden via en ε-differentiell privat algoritm, för en tillräckligt liten ε, skulle han inte kunna skilja mellan de två datamängderna.
Myntexemplet som beskrivs ovan är -differentiellt privat [8] .
Fallet när ε = 0 är idealiskt för att upprätthålla konfidentialitet, eftersom närvaron eller frånvaron av någon information om någon person i databasen inte påverkar resultatet av algoritmen, men en sådan algoritm är meningslös när det gäller användbar information, eftersom även med noll antal personer kommer det att ge samma eller liknande resultat.
Om ε tenderar till oändlighet, så kommer vilken sannolikhetsalgoritm som helst att passa definitionen, eftersom ojämlikheten alltid är uppfylld.
Låt vara ett positivt heltal, vara en datamängd och vara en funktion. Känsligheten [9] för funktionen, betecknad med , bestäms av formeln
över alla par av datamängder och in , som inte skiljer sig åt med mer än ett element och där anger normen .
I exemplet ovan på en medicinsk databas, om vi tar hänsyn till känsligheten för funktionen , då är den lika med , eftersom att ändra någon av posterna i databasen leder till något som antingen ändras till eller inte ändras.
På grund av det faktum att differentiell integritet är ett probabilistiskt koncept, har alla dess metoder nödvändigtvis en slumpmässig komponent. Vissa av dem använder, som Laplaces metod, tillägg av kontrollerat brus till funktionen som ska beräknas.
Laplacemetoden lägger till Laplace-brus, det vill säga bruset från Laplace-fördelningen , som kan uttryckas som en sannolikhetstäthetsfunktion och som har noll medelvärde och standardavvikelse . Låt oss definiera utdatafunktionen som en verkligt värderad funktion i formen där , och är frågan som vi planerade att köra i databasen. Det kan alltså betraktas som en kontinuerlig slumpvariabel , där
som inte är mer än (pdf - sannolikhetstäthetsfunktion eller sannolikhetstäthetsfunktion). I det här fallet kan vi beteckna integritetsfaktorn ε. Är alltså enligt definitionen ε-differentiellt privat. Om vi försöker använda detta begrepp i exemplet ovan om närvaron av gastrit, måste det för att vara en ε-differentiell privat funktion hålla , eftersom ).
Förutom Laplace-buller kan andra typer av buller (till exempel Gaussiskt) också användas, men de kan kräva en liten uppmjukning av definitionen av differentiell integritet [10] .
Om vi kör en fråga ε-differentiellt säkra gånger, och det slumpmässiga bruset som introduceras är oberoende för varje fråga, så kommer den totala integriteten att vara (εt)-differentiell. Mer generellt, om det finns oberoende mekanismer: , vars integritetsgarantier är likvärdiga respektive, kommer alla funktioner att vara -differentiellt privata [11] .
Dessutom, om frågor exekveras på icke-överlappande delmängder av databasen, så skulle funktionen vara -differentiellt privat [11] .
Differentiell integritet i allmänhet är utformad för att skydda integriteten mellan databaser som skiljer sig bara en rad. Detta innebär att ingen motståndare med godtycklig hjälpinformation kan veta om någon enskild deltagare har lämnat sin information. Detta koncept kan dock utvidgas till en grupp om vi vill skydda databaser som skiljer sig åt efter rader så att en angripare med godtycklig stödinformation inte kan veta om enskilda medlemmar har lämnat sin information. Detta kan uppnås om formeln från definitionen ersätts med [12] , då för D 1 och D 2 som skiljer sig åt med rader
Genom att använda parametern (ε/c) istället för ε kan du alltså uppnå önskat resultat och skydda strängarna. Med andra ord, istället för att varje element är ε-differentiellt privat, nu är varje grupp av element ε-differentiellt privat, och varje element är (ε/c)-differentiellt privat.
Hittills finns det flera användningsområden för differentiell integritet: