Deduplicering

Deduplicering (även deduplicering ; från latin  deduplicatio - eliminering av dubbletter) är en specialiserad datamatriskomprimeringsmetod som använder eliminering av dubbletter av repetitiva data som en komprimeringsalgoritm. Denna metod används vanligtvis för att optimera användningen av diskutrymme i lagringssystem , men den kan också användas i nätverkskommunikation för att minska mängden information som överförs.

I processen med deduplicering identifieras och lagras unika bitar av information av en fast storlek ( engelska  bitar ) under analysen. Allt eftersom analysen fortskrider jämförs alla nya och gamla element. När ett duplikatelement identifieras ersätts det med en referens till en unik förekomst (eller en befintlig referens omdirigeras till den), och utrymmet som upptas av duplikatet frigörs. Det kan finnas många sådana återkommande element, på grund av vilka volymen som krävs för att spara en mängd data kan reduceras avsevärt.

Deduplicering bör dock inte förväxlas med mer traditionella komprimeringsalgoritmer som LZ77 eller LZO . Dessa algoritmer söker inom en viss buffert av en enskild fil (det så kallade "sliding window"), medan dedupliceringsalgoritmen söker efter kopior över en enorm mängd data.

Fördelar och tillämpningar

Deduplicering kan minska mängden utrymme som krävs för en viss uppsättning filer. Det är mest effektivt i de fall där de lagrade filerna inte är särskilt olika eller har många likheter, till exempel säkerhetskopior där det mesta av data förblir oförändrade från den senaste säkerhetskopieringen. Säkerhetskopieringssystem kan dra nytta av den här funktionen genom att använda hårda länkar för att duplicera filer eller genom att bara kopiera ändrade filer. Dessa tillvägagångssätt kan dock vara till liten nytta om bara en liten bit data har ändrats för ett stort datablock (till exempel en databas eller ett arkiv med e-postmeddelanden).

Vid dataöverföring kan deduplicering användas för att minska informationen som överförs, vilket sparar på den erforderliga bandbredden för dataöverföringskanalen.

Deduplicering används också i stor utsträckning i virtualiseringssystem , där deduplicering tillåter dig att villkorligt allokera upprepade dataelement för vart och ett av de virtuella systemen till ett separat utrymme.

Länkar