Vad är datadeduplicering?

Datadeduplicering är en teknik för att komprimera data där dubbletter av data raderas, bibehålla en kopia av varje informationsenhet i ett system istället för att tillåta multiplar att frodas. De bevarade kopiorna har referenser som gör att systemet kan hämta dem. Denna teknik minskar behovet av lagringsutrymme och kan hålla systemen igång snabbare förutom att begränsa kostnaderna för datalagring. Det kan fungera på ett antal sätt och används på många typer av datorsystem.

I datadeduplicering på filnivå letar systemet efter eventuella duplicerade filer och tar bort extrafunktionerna. Deduplicering på blocknivå tittar på datablock i filer för att identifiera främmande data. Människor kan sluta med fördubblad data av en mängd olika anledningar, och att använda datadeduplicering kan effektivisera ett system, vilket gör det lättare att använda. Systemet kan med jämna mellanrum gå igenom data för att leta efter dubbletter, eliminera extrafunktioner och generera referenser för de filer som lämnas kvar.

Sådana system kallas ibland för intelligenta komprimeringssystem, eller enstaka lagringssystem. Båda termerna refererar till tanken att systemet fungerar intelligent för att lagra och arkivera data för att minska belastningen på systemet. Datadeduplicering kan vara särskilt värdefullt med stora system där data från ett flertal källor lagras och lagringskostnaderna ständigt ökar, eftersom systemet behöver byggas ut över tid.

Dessa system är designade för att vara en del av ett större system för komprimering och hantering av data. Datadeduplicering kan inte skydda system från virus och fel, och det är viktigt att använda adekvat antivirusskydd för att hålla ett system säkert och begränsa viruskontamination av filer samtidigt som man säkerhetskopierar på en separat plats för att åtgärda oro för dataförlust på grund av avbrott, skador på utrustning och så vidare. Att ha data komprimerad innan säkerhetskopiering kommer att spara tid och pengar.

System som använder datadeduplicering i sin lagring kan köras snabbare och mer effektivt. De kommer fortfarande att kräva periodisk expansion för att ta emot nya data och för att ta itu med säkerhetsproblem, men de borde vara mindre benägna att snabbt fyllas på med duplicerad data. Detta är ett särskilt vanligt problem på e-postservrar, där servern kan lagra stora mängder data för användare och betydande delar av den kan bestå av dubbletter som samma bilagor som upprepas om och om igen; till exempel har många som skickar e-post från jobbet bifogade sidfötter med e-postfriskrivningar och företagslogotyper, och dessa kan snabbt äta upp serverutrymmet.