Vad är deduplicering?

Deduplicering är en process som används för att eliminera överflödig data. Under processen skannas en dators hårddisk efter stora sekvenser av data över jämförelsefönster. När du söker efter dubbletter av data väljs vanligtvis sekvenser på åtta kilobyte eller mer ut. Om sekvensen hittas någon annanstans i lagringssystemet, refereras den duplicerade filen till istället för att lagras igen.

En framgångsrik deduplicering kan eliminera flera kilobyte data på en dator, vilket leder till uppenbara fördelar. Dataduplicering tar onödigt utrymme i systemet och när ovidkommande data tas bort lämnar detta användaren med mer lagringsutrymme på datorn. Detta gör att systemet kan köras snabbare och mer effektivt eftersom det inte fastnar med extra data. Dessutom är bandbreddsförbättringar alltid mer märkbara när en dator har mer ledigt utrymme.

Deduplicering innebär att man hänvisar den stora mängden data till den första platsen och raderar de extra kopiorna av data, som dock indexeras om de skulle behövas. Ofta kan exakt samma data lagras på så många som 100 olika platser på en hårddisk. Om var och en tar upp en megabyte utrymme kommer deduplicering att minska detta utrymme på hårddisken från 100 megabyte till bara en. Processen fungerar genom att arkivera data, och det extra utrymmet som erhålls är mycket fördelaktigt för en dators hårddisk.

Ytterligare fördelar med deduplicering inkluderar att minska mängden säkerhetskopieringsutrymme som behövs med så mycket som 90 procent, minska kostnader som ström, utrymme och kylbehov, återställa en högre servicenivå, eliminera många olika typer av fel och återställa data vid flera olika punkter. En nackdel med deduplicering är att den identifierar dubblettdata med hjälp av kryptografiska hashfunktioner, som kan vara opålitliga, och en kollision eller annan typ av fel skulle resultera i förlust av data. Dessutom, om den person som godkände proceduren inte är medveten om den inblandade redundansminskningen, kan datorns tillförlitlighet påverkas negativt.

Datadeduplicering fungerar genom att först segmentera varje databit som bearbetas. Varje segment identifieras och jämförs med data som redan finns i systemet. Om uppgifterna är unika lagras de på en disk. Om det är en dubblett av data skapas istället en referens. Deduplicering kan implementeras med programvara som kallas Data Domain, som arbetar med data- och lagringssystem för att filtrera igenom data, referera, eliminera eller lagra varje byte, allt efter vad som är lämpligt.