Vad är korrelationsklustring?

Korrelationsklustring utförs på databaser och andra stora datakällor för att gruppera liknande datauppsättningar, samtidigt som användaren uppmärksammas på olika datauppsättningar. Detta kan göras perfekt i vissa grafer, medan andra kommer att uppleva fel eftersom det kommer att vara svårt att skilja liknande data från olika data. I fallet med det senare kommer korrelationsklustring att hjälpa till att minska fel automatiskt. Detta används ofta för datautvinning, eller för att söka otympliga data efter likheter. Olika data raderas vanligtvis eller placeras i ett separat kluster.

När en korrelationsklustringsfunktion används söker den efter data baserat på användarens instruktioner. Användaren kommer att tala om för programmet vad det ska söka efter och, när det hittas, var data ska placeras. Detta tillämpas normalt på mycket stora datakällor när det skulle vara omöjligt – eller ta för många timmar – att söka igenom data manuellt. Det kan vara antingen perfekt klustring eller imperfekt klustring.

Perfekt klustring är det idealiska scenariot. Det betyder att det bara finns två typer av data, och den ena är vad användaren letar efter medan den andra är onödig. All positiv, eller nödvändig, data placeras i ett kluster, medan andra data raderas eller flyttas. I det här scenariot finns det ingen förvirring och allt fungerar perfekt.

De flesta komplexa grafer tillåter inte perfekt klustring, utan är istället ofullkomliga. Till exempel har en graf tre variabler: X, Y och Z. X,Y är lika, X,Z är lika, men Y,Z är olika. De tre variabla klustren är dock så lika att det är omöjligt att ha perfekt korrelationsklustring. Programmet kommer att arbeta för att maximera antalet positiva korrelationer, men detta kommer fortfarande att kräva en del manuell sökning från användaren.

Inom datautvinning, särskilt när det handlar om stora datamängder, används korrelationsklustring för att gruppera liknande data med liknande data. Till exempel, om ett företag utvinner data för en stor webbplats eller databas och bara vill veta om en specifik aspekt, skulle det ta en evighet att söka igenom all data för den aspekten. Genom att använda en klustringsformel kommer data att läggas åt sidan för korrekt analys.

Olika information hanteras enbart baserat på användarinstruktioner. Användaren kan välja att skicka olika data till olika kluster, eftersom informationen kan vara användbar för andra projekt. Om data är onödiga och bara slösar minne, så slängs den olika informationen ut. I ofullständig klustring är det möjligt att viss olik information inte slängs ut, eftersom den är så lik den data som användaren letar efter.