Vad är Spatial Data Mining?

Spatial data mining är processen att försöka hitta mönster i geografiska data. Vanligast i detaljhandeln har den vuxit ur området datautvinning, som till en början fokuserade på att hitta mönster i textuell och numerisk elektronisk information. Spatial data mining anses vara en mer komplicerad utmaning än traditionell gruvdrift på grund av svårigheterna förknippade med att analysera objekt med konkreta existenser i rum och tid.

Som med standard datautvinning används rumslig datautvinning främst inom marknadsföring och detaljhandel. Det är en teknik för att fatta beslut om var man ska öppna vilken typ av butik. Det kan hjälpa till att informera dessa beslut genom att bearbeta redan existerande data om vilka faktorer som motiverar konsumenter att gå till en plats och inte en annan.

Säg att Ashley vill öppna en nattklubb i ett visst stadskvarter. Om hon hade tillgång till lämplig data skulle hon kunna använda spatial data mining för att ta reda på vilka rumsliga faktorer som gör nattklubbar framgångsrika. Hon kan ställa frågor som: Kommer fler människor att komma till klubben om kollektivtrafiken finns i närheten? Vilket avstånd från andra nattlivsställen maximerar beskydd? Är närheten till bensinstationer ett plus eller ett minus?

Ashley kanske också vill se till att människorna som kommer till hennes nattklubb kommer fram i en jämn fördelning under en enskild natt. Hon kunde också använda spatial data mining – kanske mer exakt, spatiotemporal data mining – för att ta reda på hur människor rör sig genom staden vid vissa tidpunkter. Samma process kan tillämpas på beskydd på olika kvällar i veckan.

Svårigheterna med denna metod är ett resultat av komplexiteten i världen bortom internet. Medan tidigare ansträngningar för datautvinning vanligtvis hade databaser mogna för analys, är de tillgängliga indata för rumslig datautvinning inte rutnät av information utan kartor. Dessa kartor har olika typer av objekt som vägar, befolkningar, företag och så vidare.

Att avgöra om något är ”nära” något annat går från att vara en diskret till en kontinuerlig variabel. Detta ökar den komplexitet som krävs för analys avsevärt. Otroligt nog är detta en av de mer enkla typerna av relationer som är tillgängliga för någon som försöker utvinna rumslig data.
Spatial data mining står också inför problemet med falska positiva resultat. I processen med att söka data och leta efter relationer kommer många uppenbara trender att dyka upp som en konsekvens av statistiska falska positiva resultat. Detta problem finns också för uppgiften att bryta en enklare databas, men det förstärks av mängden data som är tillgänglig för datamineraren. I slutändan bör en trend som identifierats av datautvinning bekräftas genom processen med förklaring och ytterligare forskning.