Vad är Structure Mining?

Structure mining är en typ av data mining där en semistrukturerad datakälla skannas och delar av dess struktur upptäcks och markeras. En semistrukturerad datakälla är en som inte använder den traditionella databasstrukturen för tabeller, men som har ett semantiskt element som separerar information via taggar och markörer. Structure mining kan användas för att bryta databaser, webbplatser och många andra former av datorinformation för att upptäcka delar av strukturen. Det hjälper användare att antingen förstå hur bitar interagerar med varandra eller hur man hittar information under vissa taggar. Denna gruvdrift kan också användas för att förutsäga vad ett föremål är, baserat på regler skrivna av användaren.

Det finns många olika typer av datautvinning, och de flesta handlar om att utvinna en traditionellt strukturerad källa. Detta inkluderar alla källor som använder de tabeller och noder som är typiska för de flesta databaser. Vid strukturutvinning används endast semistrukturerad data. I det här fallet kommer data från webbplatser eller enkla databaser som har en struktur men inte en som överensstämmer med traditionella databasregler. Datan behöver taggar eller markörer som skiljer varje objekt åt för att vara korrekt utvunnet.

Genom att läsa den semistrukturerade datamängden kan strukturutvinning upptäcka hur strukturen interagerar. Till exempel har varje webbplats en navigeringsmodell, och det är denna modell som avgör hur sidorna interagerar. Genom att bryta strukturen kan användaren upptäcka hur denna navigering fungerar, vilket kan hjälpa till att skapa ett liknande navigeringsschema.

Structure mining kan också användas för att hitta föremål genom att skriva regler i gruvprogrammet. Om det till exempel finns en bokdatauppsättning kan användaren skriva en regel om att alla böcker utan index ska återkomma som skönlitteratur, och de med ett index ska återvända som facklitteratur. De flesta skönlitterära böcker saknar ett index, så denna regel kommer att förutsäga med hög noggrannhet vad data är. Detta hjälper användare när de tittar på en semistrukturerad uppsättning som har en organisatorisk metod men inte en som passar vad användaren letar efter.

Efter att ha räknat ut strukturen för den semistrukturerade enheten kommer användaren vanligtvis att jämföra den med en annan semistrukturerad enhet. Om användaren har en företagswebbplats kan han eller hon bryta en annan företagswebbplats för navigering och länkar och se hur hans eller hennes webbplats liknar den. Genom att jämföra den minerade informationen kan användaren hitta sätt att öka strukturens effektivitet.