Termerna data mining och data warehousing blandas ofta ihop av både affärs- och teknisk personal. Hela området för datahantering har upplevt en fenomenal tillväxt med implementeringen av datainsamlingsprogram och de minskade kostnaderna för datorminne. Det primära syftet bakom båda dessa funktioner är att tillhandahålla verktyg och metoder för att utforska mönstren och meningen i stora mängder data.
De primära skillnaderna mellan data mining och data warehousing är systemdesignen, metodiken som används och syftet. Datautvinning är användningen av mönsterigenkänningslogik för att identifiera trender inom en exempeldatauppsättning och extrapolera denna information mot den större datapoolen. Datalager är processen att extrahera och lagra data för att möjliggöra enklare rapportering.
Data mining är en allmän term som används för att beskriva en rad affärsprocesser som härleder mönster från data. Vanligtvis används ett mjukvarupaket för statistisk analys för att identifiera specifika mönster, baserat på datamängden och frågor som genereras av slutanvändaren. En typisk användning av datautvinning är att skapa riktade marknadsföringsprogram, identifiera ekonomiska bedrägerier och att flagga ovanliga beteendemönster som en del av en säkerhetsgranskning.
Ett utmärkt exempel på datautvinning är den process som används av telefonbolag för att marknadsföra produkter till befintliga kunder. Telefonbolaget använder programvara för datautvinning för att komma åt sin databas med kundinformation. En fråga skrivs för att identifiera kunder som har abonnerat på bastelefonpaketet och internettjänsten under en viss tidsram. När denna datamängd väl har valts skrivs en annan fråga för att avgöra hur många av dessa kunder som utnyttjade gratis ytterligare telefonfunktioner under en provkampanj. Resultaten av denna datautvinning avslöjar beteendemönster som kan driva eller hjälpa till att förfina en marknadsföringsplan för att öka användningen av ytterligare telefontjänster.
Det är viktigt att notera att det primära syftet med datautvinning är att upptäcka mönster i datan. Specifikationerna som används för att definiera provuppsättningen har en enorm inverkan på relevansen av utdata och analysens noggrannhet. För att återgå till exemplet ovan, om datamängden är begränsad till kunder inom ett specifikt geografiskt område, kommer resultaten och mönstren att skilja sig från en bredare datamängd. Även om både datautvinning och datalager arbetar med stora mängder information är processerna som används ganska olika.
Ett datalager är en mjukvaruprodukt som används för att lagra stora mängder data och köra specifikt utformade frågor och rapporter. Business intelligence är ett växande studieområde som fokuserar på datalagring och tillhörande funktionalitet. Dessa verktyg är utformade för att extrahera data och lagra dem i en metod som är utformad för att ge förbättrad systemprestanda. Mycket av terminologin inom datautvinning och datalager är densamma, vilket leder till mer förvirring.