Datautvinning använder en relativt stor mängd datorkraft som arbetar på en stor uppsättning data för att fastställa regelbundenheter och kopplingar mellan datapunkter. Algoritmer som använder tekniker från statistik, maskininlärning och mönsterigenkänning används för att söka i stora databaser automatiskt. Datautvinning är också känt som Knowledge-Discovery in Databases (KDD).
Liksom termen artificiell intelligens är data mining ett paraplybegrepp som kan appliceras på ett antal olika aktiviteter. I företagsvärlden används datautvinning oftast för att bestämma trendernas riktning och förutsäga framtiden. Den används för att bygga modeller och beslutsstödssystem som ger människor information de kan använda. Datautvinning tar en frontlinjeroll i kampen mot terrorism. Den ska ha använts för att bestämma ledaren för attackerna den 9 september.
Dataminerare är statistiker som använder tekniker med namn som nära-granne-modeller, k-means-klustring, holdout-metod, k-faldig korsvalidering, leave-one-out-metoden, och så vidare. Regressionstekniker används för att subtrahera irrelevanta mönster och lämnar bara användbar information. Termen Bayesian ses ofta i fältet, och hänvisar till en klass av slutledningstekniker som förutsäger sannolikheten för framtida händelser genom att kombinera tidigare sannolikheter och sannolikheter baserade på villkorade händelser. Skräppostfiltrering är utan tvekan en form av datautvinning, som automatiskt tar upp relevanta meddelanden till ytan från ett kaotiskt hav av nätfiskeförsök och Viagra-pitches.
Beslutsträd används för att filtrera berg av data. I ett beslutsträd passerar all data genom en ingångsnod, där den står inför ett filter som separerar data i strömmar beroende på dess egenskaper. Till exempel kommer data om konsumentbeteende sannolikt att filtreras baserat på demografiska faktorer. Datautvinning handlar inte i första hand om snygga grafer och visualiseringstekniker, men den använder dem för att visa vad den har hittat. Det är känt att vi kan absorbera mer statistisk information visuellt än verbalt och detta format för presentation kan vara mycket övertygande och kraftfullt om det används i rätt sammanhang.
När vår civilisation blir allt mer datamättad och sensorer distribueras en masse till våra lokala miljöer, kommer vi oavsiktligt att upptäcka saker som kan missas vid den första passeringen. Datautvinning låter oss rätta till dessa misstag och upptäcka nya insikter baserade på tidigare data, vilket ger oss mer valuta för våra datalagringspengar.