Datautvinningsverktyg är programvarukomponenter och teorier som låter användare extrahera information från data. Verktygen ger individer och företag möjligheten att samla in stora mängder data och använda den för att fatta beslut om en viss användare eller grupper av användare. Några av de vanligaste användningarna av verktyg för datautvinning är inom marknadsföring, bedrägeriskydd och övervakning.
Den manuella utvinningen av data har funnits i hundratals år. Men automatiseringen av datautvinning har varit mest utbredd sedan datorålderns gryning. Under 20-talet uppstod olika datavetenskaper för att hjälpa till att stödja konceptet att utveckla verktyg för datautvinning. Det övergripande målet med användningen av verktygen är att avslöja dolda mönster. Till exempel, om ett marknadsföringsföretag upptäcker att en person tar en månatlig resa från New York City till Los Angeles, blir det fördelaktigt för det företaget att annonsera detaljer om destinationen för individen.
Inom datautvinningsindustrin har standarder upprättats för att definiera parametrarna för användningen av datautvinningsverktyg. Årligen håller Association for Computing Machinerys Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD) ett möte för att fastställa vilka processer som används. Samma grupp ansvarar också för att bedöma de etiska implikationerna av analysen av data från individer och företag. En tvåårig tidskrift publiceras av gruppen med titeln SIGKDD Explorations.
Det vanligaste verktyget som används vid datautvinning är processen som kallas Knowledge Discovery in Databases (KDD). KDD utvecklades 1989 av Gregory Piatetsky-Shapiro. Med detta datautvinningsverktyg kan användare bearbeta rådata, bryta data för information och tolka de olika resultaten i form av informationshantering.
En av de viktigaste formerna av datautvinningsverktyg används för att bekämpa terrorism under 21-talet. I USA använder National Research Council begreppen mönsterutvinning och ämnesbaserad datautvinning för att identifiera terroristaktivitet i den stora informationspoolen runt om i världen. Mönsterutvinning definieras av processen att lokalisera mönster inom en stor mängd data. Ämnesbaserad datautvinning försöker identifiera relationer mellan individer. Båda teknikerna kan också användas i allmän affärspraxis genom att definiera tankesättet hos en kundbas och den interaktiva relationen mellan kunder.