Statistisk datautvinning, även känd som kunskap eller dataupptäckt, är en datoriserad metod för att samla in och analysera information. Datautvinningsverktyget tar data och kategoriserar informationen för att upptäcka mönster eller korrelationer som kan användas i viktiga tillämpningar, såsom medicin, datorprogrammering, affärsfrämjande och robotdesign. Statistiska datautvinningstekniker använder komplex matematik och komplicerade statistiska processer för att skapa en analys.
Data mining involverar fem stora steg. Den första datautvinningsapplikationen samlar in statistisk data och placerar informationen i ett program av lagertyp. Därefter organiseras data i lagret och skapar ett ledningssystem. Nästa steg skapar ett sätt att komma åt hanterad data. Sedan utvecklar det fjärde steget mjukvara för att analysera data, även känd som dataminingregression, medan det sista steget underlättar att använda eller tolka statistiska data på ett praktiskt sätt.
Generellt sett integrerar datautvinningstekniker analytiska och transaktionsdatasystem. Analytisk programvara sorterar igenom båda typerna av datasystem med hjälp av öppna användarfrågor. Öppna frågor tillåter otaliga svar så att programmerare inte påverkar resultatet av sorteringen. Programmerare skapar listor med frågor för att hjälpa till att kategorisera informationen med ett övergripande fokus.
Sortering baseras sedan på att utveckla klasser och kluster av data, associationer som finns i datan och försök att definiera mönster och trender utifrån associationerna. Till exempel samlar Google in information om användarnas köpvanor för att hjälpa till med att placera onlineannonsering. Öppna frågor som används för att sortera denna köpardata fokuserar på köppreferenser eller tittarvanor hos internetanvändare.
Datavetare och programmerare fokuserar på analysen av de statistiska data som samlas in. Skapande av beslutsträd, artificiella neurala nätverk, närmaste granne-metod, regelinduktion, datavisualisering och genetiska algoritmer använder alla statistiskt minerade data. Dessa klassificeringssystem hjälper till att tolka de associationer som upptäckts av de analytiska dataprogrammen. Statistisk datautvinning involverar små projekt som kan göras i liten skala på en hemdator, men de flesta datautvinningsföreningsuppsättningar är så stora och datautvinningsregressionen så komplicerad att de kräver en superdator eller ett nätverk av höghastighetsdatorer.
Statistisk datautvinning samlar in tre allmänna typer av data, inklusive driftsdata, icke-operativa data och metadata. I en klädbutik är driftsdata basdata som används för att driva verksamheten, såsom redovisning, försäljning och lagerkontroll. Icke-operativa data, som är indirekt relaterade till verksamheten, inkluderar uppskattningar av framtida försäljning och allmän information om den nationella klädmarknaden. Metadata handlar om själva datan. Ett program som använder metadata kan sortera butikskunder i klassificeringar baserade på kön eller geografisk plats för klädköparna eller kundens favoritfärg, om denna data samlades in.
En datautvinningsapplikation kan vara extremt sofistikerad och det statistiska datautvinningsverktyget kan ha omfattande praktiska tillämpningar. Studiet av sjukdomsutbrott är ett exempel. Ett datautvinningsprojekt år 2000 analyserade sjukdomsutbrottet av cryptosporidium i Ontario, Kanada för att fastställa orsakerna till ökningen av sjukdomsfall. Resultaten av datautvinningen hjälpte till att koppla bakterieutbrottet till lokala vattenförhållanden och bristen på korrekt kommunal vattenrening. Ett fält som kallas ”bioövervakning” använder epidemiologisk datautvinning för att identifiera utbrott av en enskild sjukdom.
Datorprogrammerare och designers använder också studiet av sannolikhet och statistisk dataanalys för att utveckla maskiner och datorprogram. Googles sökmotor på Internet har utformats med hjälp av statistisk datautvinning. Google fortsätter att samla in och använda datautvinning för att skapa programuppdateringar och applikationer.