Vad är Text Mining?

Textutvinning är processen att använda datorteknik för att sålla igenom textdokument för forskning och analys. Den anses ofta vara mycket lik den process som kallas datautvinning, men den förlitar sig på speciell programmering för att leta i okategoriserad text och hitta mening eller mönster istället för att analysera förkategoriserad databasinformation. Textutvinning har många tillämpningar inom områden som vetenskap, marknadsföring och dataorganisation.

Komplexiteten i att organisera ord i språk är alldeles för extrem för datorer att hantera, men forskare har arbetat hårt för att förbättra denna typ av programmering. Många metoder har utvecklats som låter forskare identifiera fraser och upptäcka fakta om text. Detta är i allmänhet inte detsamma som att helt dechiffrera innebörden, men det möjliggör genvägar som uppnår många av samma mål. Textutvinning drar fördel av några av dessa tekniker, och allt eftersom denna teknik förbättras förväntas textutvinning i allmänhet också förbättras.

Experter använder textinformationsanalys främst för att forska i skrivna dokument. Stora mängder skrivna data kan vara svåra att analysera på grund av den enorma tid som krävs. Datorer kan gå igenom den här texten mycket snabbare, men de kan inte förstå den. Textutvinningstekniker tillåter datorer att hitta användbara trender i text, presentera data på ett sätt som kan avslöja nya fakta eller tillåta experter att göra upptäckter.

Ett exempel på användning av denna teknik skulle vara marknadsundersökningar. Experter kan analysera sökresultat på ett produktnamn och låta programmet leta efter fraser som uttrycker användarnas känslor. På så sätt kan de få reda på hur folk verkligen känner för sin produkt på ett mycket detaljerat sätt. De kunde också helt enkelt leta efter sin produkt och se vilka fraser som dök upp oftast, och detta kan hjälpa dem att utveckla nya idéer om hur de kan tillfredsställa sina kunder.

En annan användning för gruvtext är att analysera vetenskapliga artiklar om liknande ämnen och leta efter nya trender eller avtal. Detta har gjort det möjligt för vissa forskare att göra prediktiva antaganden som har visat sig användbara inom områden som proteinanalys. Vissa experter tror att den här typen av applikationer så småningom kan ge oväntade upptäckter.

En process som kallas datautvinning är faktiskt ganska lik utvinning av text, men den är generellt sett mindre komplicerad att göra eftersom den bygger på text som redan har formaterats i kategorier. Programvaran kan till exempel gå igenom all information för arbetssökande i en databas och leta efter trender. Textutvinning är svårare för datorer att göra eftersom ren text är svårare att analysera än data med kategorier.