Vad är Sequence Mining?

Sekvensutvinning är en typ av strukturerad datautvinning där databasen och administratören letar efter sekvenser eller trender i datan. Denna datautvinning är uppdelad i två fält. Itemset sequence mining används vanligtvis i marknadsföring, och string sequence mining används i biologisk forskning. Sekvensbrytning skiljer sig från vanlig trendbrytning, eftersom data är mer specifik, vilket gör det svårt för databasdesigners att bygga en effektiv databas, och det kan ibland gå snett om sekvensen skiljer sig från den vanliga sekvensen.

Vid ett eller annat tillfälle används alla databaser för att bryta efter data. Denna gruvdrift hjälper företag och forskare att hitta något de behöver. Vanligtvis letar de efter någon sorts trend, men vad den trenden är och hur specifik informationen är beror på databasens design. Vid sekvensbrytning är databasen byggd för att hitta mycket specifika sekvenser, med liten eller ingen variation. Detta är en unik form av strukturerad datautvinning där databasen tittar igenom den strukturerade datan efter likheter.

Sekvensbrytning kan delas in i två kategorier. Itemset mining används inom marknadsföring och affärer för att hitta specifika trender i försäljningssiffror, produkttyper, produktplacering i en butik och användningen av en produkt. Dessa siffror tas och tillämpas på marknadsföringsalgoritmer för att hjälpa till att lägga strategi på ett marknadsföringsprojekt och för att stärka försäljningen. Information om en produkt och hur den vanligtvis fungerar tas från databasen, men den definierande aspekten av artikeluppsättningssekvensutvinning är att sekvensen är hämtad från databasceller med flera symboler.

String mining är motsatsen till itemset mining eftersom den ser på varje symbol individuellt snarare än som ett kluster. Vid strängbrytning kan databasen vara inställd för att hitta en sekvens från en proteinkälla eller genprover. Detta hjälper till att jämföra många genprover för att se om de är lika eller för att bryta ner stora sekvenser och hitta vilka sekvenser de innehåller. Mestadels biologiska och medicinska forskarlag använder detta.

Att skapa en databas för sekvensmining kan vara svårt eftersom, till skillnad från trend mining och annan strukturerad data mining, måste sekvenserna specifikt matcha varandra. Detta leder också till problemet med brytning av sekvenser. Om sekvensen är annorlunda kommer den inte att kännas igen, vilket kan försvåra brytning av artiklar. Strängbrytning drar vanligtvis nytta av detta, eftersom den minsta skillnaden i ett vävnadsprov kan göra organismen – eller vad forskargruppen nu forskar på – helt skild från andra prover.