Vad är semantisk integration?

”Semantisk integration” är en term som används i flera sammanhang inom olika områden av datordesign, programmering, förvaltning och administration. I allmänhet avser det att samla information från en eller flera olika källor i syfte att skapa något system där informationen är organiserad på ett sätt som är vettigt för en användare. Semantisk integration handlar ofta om att definiera och etablera metadataförbindelser, eller relationer, mellan olika delar av de olika datakällorna så att de kan struktureras logiskt. Det kan handla om att skapa relationskopplingar mellan två separata databaser, att bygga en graf över hur delar av olika webbplatser förhåller sig till varandra, eller att integrera faktadata från ett okänt, godtyckligt format i en kortfattad poststruktur. Det finns många praktiska tillämpningar för ett fullt implementerat semantiskt integrationssystem, inklusive forskningsbibliotek eller nätverk, mer organiska sökmotoralgoritmer som kan extrapolera kontext från en sökning och i slutändan – genom användning av metadatapublicering – sömlös integration av olika datorsystem för datautbyte .

Det yttersta målet med semantisk integration är i de flesta fall att kunna associera information på ett dynamiskt sätt. I ett mycket enkelt exempel kan detta innebära att man kan associera fält i en databas med fält i en annan databas, trots att de inte är exakta matchningar, som att relatera ett fält som heter ”storlek” till ett fält med namnet ”höjd”. Denna koppling kan utföras genom användardefinierade regler som specifikt länkar de två, eller så kan den göras med algoritmer som jämför fältens numeriska data och bestämmer en trolig matchning. Orden ”storlek” och ”höjd” blir sedan metadatatermer som andra externa semantiska integrationssystem kanske kan använda för att hitta informationen för en användare utan att behöva veta specifikt hur ett enskilt system lagrar data.

I komplexa semantiska integrationssystem, som de som är designade för forskning, är metadatapublicering och delning en nyckelkomponent för driften. Metadata kan hämtas från dokument för att bilda stora relationsdatastrukturer som kan hjälpa till med frågor. Detta innebär att forskningsartiklar om vilket ämne som helst kan integreras i ett system som mäter och registrerar frekvensen av ord, och dessa ord kan hjälpa till vid användarsökningar efter information, vilket gör att relaterade ämnen kan listas från vilken källa som helst utan behov av specifika omvandlingar.

En av utmaningarna som designers av semantiska integrationssystem står inför är hur man aggregerar data. Att använda människor för att klassificera och skapa relationer mellan data från olika källor kan vara tidskrävande och i slutändan mycket beroende av personens individuella erfarenheter. När algoritmer används för att automatiskt skapa associationer kan vissa relationer förbises på grund av någon mindre skillnad som algoritmen inte kan lösa. En metod för att implementera semantisk integration i stor skala använder inlärningsbaserade algoritmer i samband med mänskligt baserad regelhantering och, i vissa fall, faktiskt mänskligt beslutsfattande under processen.