Vad är dataintegration?

Dataintegration är sammanslagning av flera datakällor till en enda datakälla. Denna praxis är ofta mycket tidskrävande och involverad, eftersom de olika datakällorna sannolikt är inkompatibla med varandra. Så enkla saker som olika kolumnnamn på ett kalkylblad är tillräckligt för att kräva omformatering av datum. Denna process är vanligast i situationer där två grupper startade utan koppling, men placeras tillsammans efter att de har arbetat självständigt. Dataintegration har blivit ett viktigare ämne på grund av förekomsten av gratis datakällor och onlinedatabaser.

Datadelen av dataintegration kan vara nästan vad som helst så länge det lagras i ett datorsystem. Det faktiska innehållet i uppgifterna är sällan så viktigt som sättet på vilket uppgifterna lagras. För det mesta hålls uppgifterna i databaser, organiserade informationssystem. Dessa system innehåller unika poster och fält som gör det möjligt för användare att snabbt hitta information.

Det största hindret för alla dataintegrationsprocesser är själva data. I många fall, när datan först sattes upp, var det ingen avsikt att någonsin slå samman datamängden med en annan. Detta betyder att även om två datauppsättningar kan referera till samma sak, är de totalt inkompatibla.

Nästan vad som helst kommer att göra databaser inkompatibla. Något så enkelt som en skillnad i presentation, som fältordning eller kolumnbredd, kan vara tillräckligt för att förhindra en enkel sammanslagning. När data är väsentligt olika, till exempel en databas som innehåller mer eller mindre information, är sammanslagningen mycket svårare.

De två situationer som kräver dataintegration mer än någon annan är inom branschen och forskningsfälten. I affärsvärlden kräver sammanslagning av avdelningar eller företag att den tidigare separata informationen kombineras till en enda struktur. Denna form av integration är i allmänhet mycket svår om inte de ursprungliga grupperna använde liknande programvara och hade liknande informationsmål.

När dataintegration utförs i forskningssyfte går det i allmänhet mycket smidigare. När en forskare ger tillgång till sin information till en annan undersöker de två parterna i allmänhet samma process. Det betyder att de kommer att använda liknande metoder för att katalogisera och lagra sina data.
Tidigare var dataintegration ett relativt litet område av datastudier, men detta har förändrats sedan början av 21-talet. Med gratis onlinedatabaser som blir mer populära och korrekta, försöker företag att få sin information i ett format som kan delas. Detta gör att de både kan släppa sin information i offentlig form och att integrera privata versioner av välkända offentliga gränssnitt i sina system.