Vad är Schema Matching?

Schemamatchning är en teknik som används för att slå samman två eller flera komplexa databaser eller uppsättningar information till varandra. Eftersom användningen av databaser och elektronisk informationslagring växer sig större och mer komplex genom Internet, måste det finnas definierade metoder för att slå samman uppsättningar data från en databas till en annan, och schemamatchning är en sådan teknik. Konceptet är enkelt, men verkligheten med datasammanslagning är ganska komplex.

Termen ”schemamatchning” används synonymt med ”schemamapping”, eftersom användare faktiskt kartlägger data, inte matchar dem. Två eller flera databaser mappas tillsammans och liknande aspekter av varje databas mappas in i varandra. Det vanligaste sättet att slå samman data är att använda exakta referenser. Ett exempel på denna typ av sammanslagning är att kombinera namnkolumnen för en databas med namnkolumnen i en annan databas.

Sammanslagning är vanligtvis inte så enkelt, för människor eller datorer. Med så mycket data som behöver filtreras, kombineras och användas, är det viktigt att ha en databas snarare än flera databaser. Schemakartläggning fokuserar på att göra denna tråkiga process automatiserad och effektivare. Ett exempel på var schemamatchning är nödvändig kan vara när en databas har ett ”studentens huvudområde” och en annan databas har ett ”studentens studieområde”. Det är samma information, men de lite olika titlarna komplicerar ansträngningarna att blanda den.

Schemamatchning bryter denna komplexa process att slå samman databaser i fyra steg: förintegrering, jämförelse, överensstämmelse och sammanslagning. Innan flera databaser kan slås samman måste de analyseras för likheter och skillnader. I sfären av schemamatchning kallas detta förintegration. Datorn börjar bestämma den mest effektiva integrationsmetoden.

Därefter utvärderar datorn scheman genom att jämföra dem med varandra på en mer detaljerad nivå. I jämförelsesteget tittar datorn på varje databaspost och avgör var det kan finnas konflikter. Ett exempel på detta är när en ”students intresse”-fält listar ”läkare” och en annan databas listar det som ”läkare”. En person skulle sannolikt känna igen informationen som densamma, men för databasverktyg är de två separata enheter.

När datorn har fastställt alla potentiella konflikter kan den gå vidare med att försöka lösa problemen. Detta kan vara så enkelt som att ändra alla fall av ”läkare” till ”läkare”. I verkligheten är processen betydligt mer komplex.
När alla konflikter har åtgärdats kan datorn fortsätta med att slå samman data i schemamatchningsprocessen. I detta skede slås två eller flera databaser samman till en stor databas. Om allt går bra kommer inga konflikter eller fel att uppstå under integration och framtida åtkomst till databasen.