Datalagerarkitektur är en design som kapslar in alla aspekter av datalager för en företagsmiljö. Data warehousing är skapandet av en central domän för att lagra komplex, decentraliserad företagsdata i en logisk enhet som möjliggör datautvinning, business intelligence och övergripande tillgång till all relevant data inom en organisation. Datalagerarkitekturen inkluderar alla rapporteringskrav, datahantering, säkerhetskrav, bandbreddskrav och lagringskrav.
När du skapar en datalagerarkitektur är det viktigt att dela upp arkitekturen i specifika domäner som sammanfogas till en holistisk slutlig design. Denna design bör betraktas som blåtrycket för företagsdataarkitekturen. I synnerhet bör flera primära områden utvecklas när man överväger datalagerarkitektur. Dessa områden är källsystemåtkomst, iscensättningsområdesprocess, databerikningsprocess, dataarkitektur, affärsinformationsprocess och lagringskrav.
Datalager kräver att källdata överförs från en transaktions- eller databas till datalagret. Denna process förenklas till termen Extract Transform and Load (ETL), som i grunden kapslar in områdena källsystemåtkomst, databerikning och dataarkitektur. För tydlighetens skull är det bättre att designa dessa arkitektoniska områden i detalj, vilket beskriver hur ETL-processen kommer att uppnås. Även om vissa data krävs från källsystemen, är all data inte önskvärd eftersom det skulle överbelasta företagets lager. De primära problemområdena när man adresserar källsystemlagret är dataåtkomstmetoder, data som krävs från källsystemet och uppdateringskrav.
Nästa arkitektoniska lager för datalager att överväga är iscensättningsprocessen. Eftersom de flesta data från källsystem kommer att kräva validering och datarensning, är det viktigt att skapa en landningszon där källdata kan finnas innan de laddas in i lagret för affärsregler i datalagret. Stagingområdet upprätthåller rådataflöden från källsystem som vanligtvis är tidsstämplade för att säkerställa att data är aktuella.
Processen för databerikning eller affärsregler är där data rensas för att möta det önskade resultatet av datalagret. Ett bra exempel på detta rensningssätt är att använda verktyg för rensning av adresser; i händelse av att källsystemet har felaktiga data, kommer databerikningsprocessen att köra adressen från rådatauppsättningen till ett affärsregelsystem som skulle korrigera ogiltiga adresser. Detta är också den tidpunkt då felaktiga data raderas eller ändras för att säkerställa fullständighet inom datalagret.
Nästa lager att överväga är dataarkitekturlagret. Det här området är där den verkliga designen eller schemat för företagets datalager färdigställs. Datalager är inte en kombination av alla datamängder inom ett företag, utan istället är det en nydefinierad databas byggd för att möjliggöra en överblick över alla affärsenheter inom företaget.
Detta kräver att dataarkitekturen svarar på de frågor som kommer att ställas av verksamheten inom området business intelligence och data mining. Genom att skapa dataarkitekturen på detta sätt kommer rådatauppsättningarna att omvandlas till faktatabeller som gör att användarna kan utföra ad-hoc-rapportering på hela företagsvyn istället för en specifik databas. Detta är också området som kommer att underhålla metadata om data från råsystemet, vilket kan inkludera källsystemets namn eller primärnycklar.
Nästa område att överväga är affärsinformation och rapporteringskrav. Detta lager kan ses som det användarvänliga kravet för datalagring. Vanligtvis innehåller detta område standardrapporter, ad-hoc-rapporteringsmöjligheter och företagsinstrumentpaneler eller varningar. Business Intelligence-skikten får normalt mest hänsyn, eftersom det är den enda utåtvända komponenten inom datalagret.
Det sista lagret att överväga är övergripande datalagringskrav och underhåll. Eftersom ett datalager fortsätter att växa och expandera, måste användarbasdatalagring hanteras och underhållas strikt. Dessutom, samtidigt som datalagerarkitekturen skapas, bör designen göra realistiska uppskattningar av vad som kommer att krävas av en datalagringskapacitet såväl som ett band med dataåtkomstkapacitet. Dessa krav kommer att vara kritiska eftersom datalagret används i stor utsträckning i hela företaget.