Vad är skillnaden mellan ETL och Data Warehouse

De huvudskillnad mellan ETL och Data Warehouse är att ETL är processen att extrahera, transformera och ladda data för att lagra den i ett datalager medan datalageret är en central plats som används för att lagra konsoliderad data från flera datakällor.

Ett datalager är ett system som hjälper till att analysera data, rapportera och visualisera dem för att göra affärsbeslut. Det är ämnesorienterat, integrerat, tidsvariant och icke-flyktigt. Det finns emellertid flera steg att följa innan data lagras i ett datalager. Denna process kallas ETL. Det handlar om att extrahera data, omvandla och till sist ladda dem till ett datalager. Därför kommer skillnaden mellan ETL och Data Warehouse från dessa grundläggande begrepp.

Viktiga områden som omfattas

1. Vad är ETL
      - Definition, Funktionalitet
2. Vad är ett Data Warehouse
     - Definition, Funktionalitet
3. Vad är skillnaden mellan ETL och Data Warehouse
     - Jämförelse av viktiga skillnader

Nyckelbegrepp

Data Warehouse, ETL

Vad är ETL

ETL står för Extrahera, transformera och ladda. I denna process extraheras data från flera datakällor. Därefter transformeras den och laddas i datalageret. ETL betecknar hela processen. IBM Data stage, Informatica, och Microsoft Integration tjänster är några Enterprise Level ETL verktyg. Låt oss nu titta på varje steg i ETL mer detaljerat.

Extraktion

Extraction är det första steget. Det handlar om att extrahera data från olika datakällor som databaser. Ett viktigt faktum att notera vid utvinning är att det inte bör påverka prestandan eller svarstiden för den ursprungliga datakällan. Därför finns det olika datautvinningsstrategier.

Full Extraction - Detta innebär att alla data från alla datakällor extraheras. Huvudanvändningen av denna strategi är att ladda datalagret i början eller ladda det när det är svårt att identifiera de ändrade data.

Delvis extraktion (med uppdateringsmeddelande) - Denna strategi är enklare och snabbare än full utvinning. Det handlar om att extrahera endast de modifierade data.

Delvis extraktion (utan uppdatering) - Det handlar om att extrahera data baserat på vissa nyckelfunktioner. Till exempel, om det redan har hämtats data till igår, är det möjligt att extrahera dagens data och identifiera förändringarna i dem.

Omvandling

Den extraherade data är rå data, så det är inte särskilt användbart. Därför sker datatransformation i nästa steg. Det innebär att rengöra, kartlägga och konvertera data. Grundläggande omvandlingsuppgifter är följande:

Urval - Väljer den önskade data

kartläggning - Titta på data från olika uppslagsfiler och matcha de data som behöver transformeras

Datarensning -Rengöring av data för att standardisera dem

Sammanfattning - Sammanställning och konsolidering av data

Huvuddatatransformationsuppgifterna är följande.

standardisera - Eftersom uppgifterna kommer från olika källor krävs det standardisering

Teckenuppsättning konvertering och kodning hantering - Konvertera data till en definierad kodning

Beräkna värden - Beräkna och härleda nya kolumner från de befintliga kolumnerna.

Spilled och sammanfogningsfält - Att dela ett fält i flera fält eller kombinera flera fält i ett enda fält baserat på kraven.

Omvandling av måttenheter - Inblandning av datakonverteringar, etc.

Sammanfattning - Sammanställning och konsolidering av data.

Radering av dubbelarbete - Radering av dubbletter som tas emot från flera källor.

Läser in

Det här är processen att hämta de beredda uppgifterna och lagra den i datalageret. Det finns olika laddningstekniker.

Initial belastning - Laddar datalageret för första gången.

Incremental Load - Tillämpa pågående förändringar efter behov på ett periodiskt sätt.

Full Uppdatering - Ta bort innehållet i en eller flera tabeller helt och helt och ladda om med nya data.

Vad är ett Data Warehouse

Data warehouse är ett system som stöder affärsintelligensprocessen. Den omvandlar data till meningsfull information för att analysera verksamheten. Därför är det en värdefull resurs för förvaltningen av en organisation att fatta beslut.

Dessutom har en organisation olika databaser som MySQL och MSSQL. Alla dessa data extraheras, transformeras och laddas i datalagret. Därefter integreras och bearbetas data. Slutligen använder dataanalytikerna, datavetenskaparna och cheferna dessa data för att ta affärsinsikt.

Dessutom är data i ett datalager uppdelat i data mars. Var och en av dem innehåller data för specifika användare. De förbättrar säkerhet och dataintegritet. Vanligtvis finns ett datalager på en separat plats från de normala operativa databaserna.

Skillnad mellan ETL och Data Warehouse

Definition

ETL är processen att extrahera, transformera och ladda data i en datalagringsmiljö. Däremot är ett datalager ett federerat förvar för alla data som samlas in av ett företags olika operativsystem. Således är detta den grundläggande skillnaden mellan ETL och datalager.

Användande

ETL är en process som används för att modifiera data innan de lagras i datalageret. Ett datalager används för att ta affärsbeslut. Dessutom förbättras datakvaliteten och konsistensen och förbättrar affärsintelligens. Därför finns det en skillnad mellan ETL och datalager baserat på den enskilda användningen.

Slutsats

I grunden är den grundläggande skillnaden mellan ETL och datalagret att ETL är processen att extrahera, transformera och ladda data för att lagra den i ett datalager medan ett datalager är en central plats som används för att lagra konsoliderad data från flera datakällor.

Referens:

1. "3 - ETL Tutorial | Extrakt Transform and Load ", Vikram Takkar, 8 september 2015, Tillgänglig här.
2. "Vad är Data Warehouse? - Definition från WhatIs.com. "SearchDataManagement, tillgänglig här.

Image Courtesy:

1. "KrisangelChap2-ETL" Av Kkristangel - Egent arbete (CC BY-SA 4.0) via Wikimedia Commons
2. "Data warehouse overview" Av Hhultgren - Egent arbete (Public Domain) via Commons Wikimedia