Vad är skillnaden mellan dataintegration och ETL

De huvudskillnad mellan dataintegration och ETL är att dataintegration är processen att kombinera data i olika källor för att ge en enhetlig vy till användarna, medan ETL är processen att extrahera, transformera och ladda data i en datalagringsmiljö.

Dataintegration avser att kombinera data från olika källor till meningsfull och värdefull information. Därför levererar en komplett dataintegrationslösning betrodd data från olika källor. Det är en viktig process när man sammanfogar flera system och konsoliderar applikationer för att ge en enhetlig bild av data. Å andra sidan är ETL en process som följs innan data lagras i ett datalager. Det handlar om att extrahera, transformera och ladda data.

Viktiga områden som omfattas

1. Vad är Data Integration
      - Definition, Funktionalitet
2. Vad är ETL
     - Definition, Funktionalitet
3. Vad är skillnaden mellan dataintegration och ETL
     - Jämförelse av viktiga skillnader

Nyckelbegrepp

Stora data, dataintegration, datalager, ETL

Vad är Data Integration

Dataintegration är processen att kombinera data som finns i olika källor för att ge en enhetlig vy till användarna. Datainintegration varierar emellertid från applikation till applikation. I en kommersiell ansökan kan två organisationer slå samman sina databaser. I en vetenskaplig applikation som i ett bioinformatikprojekt kan forskningsresultat från olika repositorier kombineras till en enda enhet.

Figur 1: Dataintegration

En gemensam användning av dataintegration är också att analysera de stora data som kräver delning av stora datasatser i datalager. Sammantaget är dataintegration en svår process. Dessutom krävs det tillräcklig generellhet för att tillgodose olika integrationssystem, såsom relationsdatabaser, XML-databaser, etc..

Vad är ETL

Ett datalager är ett system som hjälper till att analysera data, skapa rapporter och visualisera dem. Cheferna, dataanalyserna, affärsanalyserna kan analysera dessa data för att ta affärsbeslut. Det finns tre steg att följa innan du lagrar data i ett datalager. Det heter ETL. Det handlar om data-extraktion, transformation och laddning i datalageret.

Det finns olika datakällor i en organisation. Det första steget är att extrahera data från dessa olika källor. Datautvinning bör emellertid inte påverka prestandan eller svarstiden för den ursprungliga datakällan. Full extraktion och partiell extraktion är två metoder för att extrahera data.

Det andra steget är transformation. Här renas, extraheras och omvandlas de extraherade data på ett användbart sätt. Dataselektion, kartläggning och datautrensning är några grundläggande transformationstekniker. Dessutom finns det några avancerade datatransformationstekniker. De standardiserar, konverterar teckenuppsättning och kodar hantering, dela upp och sammanfoga fält, sammanfattning och de-duplicering.

Det sista steget är att hämta de förberedda data och för att lagra dem i datalageret. Det kallas laddning. Här kan lastningen vara en initial belastning, inkrementell belastning eller en fullständig uppdatering. Initial laddning är att ladda databasen för första gången. Inkrementell laddning är att tillämpa ändringarna som krävs på ett periodiskt sätt medan full uppfriskning är att radera data i en eller flera tabeller och att ladda om med nya data.  

Skillnad mellan dataintegration och ETL

Definition

Dataintegration är processen att kombinera data bosatt i olika källor och ge användarna en enhetlig syn på dem. ETL är en trestegsfunktion av extrahering, transformering och laddning som inträffar innan data lagras i datalageret. Därför är detta den största skillnaden mellan dataintegration och ETL.

Användande

Vetenskapliga och kommersiella applikationer använder dataintegration medan data warehousing är en applikation som använder ETL. Detta är en annan skillnad mellan dataintegration och ETL.

Slutsats

Skillnaden mellan dataintegration och ETL är att dataintegrationen är processen att kombinera data i olika källor för att ge en enhetlig vy till användarna, medan ETL är processen att extrahera, transformera och ladda data i en datalagringsmiljö.

Referens:

1. "Data Integration." Wikipedia, Wikimedia Foundation, 4 oktober 2018, Tillgänglig här.
2. "Data Integration." Data Integration | Data Integration Info, tillgänglig här.
3. vtakkar. 3 - ETL Tutorial | Extrakt Transform and Load, Vikram Takkar, 8 september 2015, Tillgänglig här.

Image Courtesy:

1. "Data Integration (KAFKA) (Case 3)" Av Carlos.Franco2018 - Egent arbete (CC BY-SA 4.0) via Wikimedia Commons
2. "Datawarehouse referensarkitektur" Av DataZoomers - (CC BY-SA 4.0) via Commons Wikimedia