De huvudskillnad mellan dataintegration och ETL är att dataintegration är processen att kombinera data i olika källor för att ge en enhetlig vy till användarna, medan ETL är processen att extrahera, transformera och ladda data i en datalagringsmiljö.
Dataintegration avser att kombinera data från olika källor till meningsfull och värdefull information. Därför levererar en komplett dataintegrationslösning betrodd data från olika källor. Det är en viktig process när man sammanfogar flera system och konsoliderar applikationer för att ge en enhetlig bild av data. Å andra sidan är ETL en process som följs innan data lagras i ett datalager. Det handlar om att extrahera, transformera och ladda data.
1. Vad är Data Integration
- Definition, Funktionalitet
2. Vad är ETL
- Definition, Funktionalitet
3. Vad är skillnaden mellan dataintegration och ETL
- Jämförelse av viktiga skillnader
Stora data, dataintegration, datalager, ETL
Dataintegration är processen att kombinera data som finns i olika källor för att ge en enhetlig vy till användarna. Datainintegration varierar emellertid från applikation till applikation. I en kommersiell ansökan kan två organisationer slå samman sina databaser. I en vetenskaplig applikation som i ett bioinformatikprojekt kan forskningsresultat från olika repositorier kombineras till en enda enhet.
Figur 1: Dataintegration
En gemensam användning av dataintegration är också att analysera de stora data som kräver delning av stora datasatser i datalager. Sammantaget är dataintegration en svår process. Dessutom krävs det tillräcklig generellhet för att tillgodose olika integrationssystem, såsom relationsdatabaser, XML-databaser, etc..
Ett datalager är ett system som hjälper till att analysera data, skapa rapporter och visualisera dem. Cheferna, dataanalyserna, affärsanalyserna kan analysera dessa data för att ta affärsbeslut. Det finns tre steg att följa innan du lagrar data i ett datalager. Det heter ETL. Det handlar om data-extraktion, transformation och laddning i datalageret.
Det finns olika datakällor i en organisation. Det första steget är att extrahera data från dessa olika källor. Datautvinning bör emellertid inte påverka prestandan eller svarstiden för den ursprungliga datakällan. Full extraktion och partiell extraktion är två metoder för att extrahera data.
Det andra steget är transformation. Här renas, extraheras och omvandlas de extraherade data på ett användbart sätt. Dataselektion, kartläggning och datautrensning är några grundläggande transformationstekniker. Dessutom finns det några avancerade datatransformationstekniker. De standardiserar, konverterar teckenuppsättning och kodar hantering, dela upp och sammanfoga fält, sammanfattning och de-duplicering.
Det sista steget är att hämta de förberedda data och för att lagra dem i datalageret. Det kallas laddning. Här kan lastningen vara en initial belastning, inkrementell belastning eller en fullständig uppdatering. Initial laddning är att ladda databasen för första gången. Inkrementell laddning är att tillämpa ändringarna som krävs på ett periodiskt sätt medan full uppfriskning är att radera data i en eller flera tabeller och att ladda om med nya data.
Dataintegration är processen att kombinera data bosatt i olika källor och ge användarna en enhetlig syn på dem. ETL är en trestegsfunktion av extrahering, transformering och laddning som inträffar innan data lagras i datalageret. Därför är detta den största skillnaden mellan dataintegration och ETL.
Vetenskapliga och kommersiella applikationer använder dataintegration medan data warehousing är en applikation som använder ETL. Detta är en annan skillnad mellan dataintegration och ETL.
Skillnaden mellan dataintegration och ETL är att dataintegrationen är processen att kombinera data i olika källor för att ge en enhetlig vy till användarna, medan ETL är processen att extrahera, transformera och ladda data i en datalagringsmiljö.
1. "Data Integration." Wikipedia, Wikimedia Foundation, 4 oktober 2018, Tillgänglig här.
2. "Data Integration." Data Integration | Data Integration Info, tillgänglig här.
3. vtakkar. 3 - ETL Tutorial | Extrakt Transform and Load, Vikram Takkar, 8 september 2015, Tillgänglig här.
Image Courtesy:
1. "Data Integration (KAFKA) (Case 3)" Av Carlos.Franco2018 - Egent arbete (CC BY-SA 4.0) via Wikimedia Commons
2. "Datawarehouse referensarkitektur" Av DataZoomers - (CC BY-SA 4.0) via Commons Wikimedia