Vad är skillnaden mellan data mining och datalagring

Huvudskillnaden mellan datautvinning och datalagring är det data mining är processen att identifiera mönster från en stor mängd data medan datalagring är processen att integrera data från flera datakällor till en central plats.

Data mining är processen att upptäcka mönster i stora dataset. Det använder olika tekniker som klassificering, regression etc. för att ta affärsbeslut. Å andra sidan är datalagring processen att extrahera, transformera och ladda data från flera datakällor till datalagret. Data miningsteknik kan appliceras på ett datalager för att upptäcka användbara mönster.

Viktiga områden som omfattas

1. Vad är Data Mining
     - Definition, Funktionalitet
2. Vad är Data Warehousing
     - Definition, Funktionalitet
3. Skillnad mellan data mining och datalagring
    - Jämförelse av viktiga skillnader

Nyckelbegrepp

Data Mining, Data Warehousing, Data

Vad är Data Mining

Data mining är processen att upptäcka mönstren i en stor dataset. Med andra ord extraherar datautvinning nya mönster, relationer mellan dataenheter. Den utvunna data ska vara ny, korrekt och borde ha en potentiell användning.

Processen att extrahera användbar information från data involverar flera steg. Det första steget är datavalning. Data kommer från flera källor och har flera format. Därför är alla data integrerade och lagrade på en enda plats som heter ett datalager. Det andra steget är förbehandling. Det handlar om sammanfattning, normalisering och aggregering. Dessa omvandlingar bidrar till att göra data lämpliga för data mining. Det tredje steget är datautvinning. Den använder tekniker eller algoritmer såsom kluster, regression, klassificering för att extrahera mönster av data. Det fjärde steget är mönsterutvärdering. Det kontrollerar noggrannheten hos den erhållna utsignalen. Det sista steget är att representera resultaten med hjälp av grafer.

Figur 1: Data Mining

De viktigaste teknikerna för att utföra datautvinning är anomalitetsdetektering, associationsregelbrytning, gruppering, klassificering och regression. För det första hjälper anomalitetsdetektion att identifiera ovanliga mönster för att förstå variationen i data. För det andra hjälper associeringsregelbrytningen att hitta intressanta associeringsmönster bland variabler. För det tredje identifierar klustring klasser i data som liknar varandra. För det fjärde identifierar klassificeringen de klasser som en observation tillhör. Slutligen hjälper regressioner att hitta förhållandet mellan variabler. Dessa är de viktigaste teknikerna som används vid data mining.

Vad är Data Warehousing

I en företagsorganisation finns data i olika databaser. För det första extraheras och transformeras data från flera källor. Sedan laddas de till ett centralt läge som heter ett datalager. Datalagring är processen att ladda data från olika datakällor till ett datalager. Därefter kan olika strategier tillämpas för att analysera data för att stödja slutanvändare för att ta affärsbeslut. Dessutom kan data i datalageret delas in i data mars. Dessa data mars har data för en viss uppsättning användare. Till exempel kan personalavdelningen använda sin datormart. Försäljningsavdelningen kan använda försäljnings mart och så vidare.  

Figur 2: Data Warehouse

Datavarehus är ämnesorienterade, integrerade, tidsvariant och icke-flyktiga. Ett datalager är ämnesorienterat. Det ger kunskap om ett ämne än den pågående verksamheten. Den är integrerad eftersom den konsoliderar data från olika datakällor. Lagerdata tillhandahåller information med avseende på en viss tidsperiod. Så det är tidvariant. Slutligen ger det icke-volatilitet eftersom data efter att data har lagts in i lageret inte ska raderas eller uppdateras. Kortfattat är datalagring avgörande för beslutsfattande för organisationen.

Skillnad mellan data mining och datalagring

Definition

Data mining är processen att upptäcka mönster i stora dataset som involverar metoder vid skärningspunktet mellan maskininlärning, statistik och databassystem. Data warehousing är processen att extrahera, transformera och ladda data från flera datakällor till en central plats som heter ett datalager.  

Bearbeta

Vid datautvinning analyseras data regelbundet. Data lagras periodiskt i datalagring.

Data

Data mining analyserar ett urval av data medan datalagring lagrar en stor mängd data.

Användande

Data mining upptäcker mönster i data för bättre beslutsfattande. Å andra sidan ger datalagring en mekanism för en organisation att lagra en stor mängd data.

Slutsats

Skillnaden mellan data mining och datalagring är att data mining är processen att identifiera mönster från en stor mängd data medan datalagring är processen att integrera data från flera datakällor till en central plats. Normalt utförs ingenjörer datalagring, och företagsanvändare utför datautvinning med hjälp av ingenjörer.

Referens:

1. Data Mining med användning av R | Data Mining Handledning för nybörjare | R Handledning för nybörjare | Edureka, Edureka !, 8 Nov. 2017, Tillgänglig här.
2. Data Warehouse Handledning för nybörjare | Data Warehouse Concepts | Datalagring | Edureka, Edureka !, 22 juni 2017, Tillgänglig här.

Image Courtesy:

1. "Data Mining" av Arbeck - eget arbete (CC BY 3.0) via Commons Wikimedia
2. "Data warehouse overview" Av Hhultgren - Egent arbete (Public Domain) via Commons Wikimedia