De huvudskillnad mellan HDFS och MapReduce är det HDFS är ett distribuerat filsystem som ger hög genomströmning till applikationsdata medan MapReduce är en mjukvaruram som behandlar stor data på stora grupper på ett tillförlitligt sätt..
Stora data är en samling av en stor dataset. Den har tre huvudegenskaper: volym, hastighet och variation. Hadoop är en programvara som möjliggör lagring och hantering av stora data. Det är en öppen källkod ramad i Java. Dessutom stöder den distribuerad bearbetning av stora dataset över datorklyftor. HDFS och MapReduce är två moduler i Hadoop-arkitekturen.
1. Vad är HDFS
- Definition, Funktionalitet
2. Vad är MapReduce
- Definition, Funktionalitet
3. Vad är skillnaden mellan HDFS och MapReduce
- Jämförelse av viktiga skillnader
Stor data, HDFS, MapReduce
HDFS står för Hadoop Distributed File System. Det är ett distribuerat filsystem av Hadoop som körs på stora kluster på ett tillförlitligt och effektivt sätt. Det är också baserat på Google File System (GFS). Dessutom har den också en lista över kommandon för att interagera med filsystemet.
Dessutom arbetar HDFS enligt mästaren, slavearkitekturen. Masternoden eller namnoden hanterar filsystemets metadata medan slavnoderna eller datanoden lagrar faktiska data.
Figur 1: HDFS Arkitektur
Dessutom är en fil i en HDFS-namnrymd uppdelad i flera block. Datodnoder lagrar dessa block. Och namnet noden kartlägger blocken till datodenoderna, som hanterar läsnings- och skrivoperationerna med filsystemet. Dessutom utför de uppgifter som block skapande, radering etc. som instrueras av namnoden.
MapReduce är en mjukvara som tillåter att skriva applikationer bearbetar stora data samtidigt på stora kluster av handelsvaror. Denna ram består av en enda mastersjobbspårare och en slaveaktivitetsspårare per klusternummer. Befälhavaren utför resurshantering, planerar jobb på slavar, övervakar och återexekverar misslyckade uppgifter. Å andra sidan utför slavuppdragsspåraren de uppgifter som uppdragsgivaren instruerat och skickar uppgifterna statusinformationen tillbaka till materen ständigt.
Figur 2: MapReduce Översikt
Det finns också två uppgifter i samband med MapReduce. De är kartuppgiften och reducera uppgiften. Kartuppgiften tar in data och delar dem i tuplar av nyckelvärdespar medan reduktionsuppgiften tar utmatningen från en kartuppgift som inmatning och kopplar dessa datatubbar till mindre tavlor. Vidare utförs kartuppgiften före reduktionsuppgiften.
HDFS är ett distribuerat filsystem som tillförlitligt lagrar stora filer över maskiner i ett stort kluster. I kontrast är MapReduce en mjukvara för att enkelt skriva applikationer som behandlar stora mängder data parallellt på stora kluster av råvara på ett pålitligt, feltolerant sätt. Dessa definitioner förklarar huvudskillnaden mellan HDFS och MapReduce.
En annan skillnad mellan HDFS och MapReduce är att HDFS ger högpresterande tillgång till data över högt skalbara Hadoop-kluster medan MapReduce utför bearbetning av stora data.
I korthet är HDFS och MapReduce två moduler i Hadoop-arkitekturen. Huvudskillnaden mellan HDFS och MapReduce är att HDFS är ett distribuerat filsystem som ger hög genomströmningsåtkomst till applikationsdata medan MapReduce är en programvara som hanterar stora data på stora grupper på ett tillförlitligt sätt..
1. "HDFS Architecture Guide", Apache Hadoop, Tillgänglig här.
2. "MapReduce Tutorial", Apache Hadoop, Tillgänglig här.
3. "Vad är Hadoop Distributed File System (HDFS)? - Definition från WhatIs.com. "SearchDataManagement, tillgänglig här.
1. "Hdfsarchitecture" Av Magnai17 - Egent arbete (CC BY-SA 4.0) via Commons Wikimedia
2. "Mapreduce Overview" Av Poposhka - SVG-Edit (CC BY-SA 3.0) via Commons Wikimedia