20 Opmerkelijk verschil tussen Hadoop 2.x versus Hadoop 3.x

Het doel van deze Hadoop-tutorial is om u een beter begrip te geven tussen de verschillende Hadoop-versies. In deze blog hebben we de 20 belangrijkste verschillen tussen Hadoop 2.x versus Hadoop 3.x besproken.

Deze blog behandelt het verschil tussen Hadoop 2 en Hadoop 3 op basis van verschillende functies.

Verschil tussen Hadoop 2.x en Hadoop 3.x

Apache Hadoop is een open source softwareraamwerk voor gedistribueerde opslag en verwerking van enorme hoeveelheden datasets.

Hadoop 3.x is geïntroduceerd om de beperking van Hadoop te overwinnen 2.x. Hadoop 3.x heeft een aantal nieuwe functies toegevoegd, hoewel de oude functies nog steeds worden gebruikt.

Gedetailleerde functiegewijze vergelijking tussen Hadoop 2.x versus Hadoop 3.x wordt hieronder gegeven:

a. Licentie

Hadoop 2 .x- Apache 2.0, open source
Hadoop 3 .x- Apache 2.0, open source

b. Minimaal ondersteunde versie van Java

Hadoop 2 .x- Java 7.
Hadoop 3 .x- Java 8.

c. Fouttolerantie

Hadoop 2.x- In deze versie behandelt replicatie fouttolerantie.
Hadoop 3.x- In deze versie behandelt de wiscodering fouttolerantie.

d. Gegevensbalancering

Hadoop 2.x- Gebruikt HDFS Balancer voor gegevensbalancering
Hadoop 3.x- Gebruikt Intra-data node balancer, die wordt aangeroepen via de HDFS disk balancer CLI.

e. Opslagschema

Hadoop 2.x- Gebruikt 3X-replicatieschema.
Hadoop 3.x- Gebruikt Erasure-codering.

v. Opslag overhead

Hadoop 2.x- In deze versie heeft HDFS 200% overhead in opslagruimte.
Hadoop 3.x- In deze versie heeft HDFS 50% overhead in opslagruimte.

g. Voorbeeld opslag overhead

Hadoop 2.x- Als er 6 blokken zijn en 3x replicatie van elk blok, resulteert dit in 18 blokken. Het zal 18 blokken ruimte innemen.
Hadoop 3.x- Als er 6 blokken zijn, zal het 9 blokkenruimte innemen, d.w.z. 6 blokken en 3 voor pariteit.

u. YARN-tijdlijnservice

Hadoop 2.x- Gebruikt een oude tijdlijnservice met schaalbaarheidsproblemen.
Hadoop 3.x- Deze versie verbetert de tijdlijnservice v2. Het verbetert ook de schaalbaarheid en betrouwbaarheid van de tijdlijnservice.

j. Standaard poortbereik

Hadoop 2.x- In deze versie zijn de standaardpoorten het kortstondige Linux-poortbereik. Daarom zullen ze op het moment van opstarten niet binden.
Hadoop 3.x- Hoewel deze versie buiten het kortstondige bereik is verplaatst.

k. Hulpmiddelen

Hadoop 2.x- Hive, pig, Tez, Hama en andere Hadoop-tools zijn ook beschikbaar.
Hadoop 3.x- In deze versie zijn ook Hive, pig, Tez, Hama en andere Hadoop-tools beschikbaar.

l. Compatibel bestandssysteem

Hadoop 2.x- Het ondersteunt HDFS (Standaard FS), FTP-bestandssysteem:dit slaat ook alle gegevens op op op afstand toegankelijke FTP-servers. Het ondersteunt ook het Amazon S3-bestandssysteem (Simple Storage Service) Windows Azure Storage Blobs (WASB)-bestandssysteem.
Hadoop 3.x- Het ondersteunt alle voorgaande evenals het Microsoft Azure Data Lake-bestandssysteem.

m. Datanode-bronnen

Hadoop 2.x- Voor de MapReduce Datanode-bron is niet gereserveerd. We kunnen het ook voor andere toepassingen gebruiken.
Hadoop 3.x- In deze versie kunnen gegevensknooppuntbronnen ook voor andere toepassingen worden gebruikt.

n. MR API-compatibiliteit

Hadoop 2.x- MR API compatibel met Hadoop 1.x-programma om uit te voeren op Hadoop 2.X
Hadoop 3.x- MR API is ook compatibel met het uitvoeren van Hadoop 1.x-programma's om uit te voeren op Hadoop 3.X

o. Ondersteuning voor Microsoft

Hadoop 2.x- Het kan op Windows worden geïmplementeerd.
Hadoop 3.x- Het ondersteunt ook Microsoft Windows.

blz. Slots/container

Hadoop 2.x- Hadoop 1.x werkt aan het concept van slots, terwijl Hadoop 2.X werkt aan het concept van de container.
Hadoop 3.x- Hadoop 3.x werkt ook aan het concept van een container.

q. Eén storingspunt

Hadoop 2.x- Het heeft de functies om SPOF te overwinnen. Dus wanneer NameNode faalt, wordt het automatisch hersteld.
Hadoop 3.x- Het heeft ook de functies om SPOF te overwinnen. Dus wanneer NameNode faalt, herstelt het automatisch, geen handmatige tussenkomst nodig.

r. HDFS-federatie

Hadoop 2.x- In Hadoop 1.x slechts één NameNode om alle Namespace te beheren. Maar Hadoop 2.x heeft meerdere NameNodes voor meerdere Namespaces.
Hadoop 3.x- Het heeft ook meerdere Namenodes voor meerdere namespaces.

s. Schaalbaarheid

Hadoop 2.x- We kunnen opschalen tot 10000 nodes per cluster.
Hadoop 3.x- We kunnen meer dan 10000 nodes per cluster schalen.

t. HDFS-momentopname

Hadoop 2.x- Het voegt de ondersteuning toe voor een momentopname. Het biedt ook noodherstel en bescherming tegen gebruikersfouten.
Hadoop 3.x- Het ondersteunt ook de snapshot-functie.

u. Platform

Hadoop 2.x- Het dient als platform voor een breed scala aan gegevensanalyses. Het is ook mogelijk om gebeurtenisverwerking, streaming en realtime bewerkingen uit te voeren.
Hadoop 3.x- Het is ook mogelijk om gebeurtenisverwerking, streaming en realtime bewerking uit te voeren bovenop YARN.

Conclusie

Kortom, Hadoop 3.0 heeft nieuwe functies toegevoegd, zoals wiscodering om fouttolerantie aan te kunnen. Hadoop 3.x vermindert ook de opslagoverhead met 200% tot 50%.

Het introduceerde ook een nieuwe opdrachtregeltool genaamd Disk balancer. Daarom heeft Hadoop 3.x de algehele prestaties verbeterd.

Als je een ander verschil vindt tussen Hadoop 2.x en Hadoop 3.x, laat het ons dan weten in het commentaargedeelte.