Het doel van deze Hadoop-tutorial is om u een beter begrip te geven tussen de verschillende Hadoop-versies. In deze blog hebben we de 20 belangrijkste verschillen tussen Hadoop 2.x versus Hadoop 3.x besproken.
Deze blog behandelt het verschil tussen Hadoop 2 en Hadoop 3 op basis van verschillende functies.
Verschil tussen Hadoop 2.x en Hadoop 3.x
Apache Hadoop is een open source softwareraamwerk voor gedistribueerde opslag en verwerking van enorme hoeveelheden datasets.
Hadoop 3.x is geïntroduceerd om de beperking van Hadoop te overwinnen 2.x. Hadoop 3.x heeft een aantal nieuwe functies toegevoegd, hoewel de oude functies nog steeds worden gebruikt.
Gedetailleerde functiegewijze vergelijking tussen Hadoop 2.x versus Hadoop 3.x wordt hieronder gegeven:
a. Licentie
- Hadoop 2 .x- Apache 2.0, open source
- Hadoop 3 .x- Apache 2.0, open source
b. Minimaal ondersteunde versie van Java
- Hadoop 2 .x- Java 7.
- Hadoop 3 .x- Java 8.
c. Fouttolerantie
- Hadoop 2.x- In deze versie behandelt replicatie fouttolerantie.
- Hadoop 3.x- In deze versie behandelt de wiscodering fouttolerantie.
d. Gegevensbalancering
- Hadoop 2.x- Gebruikt HDFS Balancer voor gegevensbalancering
- Hadoop 3.x- Gebruikt Intra-data node balancer, die wordt aangeroepen via de HDFS disk balancer CLI.
e. Opslagschema
- Hadoop 2.x- Gebruikt 3X-replicatieschema.
- Hadoop 3.x- Gebruikt Erasure-codering.
v. Opslag overhead
- Hadoop 2.x- In deze versie heeft HDFS 200% overhead in opslagruimte.
- Hadoop 3.x- In deze versie heeft HDFS 50% overhead in opslagruimte.
g. Voorbeeld opslag overhead
- Hadoop 2.x- Als er 6 blokken zijn en 3x replicatie van elk blok, resulteert dit in 18 blokken. Het zal 18 blokken ruimte innemen.
- Hadoop 3.x- Als er 6 blokken zijn, zal het 9 blokkenruimte innemen, d.w.z. 6 blokken en 3 voor pariteit.
u. YARN-tijdlijnservice
- Hadoop 2.x- Gebruikt een oude tijdlijnservice met schaalbaarheidsproblemen.
- Hadoop 3.x- Deze versie verbetert de tijdlijnservice v2. Het verbetert ook de schaalbaarheid en betrouwbaarheid van de tijdlijnservice.
j. Standaard poortbereik
- Hadoop 2.x- In deze versie zijn de standaardpoorten het kortstondige Linux-poortbereik. Daarom zullen ze op het moment van opstarten niet binden.
- Hadoop 3.x- Hoewel deze versie buiten het kortstondige bereik is verplaatst.
k. Hulpmiddelen
- Hadoop 2.x- Hive, pig, Tez, Hama en andere Hadoop-tools zijn ook beschikbaar.
- Hadoop 3.x- In deze versie zijn ook Hive, pig, Tez, Hama en andere Hadoop-tools beschikbaar.
l. Compatibel bestandssysteem
- Hadoop 2.x- Het ondersteunt HDFS (Standaard FS), FTP-bestandssysteem:dit slaat ook alle gegevens op op op afstand toegankelijke FTP-servers. Het ondersteunt ook het Amazon S3-bestandssysteem (Simple Storage Service) Windows Azure Storage Blobs (WASB)-bestandssysteem.
- Hadoop 3.x- Het ondersteunt alle voorgaande evenals het Microsoft Azure Data Lake-bestandssysteem.
m. Datanode-bronnen
- Hadoop 2.x- Voor de MapReduce Datanode-bron is niet gereserveerd. We kunnen het ook voor andere toepassingen gebruiken.
- Hadoop 3.x- In deze versie kunnen gegevensknooppuntbronnen ook voor andere toepassingen worden gebruikt.
n. MR API-compatibiliteit
- Hadoop 2.x- MR API compatibel met Hadoop 1.x-programma om uit te voeren op Hadoop 2.X
- Hadoop 3.x- MR API is ook compatibel met het uitvoeren van Hadoop 1.x-programma's om uit te voeren op Hadoop 3.X
o. Ondersteuning voor Microsoft
- Hadoop 2.x- Het kan op Windows worden geïmplementeerd.
- Hadoop 3.x- Het ondersteunt ook Microsoft Windows.
blz. Slots/container
- Hadoop 2.x- Hadoop 1.x werkt aan het concept van slots, terwijl Hadoop 2.X werkt aan het concept van de container.
- Hadoop 3.x- Hadoop 3.x werkt ook aan het concept van een container.
q. Eén storingspunt
- Hadoop 2.x- Het heeft de functies om SPOF te overwinnen. Dus wanneer NameNode faalt, wordt het automatisch hersteld.
- Hadoop 3.x- Het heeft ook de functies om SPOF te overwinnen. Dus wanneer NameNode faalt, herstelt het automatisch, geen handmatige tussenkomst nodig.
r. HDFS-federatie
- Hadoop 2.x- In Hadoop 1.x slechts één NameNode om alle Namespace te beheren. Maar Hadoop 2.x heeft meerdere NameNodes voor meerdere Namespaces.
- Hadoop 3.x- Het heeft ook meerdere Namenodes voor meerdere namespaces.
s. Schaalbaarheid
- Hadoop 2.x- We kunnen opschalen tot 10000 nodes per cluster.
- Hadoop 3.x- We kunnen meer dan 10000 nodes per cluster schalen.
t. HDFS-momentopname
- Hadoop 2.x- Het voegt de ondersteuning toe voor een momentopname. Het biedt ook noodherstel en bescherming tegen gebruikersfouten.
- Hadoop 3.x- Het ondersteunt ook de snapshot-functie.
u. Platform
- Hadoop 2.x- Het dient als platform voor een breed scala aan gegevensanalyses. Het is ook mogelijk om gebeurtenisverwerking, streaming en realtime bewerkingen uit te voeren.
- Hadoop 3.x- Het is ook mogelijk om gebeurtenisverwerking, streaming en realtime bewerking uit te voeren bovenop YARN.
Conclusie
Kortom, Hadoop 3.0 heeft nieuwe functies toegevoegd, zoals wiscodering om fouttolerantie aan te kunnen. Hadoop 3.x vermindert ook de opslagoverhead met 200% tot 50%.
Het introduceerde ook een nieuwe opdrachtregeltool genaamd Disk balancer. Daarom heeft Hadoop 3.x de algehele prestaties verbeterd.
Als je een ander verschil vindt tussen Hadoop 2.x en Hadoop 3.x, laat het ons dan weten in het commentaargedeelte.