Inzicht in Hadoop High Availability-functie

Deze blog geeft je een beschrijving van de Hadoop HDFS-functie voor hoge beschikbaarheid. In deze blog zullen we eerst bespreken wat hoge beschikbaarheid precies is, hoe Hadoop hoge beschikbaarheid bereikt, wat de behoefte is aan de HDFS-functie voor hoge beschikbaarheid.

We zullen ook het voorbeeld van de functie voor hoge beschikbaarheid van Hadoop behandelen in deze Big data Hadoop-zelfstudie.

Wat is Hadoop HDFS High Availability?

Hadoop HDFS is een gedistribueerd bestandssysteem. HDFS verdeelt gegevens over de knooppunten in het Hadoop-cluster door een replica van het bestand te maken. Het Hadoop-framework slaat deze replica's van bestanden op de andere machines in het cluster op.

Dus wanneer een HDFS-client toegang wil tot zijn gegevens, kan hij die gegevens gemakkelijk openen vanaf een aantal machines die in het cluster aanwezig zijn. Gegevens zijn gemakkelijk beschikbaar in het dichtstbijzijnde knooppunt in het cluster.

Bij sommige ongunstige omstandigheden, zoals het uitvallen van een knooppunt, kan de klant gemakkelijk toegang krijgen tot zijn gegevens vanaf de andere knooppunten. Deze functie van Hadoop heetHoge beschikbaarheid .

Hoe wordt hoge beschikbaarheid bereikt in Hadoop?

In het HDFS-cluster bevinden zich een aantal DataNodes . Na het bepaalde tijdsinterval sturen al deze DataNodes hartslagberichten naar de NameNode . Als de NameNode geen hartslagberichten meer ontvangt van een van deze DataNodes, gaat hij ervan uit dat deze dood is.

Daarna controleert het op de gegevens die in die knooppunten aanwezig zijn en geeft vervolgens opdrachten aan de andere datanode om een replica van die gegevens naar andere datanodes te maken. Daarom zijn gegevens altijd beschikbaar.

Wanneer een klant om datatoegang vraagt in HDFS, zoekt NameNode allereerst naar de data in die datanodes, waarin data snel beschikbaar is. En geeft vervolgens toegang tot die gegevens aan de klant.

Klanten hoeven niet in alle datanodes naar de gegevens te zoeken. HDFS Namenode zelf maakt de beschikbaarheid van gegevens eenvoudig voor de klanten door het adres van de datanode te verstrekken van waaruit een gebruiker direct kan lezen.

Voorbeeld van Hadoop High Availability

Hadoop HDFS biedt hoge beschikbaarheid van gegevens. Wanneer de client NameNode om gegevenstoegang vraagt, zoekt de NameNode naar alle knooppunten waarin die gegevens beschikbaar zijn.

Daarna biedt het toegang tot die gegevens aan de gebruiker vanaf het knooppunt waarin de gegevens snel beschikbaar waren. Tijdens het zoeken naar gegevens op alle knooppunten in het cluster, als NameNode vindt dat een knooppunt dood is, leidt NameNode zonder medeweten van de gebruiker de gebruiker naar het andere knooppunt waarin dezelfde gegevens beschikbaar zijn.

Zonder enige onderbreking worden gegevens aan de gebruiker ter beschikking gesteld. Dus in omstandigheden van node-falen zijn ook gegevens zeer goed beschikbaar voor de gebruikers.

Wat waren de problemen met legacy-systemen?

Gegevens waren niet beschikbaar vanwege een computercrash.
HDFS-client moet lang wachten om toegang te krijgen tot zijn gegevens. Meestal moeten gebruikers een bepaalde tijd wachten totdat de website in de lucht is.
Beperkte functionaliteiten en functies.
Door het niet beschikbaar zijn van gegevens wordt de voltooiing van veel grote projecten bij organisaties voor een lange periode verlengd en moeten bedrijven door kritieke situaties gaan.

Conclusie

Daarom zijn In Hadoop-gegevens in hoge mate beschikbaar en toegankelijk, ondanks hardwarestoringen als gevolg van meerdere kopieën van gegevens. Dus als een knooppunt of machine crasht of uitvalt, hebben we toegang tot de gegevens vanaf een ander pad. Meer informatie over HDFS-functies.

Als je deze blog nuttig vindt over Hadoop High Availability, deel dan je mening in het commentaargedeelte.