sql >> Database >  >> NoSQL >> HBase

Top 10 kenmerken van Big Data Hadoop

In deze Hadoop-zelfstudie bespreken we de 10 beste functies van Hadoop. Als u niet bekend bent met Apache Hadoop, kunt u onze Hadoop-introductie raadplegen blog om gedetailleerde kennis te krijgen van het Apache Hadoop-framework.

In deze blog gaan we in op de belangrijkste functies van Big data Hadoop, zoals Hadoop-fouttolerantie, gedistribueerde verwerking in Hadoop, schaalbaarheid Betrouwbaarheid Hoge beschikbaarheid, economisch, flexibiliteit, gegevenslocatie in Hadoop.

Hadoop-introductie

Hadoop is een open source softwareframework dat gedistribueerde opslag en verwerking van enorme hoeveelheden datasets ondersteunt. Het is de krachtigste big data-tool op de markt vanwege zijn functies. Functies zoals fouttolerantie, betrouwbaarheid, hoge beschikbaarheid enz.

Hadoop biedt-

  • HDFS  – De meest betrouwbare opslaglaag ter wereld
  • MapReduce  – Gedistribueerde verwerkingslaag
  • GAREN  – Bronbeheerlaag

Belangrijke kenmerken van Big data Hadoop

Er zijn zoveel functies die Apache Hadoop biedt. Laten we deze functies van Hadoop in detail bespreken.

a. Open source

Het is een open source Java-gebaseerd programmeerraamwerk. Open source betekent dat het vrij beschikbaar is en dat zelfs wij de broncode kunnen wijzigen volgens uw vereisten.

b. Fouttolerantie

Hadoop-controlefouten door het proces van het maken van replica's. Wanneer de client een bestand opslaat in HDFS, verdeelt het Hadoop-framework het bestand in blokken. Vervolgens verdeelt de client datablokken over verschillende machines die aanwezig zijn in de HDFS-cluster.

En maak vervolgens de replica van elk blok op andere machines die in het cluster aanwezig zijn. HDFS maakt standaard 3 kopieën van een blok op andere machines die aanwezig zijn in het cluster.

Als een machine in het cluster uitvalt of uitvalt vanwege ongunstige omstandigheden. Dan heeft de gebruiker ook gemakkelijk toegang tot die gegevens vanaf andere machines.

c. Gedistribueerde verwerking

Hadoop slaat enorme hoeveelheden gegevens gedistribueerd op in HDFS. Verwerk de gegevens parallel op een cluster van knooppunten.

d. Schaalbaarheid  

Hadoop is een open source-platform. Dit maakt het een uiterst schaalbaar platform. Nieuwe nodes kunnen dus eenvoudig worden toegevoegd zonder downtime. Hadoop biedt horizontale schaalbaarheid, zodat een nieuw knooppunt direct aan het systeem wordt toegevoegd. In Apache hadoop draaien applicaties op meer dan duizenden nodes.

e. Betrouwbaarheid

Gegevens worden betrouwbaar opgeslagen op het cluster van machines ondanks machinestoringen als gevolg van replicatie van gegevens. Dus als een van de knooppunten uitvalt, kunnen we ook gegevens betrouwbaar opslaan.

v. Hoge beschikbaarheid

Door meerdere kopieën van gegevens zijn gegevens in hoge mate beschikbaar en toegankelijk ondanks hardwarestoringen. Dus elke machine die uitvalt, kan via het andere pad worden opgehaald. Leer de Hadoop High Availability-functie in detail.

g. Economisch

Hadoop is niet erg duur omdat het draait op het cluster van standaard hardware. Omdat we goedkope standaardhardware gebruiken, hoeven we niet veel geld uit te geven voor het opschalen van uw Hadoop-cluster.

ik. Flexibiliteit

Hadoop is erg flexibel in het omgaan met allerlei soorten data. Het gaat over gestructureerd, semi-gestructureerd of ongestructureerd.

j. Makkelijk te gebruiken

Geen klant nodig om met gedistribueerde computergebruik om te gaan, het raamwerk zorgt voor alle dingen. Het is dus gemakkelijk te gebruiken.

k. Gegevenslocatie

Het verwijst naar de mogelijkheid om de berekening te verplaatsen naar de plaats waar de werkelijke gegevens zich op het knooppunt bevinden. In plaats van gegevens naar berekeningen te verplaatsen. Dit minimaliseert netwerkcongestie en verhoogt de overdoorvoer van het systeem. Meer informatie over Gegevenslocatie.

Conclusie

Concluderend kunnen we stellen dat Hadoop zeer fouttolerant is. Het slaat op betrouwbare wijze enorme hoeveelheden gegevens op ondanks hardwarestoringen. Het biedt hoge schaalbaarheid en hoge beschikbaarheid.

Hadoop is kostenefficiënt omdat het op een cluster van standaardhardware draait. Hadoop werkt aan gegevenslokaliteit, omdat bewegende berekeningen goedkoper zijn dan gegevens verplaatsen. Al deze functies van Big data Hadoop maken het krachtig voor de verwerking van Big data.


  1. render_template met meerdere variabelen

  2. Wat is de aanbevolen benadering van multi-tenant databases in MongoDB?

  3. Variabelen gebruiken in MongoDB Map-reduce map-functie

  4. MongoDB-query gebaseerd op item op specifieke positie in array