Waarom Cassandra leren met Hadoop?

"Bedrijven realiseren zich dat ze waardevolle business intelligence kunnen ontginnen om de besluitvorming te verbeteren en concurrentievoordeel te behalen. Tools zoals Hadoop en Cassandra maken dit allemaal mogelijk en daarom is er extreem veel vraag naar NoSQL-vaardigheden op alle niveaus.” – Analisten op TechRepublic

Ontwikkeld als een intern project bij Facebook om hun Inbox-zoekfunctie te versterken, Cassandra is een Open Source gedistribueerd databasebeheersysteem . Het is uitgebracht als een open source-project op Google Code in 2008 en is vervolgens uitgegroeid tot een project op het hoogste niveau bij de Apache Software foundation sinds 2010.

Cassandra is het volgende grote ding:

Apache Cassandra is ontworpen om een enorme hoeveelheid gegevens te verwerken (in termen van Velocity, Volume en Variety) over talrijke basisservers die een hoge beschikbaarheid garanderen en geen SPOF (Single Point of Failure) bieden.
Cassandra biedt ook krachtige ondersteuning voor clusters die meerdere datacenters omspannen. De afwezigheid van een "Master-slave-structuur", zoals traditionele architecturen, zorgt voor geen impact op het systeem als een bepaald knooppunt uitvalt.
Onderzoekers van de Universiteit van Toronto die onderzoek doen naar NoSQL-systemen, stellen dat in termen van schaalbaarheid en maximale doorvoer per knooppunt , komt Cassandra naar voren als een duidelijke winnaar. De belangrijkste focus van NoSQL DBMS is het garanderen van schaalbaarheid , Prestaties en Hoge beschikbaarheid. Zoals de meeste NoSQL-DBMS kan Cassandra zowel gestructureerde als ongestructureerde gegevens verwerken en presteert het aanzienlijk goed op de bovenstaande parameters.
Cassandra kan dienen als zowel realtime datastore (“the System of Record”) voor online/transactionele toepassingen en als een leesintensieve database voor de Business Intelligence-systemen. Lees onze blogpost over de verschillende voordelen die Cassandra biedt, voor meer informatie.

Waarom kiezen voor Hadoop met Cassandra?

In eenvoudige bewoordingen, om te hebben:

Eengemaakte werklast
Beschikbaarheid
Eenvoudigere implementatie

Als het op Hadoop aankomt, zijn bedrijven niet geïnteresseerd in de onderliggende opslagstructuur van Hadoop, maar in de kosteneffectieve leveringsmethoden voor het analyseren en verwerken van grote hoeveelheden gegevens. Beslissingen kunnen nemen op basis van de output van MapReduce, Hive, Pig, Mahout en andere bewerkingen is het belangrijkste voor deze organisaties.

Belangrijkste punten om te onthouden:

Het Hadoop Distributed File System (HDFS) is een van de vele verschillende componenten en projecten binnen het Hadoop-ecosysteem. Het Apache Hadoop-project definieert HDFS als het primaire opslagsysteem dat door Hadoop-applicaties wordt gebruikt .HDFS kan enorme gedistribueerde ongestructureerde datasets opslaan. Gegevens kunnen rechtstreeks in HDFS worden opgeslagen, of ze kunnen worden opgeslagen in een semi-gestructureerde indeling in HBase, wat snelle gegevenstoegang op recordniveau mogelijk maakt en is gemodelleerd naar het BigTable-systeem van Google. Cassandra is daarentegen een niet- relationeel systeem dat het BigTable-gegevensmodel gebruikt , maar gebruikt het Dynamo-schema van Amazon voor gegevensdistributie en clustering.
Hadoop doet veel geweldige dingen, de kernmogelijkheden van MapReduce zijn erg sterk. Industrie-experts zijn dol op Hive en zijn SQL-achtige ontwerp. Het HDFS-bestandssysteem is echter buitengewoon complex om in te stellen, heeft enkele storingspunten en is volgens de feedback van grote bedrijven gewoon niet klaar om te doen wat ze willen . Cassandra daarentegen biedt alle mogelijkheden van het lagere niveau van de Hadoop-stack. Cassandra biedt tegelijkertijd ook realtime applicatiemogelijkheden met lage latentie in diezelfde infrastructuur.

Hoe kunnen Cassandra en Hadoop samenwerken?

Een aantal leveranciers biedt alternatieven voor HDFS. Een recent artikel van een organisatie genaamd GigaOM biedt een algemeen overzicht van hoe Apache Cassandra File System kan worden gebruikt om HDFS te vervangen, met minimale programmeerwijzigingen vereist vanuit een ontwikkelingsperspectief, en hoe een aantal voordelen in dit proces kunnen worden behaald. DataStax , een toonaangevende commerciële leverancier van Cassandra-distributies, heeft Cassandra gecombineerd met Hadoop en het Brisk genoemd. Met Brisk wordt HDFS vervangen door Cassandra File System. Ontdek meer over HDFS-concepten. Bekijk deze Online Big Data-cursus , die is gemaakt door Top Industrial Working Experts.

Voordeel van Cassandra – Hadoop-combinatie:

Je kunt Cassandra ook implementeren met Hadoop op hetzelfde cluster. Dit betekent dat u het beste van twee werelden kunt hebben.
Ttijdgebonden en realtime draait onder Cassandra applicaties (realtime is de kracht van Cassandra) terwijl batchgebaseerde analyse en vragen die geen tijdstempel vereisen, kunnen op Hadoop worden uitgevoerd. In dit soort ecosysteem wordt HDFS vervangen door Cassandra en dit is onzichtbaar voor de ontwikkelaar. Men kan de nodes tussen de Cassandra- en Hadoop-omgevingen dynamisch opnieuw toewijzen, naargelang het geval.
Cassandra File System verwijdert de single points of failure die zijn gekoppeld aan HDFS, namelijk de NameNode en Job Tracker-punten van falen die zijn gekoppeld aan HDFS.

Het idee is daarom om Cassandra te combineren, die zelf pioniert op het gebied van real-time transactieverwerking van hoge volumes , met Hadoop die uitblinkt in meer batchgeoriënteerde analytische oplossingen .

Cassandra en de Biggies:

Veel organisaties in de verticale branche omarmen Cassandra om verschillende zakelijke doelstellingen te bereiken. Enkele prominente zijn:

Netflix – Gebruikt Cassandra als hun back-enddatabase voor hun streamingdiensten.
Cisco's WebEx – Gebruikt Cassandra om gebruikersfeed en activiteit in bijna realtime op te slaan.
SoundCloud – Gebruikt Cassandra om het dashboard van hun gebruikers op te slaan.
IBM – Heeft onderzoek gedaan naar het bouwen van een schaalbaar e-mailsysteem op basis van Cassandra

Functies met Hadoop- en Cassandra-vaardigheden:

Uit onderzoek door Simplyhired blijkt dat er veel vraag is naar banen bij Cassandra vanwege de hoge acceptatiegraad in de branche, vooral in de afgelopen paar jaar. En de toekomst ziet er veelbelovend uit.

Laten we eens kijken naar enkele van de functietitels met Hadoop-Cassandra-vaardigheden en hun salarissen die worden genoemd op Indeed.com:

Gegevensarchitect: Deze functie levert een gemiddeld salaris van $ 107.000 op. Data-architecten moeten enige ervaring hebben met het maken van datamodellen, datawarehousing, het analyseren van data en datamigratie
Datawetenschapper: Ze verzamelen gegevens, analyseren deze, presenteren de gegevens visueel en gebruiken de gegevens om voorspellingen/voorspellingen te doen. Het gemiddelde salaris voor een datawetenschapper is $ 104.000
Systeemingenieur: Het gemiddelde salaris voor systeemingenieurs is $89.000.
DBA: DBA's verdienen gemiddeld meer dan $ 100.000.
Ontwikkelaar softwaretoepassing: Softwareontwikkelaars verdienen een gemiddeld salaris van $ 107.000 en applicatieontwikkelaars $ 93.000. Mensen met deze vaardigheden kunnen voldoende freelancewerk krijgen of kunnen hun eigen startup starten als ze de ondernemersgeest hebben.

Gerelateerde berichten:

De juiste NoSQL-database kiezen.

Hoe open ik CQLSH van Cassandra geïnstalleerd op Windows?