Deze blogpost maakt deel uit van een serie over Cloudera's Operational Database (OpDB) in CDP. Elk bericht gaat dieper in op nieuwe functies en mogelijkheden. Begin vanaf het begin van de serie met Operational Database in CDP.
Cloudera's OpDB biedt een uitgebreide reeks mogelijkheden om gegevens op te slaan en te openen. In deze blogpost kijken we naar de toegankelijkheidsmogelijkheden van OpDB en hoe u deze mogelijkheden kunt gebruiken om toegang te krijgen tot uw gegevens.
Distributie en sharding
Cloudera's Operational Database (OpDB) is een scale-out Database Management System (DBMS) dat is ontworpen om lineair te schalen naar Petabytes aan gegevens. Zoals alle DBMS'en wordt scale-out geïmplementeerd via sharding. Er worden twee verschillende sharding-beleidsregels ondersteund:
- Auto-sharding
- Vooraf gedefinieerde sharding
Ongeacht de aanpak zijn er API's om sharding mogelijk te maken op basis van hash, waardenbereik en de combinatie van beide.
Auto-sharding
Wanneer auto-sharding is ingeschakeld, worden de tabellen dynamisch verdeeld over het cluster en wanneer een shard de configureerbare limiet overschrijdt, wordt deze automatisch gesplitst en verplaatst tussen servers in een cluster.
Een tafelsegment wordt in de middelste toets in tweeën gesplitst, waardoor twee ongeveer gelijke helften ontstaan en die twee helften kunnen worden bediend door verschillende servers.
Geautomatiseerde sharding wordt toegepast ongeacht het netwerk dat wordt gebruikt met de OpDB (WAN of lokaal). Clusters kunnen worden ingesteld om een WAN te overspannen, in welk geval sharding en gegevensverplaatsing over het WAN zouden plaatsvinden zonder gegevensverlies.
Het systeem kan zo worden geconfigureerd dat het weet welke knooppunten zich in welke datacenters bevinden, wat extra veerkracht biedt voor shards omdat kopieën van de shards over meerdere datacenters kunnen worden gedistribueerd.
Vooraf gedefinieerde sharding
Shards kunnen worden beperkt tot specifieke subsets van knoop punten in een cluster op basis van beleid, meestal op een Tenant-specifieke manier. Dat maakt de implementatie van geografisch gebaseerd beleid mogelijk. Vervolgens kunnen tabellen tussen clusters worden gerepliceerd en door beleid worden ingesteld om ervoor te zorgen dat de replicatie van tabellen en de bijbehorende shards beperkt blijft tot de gewenste geografische gebieden.
Cloudera's OpDB biedt native ondersteuning voor datasoevereiniteit. Als een cluster meerdere landen omvat, kunnen regioservergroepen worden gebruikt om gegevens in specifieke landen te verankeren, samen met de HDFS-rackisolatieconfiguratie.
Vragen
Cloudera biedt drie query-engines die zijn geoptimaliseerd voor verschillende soorten gebruiksscenario's, zowel operationeel als analytisch, en NoSQL-interfaces om geoptimaliseerde prestaties mogelijk te maken, variërend van een breed scala aan zowel operationele als datawarehouse-workloads. Dit maakt de uitvoering van query's en samenvoegingen van gegevens over meerdere shards mogelijk.
Cloudera's OpDB biedt een native OLTP SQL-engine die het opvragen van meerdere gegevens- en objectmodellen ondersteunt, inclusief het opvragen en samenvoegen ervan. Twee van onze OLAP-query-engines kunnen worden gebruikt om externe tabellen in kaart te brengen die zich binnen onze OpDB (of op andere locaties) bevinden en kunnen query's uitvoeren of hieraan deelnemen voor complexere analytische query's die typisch zijn voor datawarehousing
Gegevensintegratietools
Cloudera biedt meerdere tools om integratie met datawarehousing en federatieve queryverwerking mogelijk te maken.
Bijvoorbeeld:
- Bulkexport naar een datawarehouse wordt verzorgd door Flink, Spark, Hive en MapReduce
- Streaming-export naar een datawarehouse wordt verzorgd door Nifi
- In-situ gegevensquery binnen onze OpDB wordt geleverd door Phoenix, Impala en Hive
- Gefedereerde queryverwerking in onze OpDB, datawarehouse-oplossing en datawarehouse-oplossingen van derden worden geleverd door Hive
Externe gegevensondersteuning
Cloudera's OpDB bevat veel Hadoop-tools en kan worden geïntegreerd met het grootste deel van het Hadoop-ecosysteem.
Onze OpDB biedt NoSQL- en SQL-interfaces. Er zijn geen beperkingen voor deze interface en het wordt zeer goed ondersteund in de Hadoop-gemeenschap.
Mobiele OpDB
MiNiFi kan worden gebruikt op draagbare apparaten aan de rand en bieden dataconnectiviteit met de OpDB.
De query-editor HUE kan op een mobiel of draagbaar apparaat worden uitgevoerd.
Standaardgebaseerde connectiviteit
Cloudera biedt zowel JDBC- als ODBC-stuurprogramma's die via onze SQL-engines worden geleverd, naast directe API-toegang tot onze datastores en tools.
Volgende
In deze blogpost hebben we gekeken naar enkele van de toegankelijkheidsmogelijkheden van OpDB, zoals gegevensquery, gegevensintegratie en connectiviteit. In het volgende artikel bespreken we hoe u gebruik kunt maken van de beheermogelijkheden in OpDB, u vindt deze hier.
Ga voor meer informatie naar:Aan de slag met Operational Database.