Noot van de redactie, augustus 2020:CDP Data Center heet nu CDP Private Cloud Base. Je kunt er hier meer over leren.
Inleiding
Deze blogpost maakt deel uit van een serie over Cloudera's Operational Database (OpDB) in CDP. Elk bericht gaat dieper in op nieuwe functies en mogelijkheden. Begin vanaf het begin van de serie met Operational Database in CDP.
Deze blogpost geeft u een overzicht van de beheertools en functies van de operationele database (OpDB) in het Cloudera Data Platform. Het is vandaag beschikbaar in twee vormfactoren:als een volledig veilig, semi-beheerd aanbod in CDP Public Cloud – Data Hub en als een volledig aanpasbaar aanbod in CDP Data Center (vergelijkbaar met wat beschikbaar is in CDH en HDP). Zie Cloudera Data Hub voor meer informatie over Data Hub.
Fig 1:OpDB Data Hub-cluster.
U kunt de koppelingen in dit artikel gebruiken voor meer informatie en instructies voor het gebruik van deze functies.
Database maken en beheren
Apache HBase-naamruimten zijn logische groepen tabellen die vergelijkbaar zijn met een database in een traditioneel relationeel databasesysteem. Naamruimten kunnen worden gemaakt of beheerd via de Apache HBase Shell. Zie Overzicht van Apache HBase-shell voor meer informatie over het gebruik van de Apache HBase-shell.
Met Replicatiemanager &Ranger in beeld met CDP, kunt u de naamruimte alleen maken en beheren in HBase-shell. Maar machtigingen zijn via Ranger en replicatie is via Replicatie Manager.
Net als in een relationele database bevatten naamruimten verzamelingen tabellen en machtigingen, replicatie-instellingen en bronisolatie. U kunt deze configuraties instellen op naamruimteniveau. In CDP kunt u een naamruimte maken en deze beheren met HBase-shell. U kunt Apache Ranger gebruiken voor fijnmazig autorisatiebeleid en controle. Zie Beveiliging met Ranger voor meer informatie over het instellen van beveiliging in CDP.
Replicatiebeheer helpt u bij het maken van HBase-replicatiebeleid. U kunt Replication Manager gebruiken om replicatie in te stellen tussen CDH/HDP of Apache HBase naar CDP Data Center.
Fig 2:Gebruikersinterface voor replicatiebeleid maken
Grafische DDL- en DCL-functionaliteit
Hiervoor zijn verschillende tools beschikbaar, waaronder plug-ins voor:
- Cloudera Machine Learning (CML):CML helpt u bij het opvragen van gegevens met behulp van de HBase-client en Phoenix, en helpt u bij het interactief verkennen, visualiseren, delen en samenwerken van gegevens. OpDB kan worden gebruikt om voorspellingsresultaten voor sessies/taken/modellen op te slaan voor latere zoekopdrachten door meerdere verschillende gebruikers.
Fig 3:Cloudera Machine Learning-gebruikersinterface
- Hue:Tint is een webgebaseerde interactieve query-editor waarmee u interactief kunt werken met datawarehouses. U kunt de HBase Browser-toepassing in Hue gebruiken om HBase-tabellen te maken en te bladeren.
Fig 4:Hue-interface ondersteunt zoeken, invoegen, bijwerken, verwijderen, DDL voor HBase
U kunt de SQL-interface gebruiken met Impala of Hive voor het verwerken van query's in Hue.
Fig 5:SQL-interface met Impala
Hier is een tutorial om voorbeeldtabellen te maken in HBase met Hue:https://gethue.com/hadoop-tutorial-how-to-create-example-tables-in-hbase/
- Eclipse:HBase-code-opmaak voor Eclipse is handig bij het bewerken van HBase-code in Eclipse. Zie Apache HBase bouwen en ontwikkelen voor meer informatie.
Tools zoals Zeppelin en Hue worden samen met hun plug-ins standaard geleverd. Maar u kunt ook SQL-hulpprogramma's van derden gebruiken, zoals Toad.
Hulpprogramma's voor de upgrade van de operationele database-release
U kunt Cloudera Manager gebruiken om het proces van het upgraden van de operationele database in uw Cloudera Data Platform-Data Center (CDP-DC) te automatiseren. Upgrades worden geleverd via releases of onderhoudspatches. Cloudera Manager installeert de releases en/of patches en beheert zowel de configuratie als het herstartproces.
Als u CDP gebruikt op een openbare cloud zoals Amazon AWS, moet u een nieuw Data Hub-cluster maken om te upgraden naar de nieuwe versies van verschillende componenten. Zie Aan de slag met operationele database op CDP voor meer informatie over het maken van een nieuwe operationele database Data hub-cluster.
Het aanbod van Cloudera is een op clusters gebaseerd aanbod; upgrades en patches omvatten allemaal meerdere nodes (servers) en installatie, configuratie en herstart zijn allemaal geautomatiseerd, inclusief rollende herstarts waar van toepassing.
Hulpprogramma's voor patchbeheer op meerdere servers
In het CDP Data Center installeert Cloudera Manager de releases en beheert de configuratie. Cloudera Manager voert ook het herstartproces uit voor elk van de betrokken componenten.
Zero-downtime patch-applicatie
In het CDP Data Center kunt u met Cloudera Manager patches toepassen zonder downtime.
Wijzigingsbeheer over meerdere servers
U kunt wijzigingsbeheer uitvoeren op databaseschema's voor meerdere instanties. U kunt dit bijvoorbeeld doen op uw test-/dev-, staging- of productieomgeving.
U kunt de vereiste wijzigingen scripten met behulp van de HBase-shell en deze vervolgens doorgeven aan de andere instanties.
Zie Apache HBase-shell voor meer informatie over het gebruik van HBase-shell.
Werklast partitionering
U kunt werkbelasting/toepassingspartitionering uitvoeren binnen OpDB met behulp van verschillende tools, afhankelijk van de aard van de reeks werkbelastingen en hun gegevensbehoeften.
Als de toepassingen allemaal toegang hebben tot afzonderlijke tabellen, kunnen regioservergroepen worden gebruikt om een set knooppunten toe te wijzen aan een gedefinieerde set tabellen of naamruimten, waardoor een hardware-partitioneringsbenadering wordt gecreëerd. Zie RegionServer Grouping gebruiken voor meer informatie over regioservergroepen.
Voor toepassingen die dezelfde set tabellen gebruiken, kunt u RPC-beperking, gebruikersquota en ruimtequota gebruiken om het probleem met luidruchtige buren te beheren. Zie HBase-offertebeheer voor meer technische details.
U kunt deze twee sets opties ook combineren om een meer geavanceerd partitieschema te krijgen. Gebruik Cloudera Manager om ervoor te zorgen dat specifieke services op de juiste manier worden gepartitioneerd tussen verschillende knooppunten van het cluster; u kunt bijvoorbeeld beslissen welke knooppunten moeten worden gebruikt voor SOLR-zoekopdrachten, enz.
Hardware-partitionering
Cloudera Manager en YARN maken beide gebruik van Linux cgroups en actief geheugenbeheer voor zowel statische als dynamische partitionering van hardwarebronnen.
Ten eerste kunnen alle processen die op alle hosts worden uitgevoerd, hard worden gepartitioneerd met cgroups, ingesteld door Cloudera Manager. Ten tweede stelt een wizard gebruikers in staat de lay-out van statische partities voor services te definiëren door percentages in te stellen, automatisch cgroup-gebaseerde CPU- en I/O-isolatie te vertalen, en geheugenlimieten in te stellen door services zelf te configureren.
Ten slotte biedt de native resourcemanager een containermodel voor workloads dat elke afzonderlijke werkeenheid in een container plaatst, met behulp van cgroups en actief geheugenbeheer (set, monitor en kill) voor applicatie-isolatie.
Softwarehypervisors
De volgende softwarehypervisors worden ondersteund
- VMware wordt ondersteund voor on-premises omgevingen
- Virtuele omgevingen van Microsoft Azure (Azure-stack)
- Amazon Web Services, virtualisatie van Google Compute Platform en Microsoft Azure worden ondersteund in de cloud.
Container- en orkestratieondersteuning
Cloudera biedt een Docker-image waarop Apache HBase, Apache ZooKeeper en Cloudera Manager zijn geïnstalleerd. U kunt YARN configureren om uw Docker-containers te beheren en Apache HBase-taken verzenden naar YARN op dezelfde container of taken verzenden naar YARN vanuit een andere container.
Zie Docker-containers op YARN beheren voor meer informatie.
Terugdraaien van patches of release-upgrades
Cloudera Manager biedt automatisering voor sommige van de terugdraaiprocessen. Upgrades kunnen soms wijzigingen in gegevensformaten met zich meebrengen. Hulpprogramma's om formaatwijzigingen ongedaan te maken worden niet ondersteund en u moet een herstel van gegevens van back-ups activeren, zodat het terugdraaien de oude gegevens kan gebruiken.
Cross-OS-platformmigratie
Cloudera's standaard back-up/restore/data recovery tools zijn beschikbaar om de migratie van de OpDB tussen verschillende besturingssystemen te ondersteunen.
HBase-strategieën voor back-up en noodherstel zorgen ervoor dat er een back-up van uw gegevens wordt gemaakt om u te beschermen tegen gegevensverlies. Met HBase-snapshot kunt u een snapshot van een tabel maken zonder veel impact op RegionServers. Ook omdat snapshot-, kloon- en herstelbewerkingen niet gepaard gaan met het kopiëren van gegevens.
Zie HBase-strategieën voor back-up en noodherstel voor meer informatie over HBase-back-up en noodherstel.
Hulpprogramma's voor databasebeheerders (DBA)
Er zijn veel tools meegeleverd om het beheer van de database te ondersteunen, waaronder:
- Cloudera Manager
- HBase-shell
- Hue
- HBCK2
- hbtop
- Ranger
- Atlas
- FreeIPA
- navencrypt
- HDFS-tools
- GAREN
Deze hulpprogramma's bieden metrische gegevens en monitoring, het opnieuw opstarten van clusters, het toevoegen van ingest, levenscyclusbeheer, upgrades, beveiliging, Kerberos-installatie en andere functies.
Fig 6:Cloudera Manager HBase-interface
Fig 7:Metrieken en monitoring in Cloudera Manager:
Fig 8:Cluster opnieuw opstarten in Cloudera Manager
Naast deze tools kunt u ook de volgende externe en open source beheertools gebruiken:
- hrider
- HADMIN
Open gedocumenteerde interfaces voor beheertools van derden
We bieden ook open API's zodat andere tools kunnen worden gebruikt om OpDB te beheren. De JMX-interface kan bijvoorbeeld worden gebruikt om te integreren met monitoringtools van derden, zoals Grafana.
Conclusie
In deze blogpost hebben we gekeken hoe u gebruik kunt maken van de verschillende administratieve tools en mogelijkheden van de OpDB in CDP. In het volgende artikel bespreken we hoe u gebruik kunt maken van de beheermogelijkheden in OpDB, bekijk het hier.