sql >> Database >  >> NoSQL >> HBase

CDH 6.2-release:wat is er nieuw in HBase

Cloudera heeft onlangs CDH 6.2 gelanceerd, dat twee nieuwe belangrijke functies in Apache HBase bevat:

  1. Seriële replicatie
  2. Bucketcache ondersteunt nu Intel's Optane-geheugen

Seriële replicatie

HBase heeft een geavanceerd asynchroon replicatiemechanisme dat tegenwoordig complexe topologieën ondersteunt, waaronder globale round-robin, bidirectionele, span-in en span-out topologieën.

Deze replicatiemogelijkheid biedt tot op heden uiteindelijke consistentie - wat betekent dat de volgorde waarin updates worden gerepliceerd niet noodzakelijk dezelfde is als de volgorde waarin ze op de database zijn toegepast. Hoewel dit voor veel klanten werkte, was de volgorde van updates op het replicatie-eindpunt belangrijk voor veel gebruiksscenario's.

De functie voor seriële replicatie biedt tijdlijnconsistentie voor replicatie. Met andere woorden, de volgorde van updates blijft behouden door replicatie naar het doelcluster. Er zijn kleine kosten verbonden aan deze consistentie en in sommige gevallen kunnen gebruikers merken dat replicatie iets langzamer is dan de standaardreplicatiebenadering.

De configuratie van deze optie is vrij eenvoudig (zet de SERIAL-vlag op true) en kan worden toegepast op het moment van de replicatie-instelling of op elk moment daarna op tabelniveau, naamruimteniveau of voor een peer die alle tabellen in HBase repliceert.

HBase-bucketcache

De bucket-cache van HBase is een cache met twee lagen die is ontworpen om de prestaties in verschillende gebruikssituaties te verbeteren. De eerste laag bevindt zich in de Java-heap en de tweede laag van de cache kan zich op een aantal verschillende locaties bevinden, waaronder:off-heap-geheugen, Intel Optane-geheugen, SSD's of HDD's.

De aanbevolen configuratie voor de tweede laag van de bucketcache was voor de meeste klanten onhandig. Implementaties in deze configuratie kunnen worden opgeschaald naar veel grotere geheugengroottes dan mogelijk is met de ingebouwde on-heap-cache, omdat de off-heap-engine JVM-vuilnisverzameldruk vermijdt. De grotere cachegrootte zorgt voor aanzienlijk verbeterde HBase-leesprestaties.

Vanaf CDH 6.2 biedt Cloudera nu de mogelijkheid om Intel's nieuw uitgebrachte Optane Memory te gebruiken als een alternatieve bestemming voor de 2e laag van de bucket-cache. Deze implementatieconfiguratie stelt u in staat om ~ 3x de grootte van de cache te hebben tegen constante kosten (in vergelijking met off-heap cache op DRAM). Het brengt wat extra latentie met zich mee in vergelijking met de traditionele off-heap-configuratie, maar onze tests geven aan dat door meer (zo niet alle) werkset van de gegevens in de cache te laten passen, de opstelling resulteert in een netto prestatieverbetering wanneer de gegevens wordt uiteindelijk opgeslagen op HDFS (met HDD's).

Bij implementatie in de cloud of bij gebruik van objectopslag op locatie, zal de prestatieverbetering nog beter zijn, aangezien objectopslag vaak erg duur is voor het willekeurig lezen van kleine hoeveelheden gegevens. De onderstaande tabel geeft een idee van de kosten, grootte en latentie die nodig zijn bij het plannen van het configureren van de tweede laag van de bucketcache.

Opslag $ Kosten / GB Grootte (constante kosten) Latentie
Off-heap DRAM 35 1,0 GB ~70 ns
Intel Optane¹ 13 2,7 GB 180-340 ns
SSD 0,15 233.3 GB 10-100 µs
HDD² 0,027 1,3 TB 4-10 ms
Objectopslag³ 0.006 5.8 TB 10-100 ms

Lees deze blog voor meer informatie over de samenwerking tussen Intel en Cloudera bij het gebruik van Optane DC Persistent Memory voor prestatieverbetering.

Referenties:

  1. Optane DC Persistent Memory Performance-overzicht (https://www.youtube.com/watch?v=UTVt_AZmWjM) – minuut 6:53,
    https:// www.pcper.com/news/Storage/Intels-Optane-DC-Persistent-Memory-DIMMs-Push-Latency-Closer-DRAM,
    https://www.tomshardware.com/news/intel-optane- dimm-pricing-performance,39007.html
  2. https://www.backblaze.com/blog/hard-drive-cost-per-gigabyte/,
    https://www.westerndigital.com/ products/datacenter-drives#hard-disk-hdd
  3. https://www.qualeed.com/en/qbackup/cloud-storage-comparison/, https://www.dellemc.com/en-us/collaterals/ uauth/analyst-reports/products/storage/esg-ecnomic-value-audi-dell-emc-elastic-cloud-storage.pdf

  1. Hoe MongoDB te installeren

  2. Hoe maak je db (key_space) in redis

  3. MongoDB aan met Docker kon geen verbinding maken met server [localhost:27017] bij eerste verbinding

  4. verschil tussen aggregaat ($ match) en vinden, in MongoDB?