sql >> Database >  >> NoSQL >> HBase

Wat biedt de toekomst voor Impala na release 1.1

In december 2012, terwijl Cloudera Impala zich nog in de bètafase bevond, hebben we een roadmap voor geplande functionaliteit in de productierelease gegeven. In dezelfde geest om gebruikers, klanten en enthousiasten van Impala goed op de hoogte te houden, biedt dit bericht een bijgewerkte routekaart voor aankomende releases later dit jaar en begin 2014.

Maar eerst een bedankje:sinds de eerste bètaversie hebben we enorm veel feedback en validatie ontvangen over Impala - zowel kwalitatief als kwantitatief. Tot op heden heeft ten minste één persoon in ongeveer 4.500 unieke organisaties over de hele wereld het Impala-binaire bestand gedownload. En zelfs na slechts een paar maanden GA hebben we gezien dat Cloudera Enterprise-klanten uit meerdere sectoren Impala 1.x inzetten in bedrijfskritieke omgevingen met ondersteuning via een Cloudera RTQ (Real-Time Query)-abonnement — inclusief toonaangevende organisaties in verzekeringen, bankwezen, detailhandel, gezondheidszorg, gaming, overheid, telecom en reclame.

Bovendien, op basis van de reactie van andere leveranciers in de gegevensbeheerruimte, zullen maar weinig waarnemers het idee betwisten dat Impala interactieve SQL-query's met lage latentie voor Hadoop even belangrijk heeft gemaakt als een klantvereiste als de batch-georiënteerde SQL-query's met hoge latentie ingeschakeld door Apache Hive. Dat is een geweldige ontwikkeling voor Hadoop-gebruikers overal!

Wat werd geleverd in Impala 1.0/1.1

Laten we beginnen met een rapport over de eerder gepubliceerde Impala 1.0/1.1 roadmap. Hier is de lijst met functies, gegroepeerd op leveringsstatus:

Geleverd:

  • Ondersteuning voor Parquet-indeling, Apache Avro-bestandsindeling en LZO-gecomprimeerde TextFiles
  • Ondersteuning voor dezelfde 64-bit OS-platforms als ondersteund voor CDH
  • JDBC-stuurprogramma
  • DDL-ondersteuning
  • Sneller, grotere, meer geheugenefficiënte joins
  • Sneller, grotere, meer geheugenefficiënte aggregaties
  • Meer optimalisaties van SQL-prestaties

Uitgesteld op basis van feedback van klanten:

  • Afhandeling achterblijvers
  • Automatisch vernieuwen van metagegevens

Bovendien bieden Impala 1.1 en hoger dankzij de toevoeging van de Apache Sentry-module (incubatie) nu ook granulaire, op rollen gebaseerde autorisatie, zodat de juiste gebruikers en applicaties toegang hebben tot de juiste gegevens. (Met de recente bijdrage van Sentry aan de Apache Incubator en van HiveServer2 aan Hive door Cloudera, hebben Hive 0.11 en later die functionaliteit ook.)

Er is veel werk verzet, maar er is nog genoeg werk te doen. Nu, op naar de Impala 2.0-golf.

Routekaart op korte termijn

De volgende nieuwe Impala-functionaliteit zal stapsgewijs worden vrijgegeven voor toekomstige releases op korte termijn, te beginnen met Impala 1.2 eind 2013 en eindigend met Impala 2.0 in het eerste derde deel van 2014. Bovendien zult u meer prestatieverbeteringen en verbeteringen in SQL-functionaliteit zien in elke release - met als doel de prestatievoorsprong van Impala uit te breiden ten opzichte van de alternatieve SQL-on-Hadoop-benaderingen van oudere relationele databaseleveranciers en Hadoop-distroleveranciers.

Houd er rekening mee dat, zoals altijd het geval is met roadmaps, tijdlijnen en functies altijd aan verandering onderhevig zijn. Wat u hieronder ziet, is echter een weergave van ons huidige record-of-record.

Impala 1.2

  • UDF's en uitbreidbaarheid – stelt gebruikers in staat hun eigen aangepaste functionaliteit toe te voegen; Impala ondersteunt zowel bestaande Hive Java UDF's als krachtige native UDF's en UDAF's
  • Automatische verversing van metagegevens - zorgt ervoor dat nieuwe tabellen en gegevens naadloos beschikbaar zijn voor Impala-query's wanneer ze worden toegevoegd zonder dat elke Impala-node handmatig hoeft te worden vernieuwd
  • In-memory HDFS-caching – geeft toegang tot veelgebruikte Hadoop-gegevens met snelheden in het geheugen
  • Op kosten gebaseerde optimalisatie van de deelnamevolgorde – verlost de gebruiker van het raden van de juiste deelnamevolgorde
  • Voorbeeld van YARN-geïntegreerde resourcemanager — maakt prioritering van workloads mogelijk met een fijnere granulariteit dan de isolatie op serviceniveau die momenteel wordt geboden in Cloudera Manager

Impala 2.0

De onderstaande lijst bevat alleen de grotere, meest gevraagde functies; het is zeker niet compleet.

  • SQL 2003-compatibele analytische vensterfuncties (aggregatie OVER PARTITIE) – om meer geavanceerde SQL-analysemogelijkheden te bieden
  • Aanvullende authenticatiemechanismen – inclusief de mogelijkheid om gebruikersnaam/wachtwoorden op te geven naast de reeds ondersteunde Kerberos-authenticatie
  • UDTF's (door de gebruiker gedefinieerde tabelfuncties) – voor meer geavanceerde gebruikersfuncties en uitbreidbaarheid
  • Intra-node parallelle aggregaties en joins - om nog snellere joins en aggregaties te bieden bovenop de prestatieverbeteringen van Impala
  • Geneste gegevens – maakt query's mogelijk op complexe geneste structuren, waaronder kaarten, structs en arrays
  • Verbeterde, productieklare, YARN-geïntegreerde resourcemanager
  • Parketverbeteringen – aanhoudende prestatieverbeteringen inclusief indexpagina's
  • Aanvullende gegevenstypen – inclusief datum- en decimale typen
  • ORDER BY zonder LIMIT-clausules

Voorbij Impala 2.0

De volgende lijst met functies zijn de functies waarvan we momenteel verwachten dat ze aanwezig zullen zijn in 2.1 of een release kort daarna:

  • Aanvullende analytische SQL-functionaliteit – ROLLUP, CUBE en GROUPING SET
  • Apache HBase CRUD – maakt gebruik van Impala mogelijk voor invoegingen en updates in HBase
  • Externe joins met behulp van schijf – zorgt ervoor dat joins tussen tabellen naar schijf kunnen worden gemorst voor joins waarvoor join-tabellen nodig zijn die groter zijn dan de totale geheugengrootte
  • Subquery's binnen WHERE-clausules

Naarmate we meer te weten komen over de vereisten van klanten en partners, wordt deze lijst uitgebreid.

Conclusie

Zoals je kunt zien, is Impala aanzienlijk geëvolueerd sinds de bètaversie, en het zal blijven evolueren naarmate we meer feedback verzamelen van gebruikers, klanten en partners.

Uiteindelijk zijn we van mening dat Impala ons algemene doel om gebruikers in staat te stellen al hun gegevens in native Hadoop-bestandsindelingen op te slaan, al mogelijk heeft gemaakt en tegelijkertijd alle batch-, machine learning-, interactieve SQL/BI-, wiskunde-, zoek- en andere workloads op die gegevens kan uitvoeren. in situ. Vanaf hier is het gewoon een kwestie van voortbouwen op die zeer solide basis met rijkere functionaliteit en verbeterde prestaties.

Justin Erickson is directeur productbeheer bij Cloudera.


  1. Creëer een uniek autoincrement-veld met mangoest

  2. handvat @ in mongodb-verbindingsreeks

  3. C#/.NET Client voor Redis

  4. Unieke index in mangoest werkt niet