sql >> Database >  >> NoSQL >> HBase

Een schaalbaar proces bouwen met NiFi, Kafka en HBase op CDP

Navistar is een toonaangevende wereldwijde fabrikant van commerciële vrachtwagens. Met een vloot van 350.000 voertuigen zorgden ongepland onderhoud en voertuigstoringen voor voortdurende verstoring van hun bedrijf. Navistar had een diagnoseplatform nodig waarmee ze konden voorspellen wanneer een voertuig onderhoud nodig had om stilstand tot een minimum te beperken. Dit platform moest gegevens van meer dan 70 telematica- en sensordatafeeds van elk voertuig in hun wagenpark kunnen verzamelen, analyseren en aanbieden, inclusief gegevens die de motorprestaties, koelvloeistoftemperatuur, vrachtwagensnelheid en remslijtage meten. Navistar wendde zich tot Cloudera om te helpen bij het bouwen van een IoT-enabled platform voor diagnose op afstand, genaamd OnCommand® Connection, om de gezondheid van hun voertuigen te bewaken en de uptime van voertuigen te verhogen.

Deze blog demonstreert het gebruik van vergelijkbare technologieën om problemen aan te pakken die veel kleiner zijn, maar met parallellen met die waarmee Navistar werd geconfronteerd. Gegevens werden gehaald uit een sterk aangepaste, krachtige Corvette (zie figuur 1) om de stappen te tonen voor het laden van gegevens van een externe bron, het formatteren met Apache NiFi, het naar een streambron pushen via Apache Kafka en het opslaan met Apache HBase voor aanvullende analyse.

Fig 1. 2008 Corvette met gemodificeerde 6.8L motor

Voor dit specifieke voorbeeld heeft de Corvette in kwestie alle originele fabrieksmotorcomponenten vervangen ten gunste van onderdelen met hogere prestaties. De motor werd tot op het bot afgebroken, de cilinders werden geboord, de krukas en nokkenas werden vervangen en er werden nieuwe zuigers en drijfstangen geïnstalleerd, waarmee het doel van ~600 pk werd nagestreefd (zie figuur 2). Om deze nieuwe motorconfiguratie goed te laten werken, heeft de software van de motor een volledige revisie ondergaan. Terwijl het indrukken van het gaspedaal aanzienlijk dramatischer werd, was een onbedoeld gevolg dat de oorspronkelijke diagnose- en foutsystemen van de auto niet langer nauwkeurig waren en daarom moesten worden uitgeschakeld.

Fig 2. Motor halverwege herbouwd met geheel nieuwe glanzende internals

Om de sensorgegevens van de Corvette vast te leggen en te analyseren, was een pad nodig om de gegevens van de auto naar een alternatief analyse- en diagnoseplatform te laten stromen. De eerste stap was om een ​​laptop aan te sluiten op de diagnostische poort van de Corvette (zie figuur 3) om sensorgegevens te importeren naar een cloudgebaseerde opslaglocatie. S3 werd gebruikt voor dit project.

Fig 3. Laptop aangesloten op diagnosepoort via USB

De volgende stap was het gebruik van Cloudera Data Platform (CDP), het multifunctionele, multi-analyseplatform van Cloudera, om toegang te krijgen tot de services die nodig zijn om de gegevens naar de uiteindelijke opslagbestemming te verplaatsen voor aanvullende analyse. Met behulp van CDP Public Cloud werden 3 datahubs opgezet, die elk een set voorverpakte, open source-services hosten (zie figuur 4):

  • De eerste opzet was NiFi, een service die is gebouwd om de gegevensstroom te automatiseren en te beheren. NiFi werd gebruikt om de gegevens van de Corvette te importeren, te formatteren en te verplaatsen van de bron naar het uiteindelijke opslagpunt.
  • De volgende stap was het opzetten van Kafka, een realtime streamingdienst waarmee grote hoeveelheden gegevens als een stream beschikbaar kunnen zijn. Kafka biedt de mogelijkheid voor streamverwerking van de gegevens, terwijl andere gebruikers ook de mogelijkheid hebben om zich te abonneren op de datastromen. In dit voorbeeld zijn er geen abonnees; dit is echter een belangrijk concept dat een demonstratie verdient van hoe het in te stellen.
  • De uiteindelijke opzet was HBase, een zeer schaalbare, kolomgeoriënteerde operationele database die realtime lees-/schrijftoegang biedt. Nadat gegevens in HBase waren geïmporteerd, zou Phoenix worden gebruikt om gegevens op te vragen en op te halen.

Fig 4. Corvette-gegevensstroomdiagram van bron tot query.

Het bouwen van het diagnoseplatform met behulp van CDP om de gezondheid en prestaties van de Corvette te bewaken, was een succesvolle oefening. Door NiFi en Kafka te gebruiken om de sensorgegevens te formatteren en naar HBase te streamen, kunnen nu geavanceerde gegevensengineering en -verwerking worden uitgevoerd, ongeacht hoe groot de gegevensset groeit.

Volgende stappen

Als u dit alles in actie wilt zien, raadpleegt u de onderstaande links naar een aantal verschillende bronnen die het gemaakte proces laten zien.

  • Video – Als je wilt zien en horen hoe dit is gebouwd, bekijk dan een korte video van 5 minuten met realtime navigatie van CDP met NiFi, Kafka en HBase.
  • Tutorials – Als je dit in je eigen tempo wilt doen, bekijk dan een gedetailleerd overzicht met screenshots en regel voor regel instructies om dit in te stellen.
  • MeetUps – Als je rechtstreeks wilt praten met experts van Cloudera en zelfs de eigenaar van deze Corvette, neem dan deel aan een virtuele meetup om zijn live presentatie te zien. Aan het einde is er tijd voor directe Q&A.
  • CDP-gebruikerspagina - Klik op de link om meer te weten te komen over andere CDP-bronnen die voor gebruikers zijn gebouwd, inclusief aanvullende video's, tutorials, blogs en evenementen.

  1. Hoe lid te worden van twee extra collecties met voorwaarden

  2. Scan strings met nodejs in redis

  3. Aantal verlopen sleutels vermeld door info-opdracht op redis-slave komt niet overeen met wat ik zie

  4. Unieke index in mangoest werkt niet