Cloudera Data Engineering gebruiken om de gegevens van het Paycheck Protection Program te analyseren

Het Paycheck Protection Program (PPP) wordt geïmplementeerd door de Amerikaanse federale overheid om bedrijven een directe stimulans te geven om hun werknemers op de loonlijst te houden, met name tijdens de Covid-19-pandemie. PPP helpt gekwalificeerde bedrijven hun personeel te behouden en helpt bij het betalen van gerelateerde bedrijfskosten. Uit gegevens van de website van het Amerikaanse ministerie van Financiën blijkt welke bedrijven pps-leningen hebben ontvangen en hoeveel banen zijn behouden. Het Amerikaanse ministerie van Financiën keurde ongeveer een miljoen pps-leningen in de hele VS goed.

Analyse van deze gegevens brengt drie uitdagingen met zich mee. Ten eerste is de omvang van de gegevens significant. De hoeveelheid tijd om die gegevens op te halen, te beheren, te transformeren, op te halen en te rapporteren, is tijdrovend. Ten tweede zal de dataset waarschijnlijk evolueren, wat extra ontwikkelingstijd en middelen zal vergen. Eindelijk, in een meerfasenproces als dit, is er een kans dat dingen kapot gaan. Door snel fouten of knelpunten te kunnen vaststellen, kunt u consequent aan SLA's voldoen.

Deze blog illustreert hoe Cloudera Data Engineering (CDE), met behulp van Apache Spark, kan worden gebruikt om rapporten te produceren op basis van de PPP-gegevens en tegelijkertijd elk van de hierboven beschreven uitdagingen aan te pakken.

Doelstelling

Hieronder wordt een fictief scenario opgesteld voor de Texas Legislative Budget Board (LBB) om een data-engineer te helpen bij het beheren en analyseren van de PPP-gegevens. Het primaire doel van deze data-engineer is om de LBB te voorzien van twee eindrapporten:

Rapport 1:Uitsplitsing van alle steden in Texas die banen hebben behouden
Rapport 2:Uitsplitsing van het type bedrijf dat banen heeft behouden

Cloudera Data Engineering (CDE)

Dit is waar Cloudera Data Engineering (CDE) met Apache Spark kan helpen. CDE is een van de services in Cloudera Data Platform (CDP) waarmee data-engineers Apache Spark-taken kunnen maken, beheren en plannen, terwijl ze handige tools bieden om taakprestaties te bewaken, logbestanden te openen en workflows te orkestreren via Apache Airflow. Apache Spark is een raamwerk voor gegevensverwerking dat in staat is om snel grootschalige gegevensverwerking uit te voeren.

De US Treasury biedt twee verschillende datasets, een voor goedgekeurde leningen van meer dan $ 150.000 en een voor goedgekeurde leningen van minder dan $ 150.000. Voor het maken van de twee eindrapporten voor de LBB zijn deze stappen gevolgd (zie Fig. 1).

De eerste stap was om de twee afzonderlijke datasets in een S3-bucket te laden.
Voor elke dataset is een Spark-taak gemaakt om gegevens uit de S3-bucket te halen en te filteren.
Deze twee Spark-taken hebben de schone gegevens getransformeerd en in een Hive-datawarehouse geladen om ze op te halen.
Er is een derde Spark-taak gemaakt om de gegevens van het Hive-datawarehouse te verwerken om de twee rapporten te maken.

Nadat de taakuitvoeringen waren voltooid, leverde CDE een grafische weergave van de verschillende fasen binnen elke Spark-taak (zie Fig. 2). Hierdoor kon de data-engineer gemakkelijk zien welke onderdelen van het werk mogelijk de meeste tijd in beslag namen, zodat ze hun code gemakkelijk konden verfijnen en verbeteren om zo goed mogelijk te voldoen aan de SLA's van klanten.

Fig. 1:Gegevensreis om de twee eindrapporten te maken.

Fig. 2:CDE grafische weergave van verschillende Spark-fasen.

Resultaten

Het primaire doel om de twee eindrapporten te produceren uit het record van een miljoen goedgekeurde aanvragers werd gehaald. De grafische samenvatting van het eerste rapport (zie Fig. 3) toont een top 10-voorbeeld van het aantal behouden banen per stad in Texas, en het tweede rapport (zie Fig. 4) toont een top 5-voorbeeld van het aantal behouden banen per bedrijfstype. Met deze rapporten kan de Texas Legislative Budget Board bijvoorbeeld concluderen dat steden met het minste banenbehoud per hoofd van de bevolking mogelijk middelen nodig hebben om de economische impact te verminderen.

Fig. 3:Top 10 steden met de meeste banen, staat Texas, 2020

Fig. 4:Top 5 bedrijfstypes met de meeste banen, State of Texas, 2020

Volgende stappen

Om dit alles in actie te zien, klikt u op onderstaande links naar een aantal verschillende bronnen die het gemaakte proces laten zien.

Video – Als je wilt zien en horen hoe dit is gebouwd, bekijk dan de video via de link.
Tutorials – Als je dit in je eigen tempo wilt doen, bekijk dan een gedetailleerd overzicht met screenshots en regel voor regel instructies over hoe je dit kunt instellen en uitvoeren.
Meetup – Als je rechtstreeks met experts van Cloudera wilt praten, neem dan deel aan een virtuele meetup om een livestreampresentatie te zien. Aan het einde is er tijd voor directe Q&A.
CDP-gebruikerspagina - Klik op de link voor meer informatie over andere CDP-bronnen die voor gebruikers zijn gemaakt, waaronder aanvullende video's, tutorials, blogs en evenementen.