sql >> Database >  >> NoSQL >> HBase

Next Generation Data Warehousing bij Santander UK

Tijdige gegevens zijn cruciaal voor bedrijven in het Big Data-tijdperk:deze blogpost schetst hoe Santander UK de nieuwste Cloudera-technologieën en superieure softwareontwikkelingsmogelijkheden gebruikt om de volgende generatie datawarehousing en streaminganalyses te creëren ter ondersteuning van intelligentie die de relaties met klanten en volg de mantra van 'we willen mensen helpen groeien en bloeien.

De big data-reis van Santander UK begon ongeveer vier jaar geleden. Ze waren early adopters van nieuwe datastreamingtechnologie zoals Apache Kafka en hadden de ambitie om de klantervaring te revolutioneren met het gebruik van realtime data en in-app-analyse voor mobiele gebruikers.

Sindsdien heeft Santander UK zowel de voetafdruk als het vermogen om te innoveren met big data-technologie vergroot en is het snel geëvolueerd. De behoefte aan grootschalige streaminganalyse is toegenomen en realiteit geworden. Tegenwoordig wordt bij Santander UK Cloudera's Big Data, Machine Learning en Analytics-platform aangevuld met geïntegreerde, hoogwaardige en schaalbare Platform-as-a-Service (PaaS) event delivery via Apache Kafka.

Een ander technologisch onderdeel dat centraal staat in het datawarehouse van de volgende generatie van Santander UK, is het gebruik van Apache Kudu om snelle analyse van snelle gegevens mogelijk te maken. In combinatie met aspecten van de Data Vault 2.0-ontwerpmethodologie, vergemakkelijkt het een snelle opname van honderden Apache Kafka-gegevensstromen; zowel het ontlasten van de werklast van bestaande legacy-systemen als het bieden van de mogelijkheid om 'hier en nu' vragen te stellen over het gedrag van klanten en de huidige toestand van de bank.

Snel naar de markt

Snelle datastromen kunnen met minimale inspanning online worden verplaatst dankzij een innovatief nieuw platform bij Santander UK, dat legacy-systemen integreert met een nieuwe Data Vault via Apache Kafka. Vanwege de schone structuur van de gegevens die worden geïntegreerd, is een nieuwe gebeurtenisstroomfeed om de Apache Kudu Data Vault te vullen grotendeels configuratiegestuurd - conform de gegevensgebeurtenissen aan de Hub-, Satelliet- en Link-structuur van de Data Vault 2.0-methodologie. Hierdoor kan het schema reageren op veranderingen in het bedrijf of op nieuw begrip van hoe de gegevens moeten worden aangepast.

Santander UK kan gegevenstransformaties beïnvloeden door het elastische event delivery-platform, dat is gebaseerd op Scala Akka en Apache Kafka, te schalen, waardoor snelle en schaalbare gegevensverrijking in realtime mogelijk is. Dit zorgt voor snellere, actuelere gegevens, snellere beslissingen en een snellere marktintroductie voor gebruiksscenario's dankzij het herbruikbare platform en de architectuur.

Data Science en Rapid Prototyping van dataproducten

Uiteindelijk zijn er veel potentiële gebruikers van deze streaminggegevensbron; er is echter al interessant inzicht verkregen door de integratie van Cloudera Data Science Workbench in de Data Vault. Deze bieden een uitgebreide Data Science-ervaring voor het groeiende Data Science-team en gebruiken ook - op typisch Santander UK-innovatieve wijze - het potentieel om snel prototypen van ideeën te maken en nieuwe dataproducten te creëren voordat zware technische en architecturale uitdagingen worden aangepakt. Bouw een snel prototype, en als het waarde oplevert, ontwikkel het dan tot een eersteklas product.

Snelle integratie:het bijdragemodel

In de geest van de innovatie en behendigheid die het Santander UK Data Innovation-team heeft gerealiseerd, creëerden ze het concept van het Contribution Model. Omdat het cluster multi-tenant is met verschillende business units die nieuwe datasets inkopen, opschonen en engineeren; als dit nuttig wordt geacht voor de rest van het bedrijf, kunnen koppelingstabellen in Data Vault-stijl worden gebruikt om deze algemeen bruikbare gegevens te integreren in de kern van het Data Vault-schema. Op deze manier kan het team de waarde van dataproducten verhogen door snel nieuwe combinaties van datasets te genereren, met traceerbare afstamming door Cloudera Navigator te gebruiken voor governance, en beveiliging door Apache Sentry te gebruiken voor toegangscontrole. Als de data van de business unit nuttig wordt geacht voor anderen, wordt deze gekoppeld aan de core en gedeeld volgens governance principes.


Het bijdragemodel stelt ons in staat om pure datasets te benutten die onafhankelijk zijn gemaakt door verschillende bedrijfseenheden en productteams. Als deze gegevens waardevol zijn voor de rest van het bedrijf, hebben we de mogelijkheid om deze als eersteklas burger in de Data Vault te brengen door het gebruik van linktabellen. We wilden de Apache-communitybenadering van open source-software voor datasystemen in onze organisatie repliceren om innovatie door samenwerking te verbeteren.

    – Nicolette Bullivant – Hoofd Data Engineering, Santander VK

Multi-bestemming:één stream om ze allemaal te regeren

De onbewerkte gebeurtenisstromen die worden gegenereerd op basis van legacy-systemen worden als canoniek beschouwd en zijn over het algemeen vereist door andere belanghebbenden die het cluster gebruiken. Het Santander UK Data Innovation Team heeft het principe aangenomen om ervoor te zorgen dat deze gebeurtenisstromen beschikbaar zijn voor gebruik door verschillende gebruiksscenario's en technologieën; dus kan een canonieke gebeurtenisstroom worden herverdeeld naar verschillende bestemmingen; ofwel HDFS-bestandssysteem, Apache HBase of Apache Kudu. Dit helpt om een ​​enkele versie van de waarheid voor alle belanghebbenden te creëren en tegelijkertijd tegendruk op legacy-systemen te voorkomen.

Conclusie

Kortom, Santander UK innoveert rechtstreeks op de Cloudera-stack, waarbij streaminggegevens, geavanceerde software-engineeringprincipes en -frameworks en moderne datawarehouse-ontwerpprincipes worden gekoppeld om realtime inzicht te genereren om de klantervaring en het financiële welzijn van de klant te verbeteren. Deze innovatie werd onlangs erkend toen een derde partij juryleden Santander uitkoos als finalist van de Data Impact Award.

Nicolette Bullivant is hoofd Data Engineering bij Santander UK.
Rob Siwicki is Senior Solutions Architect voor Cloudera's Professional Services, EMEA.


  1. MongoDB-omgeving instellen | Installeer MongoDB op Windows

  2. RDBTools is overgenomen door RedisLabs!

  3. Redis gesorteerde sets en de beste manier om uids op te slaan

  4. Ik ontvang dubbele berichten in mijn geclusterde node.js/socket.io/redis pub/sub-toepassing