Big data
Big data beschrijft de grote hoeveelheid gegevens, gestructureerd of ongestructureerd, die een bedrijf dagelijks overspoelt. Big Data behandelt manieren om datasets te analyseren, er informatie uit te extraheren of om te gaan met datasets die te groot of te complex zijn om door normale dataverwerkingssoftware te worden verwerkt.
Big data heeft de volgende kenmerken:
- Volume: De hoeveelheid gegenereerde en opgeslagen gegevens
- Verscheidenheid: Het type en de aard van de gegevens
- Snelheid: De snelheid waarmee gegevens worden gegenereerd en verwerkt
- Waarachtigheid: Gegevenskwaliteit en de gegevenswaarde
De invloed van Azure op big data
Microsoft Azure zet gegevens om in bruikbare inzichten met behulp van machine learning-tools. Hiermee kunt u alle gegevens op elke schaal combineren en machine learning-modellen op schaal bouwen en implementeren.
Met de volgende Azure-producten kunnen geavanceerde analyses worden uitgevoerd op Big Data:
- SQL-datawarehouse
- Datafabriek
- Azure BLOB-opslag
- Azure Databricks
- Azure Cosmos DB
- Power BI
Laten we ze allemaal afzonderlijk bekijken.
SQL-datawarehouse
SQL Data Warehouse is een cloudgebaseerd EDW (Enterprise Data Warehouse) dat massaal parallelle verwerking gebruikt (een groot aantal processors die parallel een reeks berekeningen uitvoeren) om complexe query's uit te voeren over petabytes aan gegevens.
U importeert eenvoudig big data in SQL Data Warehouse met PolyBase T-SQL-query's (query's die gegevens uit Hadoop lezen), en voert vervolgens, met de kracht van MPP, hoogwaardige analyses uit. Het datawarehouse wordt dan de enige versie van de waarheid waarop u kunt rekenen voor inzichten.
Datafabriek
Data Factory is een cloud-gegevensintegratieservice die gegevensopslag-, verplaatsings- en verwerkingsservices samenstelt in geautomatiseerde gegevenspijplijnen. Azure Data Factory is een hybride data-integratieservice waarmee u ETL/ELT-workflows (Extract, Transform, Load) kunt maken, plannen en orkestreren.
Azure BLOB-opslag
Azure BLOB-opslag is een enorm schaalbare objectopslag voor ongestructureerde documenten, afbeeldingen, video's en audio. Azure BLOB-opslag is geoptimaliseerd voor het opslaan van enorme hoeveelheden ongestructureerde gegevens (gegevens die niet voldoen aan een bepaald gegevensmodel of bepaalde definitie), zoals tekst of binaire gegevens, bijvoorbeeld.
Azure BLOB-opslag heeft de volgende functies:
- Documenten of afbeeldingen rechtstreeks naar een browser sturen
- Bestanden opslaan voor gedistribueerde toegang
- Audio en video streamen
- Schrijven naar logbestanden
- Gegevens opslaan voor noodherstel, back-up en herstel en archivering
Azure Databricks
Azure Databricks is een eenvoudig, snel en op Apache Spark gebaseerd (open-source gedistribueerd framework voor clustercomputing voor algemene doeleinden, dat een interface biedt voor het programmeren van clusters met impliciete gegevensparallellisme) analyseplatform.
Azure Cosmos DB
Azure Cosmos DB is een wereldwijd gedistribueerde databaseservice. Het is ontworpen om lage latentie, elastische schaalbaarheid van doorvoer, goed gedefinieerde semantiek voor gegevensconsistentie en hoge beschikbaarheid te bieden.
Power BI
Power BI is een suite met tools voor bedrijfsanalyse die inzichten bieden. Met Power BI kunt u verbinding maken met tal van gegevensbronnen, gegevensvoorbereiding vereenvoudigen, ad-hocanalyse stimuleren en rapporten produceren die op internet en op mobiele apparaten kunnen worden gebruikt.
Conclusie
Big Data is geëvolueerd en blijft zich ontwikkelen. Met behulp van Azure-tools wordt Big Data steeds beter beheersbaar.