Dat organisaties te maken hebben met Big Data-uitdagingen is tegenwoordig gemeengoed. De term Big Data verwijst naar het gebruik van een reeks van meerdere technologieën, zowel oude als nieuwe, om betekenisvolle informatie uit een enorme stapel gegevens te halen. De dataset is niet alleen groot, maar heeft ook zijn eigen unieke uitdagingen bij het vastleggen, beheren en verwerken ervan. In tegenstelling tot gegevens die worden bewaard in relationele databases, die gestructureerd zijn, kan het big data-formaat gestructureerd, semi-gestructureerd tot ongestructureerd zijn of worden verzameld uit verschillende bronnen met verschillende groottes. Dit artikel gaat in op de fundamentele aspecten van Big Data, de basiskenmerken ervan, en geeft je een idee van de tools en technieken die worden gebruikt om ermee om te gaan.
Een overzicht
De term Big Data geeft slechts een indruk van de omvang van de gegevens. Dit is in zekere zin waar, maar geeft niet het hele beeld. De uitdagingen die ermee gepaard gaan, hebben niet alleen te maken met de omvang alleen. In feite is het idee geëvolueerd om een zee van gegevens te noemen die is verzameld uit verschillende bronnen, formaten en formaten, en tegelijkertijd moeilijk te benutten of er waarde uit te halen. De opkomst van opkomende technologie en het toenemende gebruik van internet gaven een impuls aan het volume en de ongelijkheid. Het volume blijft toenemen met elke informatie-uitwisseling via internet of zelfs de minuscule IoT-objecten die we gebruiken. Een simpele opname van een telefoongesprek of het inschakelen van de CCTV kan een dataketen genereren. Tegenwoordig zijn de meeste apparaten online verbonden. Als een organisatie die informatie nu online wil verzamelen, heeft ze een speciaal verwerkingsproces nodig omdat de gegenereerde gegevens enorm zullen zijn. Bovendien is er mogelijk geen uniformiteit in het formaat van de vastgelegde gegevens. Dit verhoogt de complexiteit omdat we te maken hebben met gestructureerde, semi-gestructureerde of ongestructureerde data. De tools die we tot nu toe gebruikten om gegevens te ordenen, kunnen niet omgaan met een dergelijke verscheidenheid en hoeveelheid. Daarom kunnen we zeggen dat de term Big Data is eigenlijk van toepassing op de gegevens die niet kunnen worden verwerkt of geanalyseerd via traditionele tools en technieken die normaal worden gebruikt om gestructureerde of semi-gestructureerde gegevens te verwerken, zoals het gebruik van relationele databases, XML, enzovoort.
Organisaties zitten tegenwoordig vol met ongestructureerde of semi-gestructureerde gegevens die in onbewerkte indeling beschikbaar zijn. Deze gegevens kunnen een schat aan informatie zijn als ze worden verwerkt en de waarde die eruit wordt gehaald. Maar het probleem is hoe het te doen. Traditionele technieken en hulpmiddelen, zoals relationele databases, zijn ontoereikend om met zo'n grote hoeveelheid gevarieerde gegevens om te gaan. Het is ook een tweesnijdend probleem voor de organisaties, omdat het simpelweg versnipperen ervan zou betekenen dat waardevolle informatie verloren gaat - als die er al is - en het bewaren ervan een verspilling van middelen is. Daarom wordt gezocht naar tools en technieken om het probleem aan te pakken. Soms zijn we er vrij zeker van dat de potentiële waarde ervan op de stapel ligt en kunnen we een goudmijn aan informatie oogsten, maar zonder de juiste hulpmiddelen is het behoorlijk belastend voor het bedrijfsproces om er enig voordeel uit te halen. De gegevens van vandaag zijn enorm en explodeerden zoals alles in de afgelopen jaren; het lijkt trouwens niet te stoppen.
Informatie-explosie
Big data wordt elke minuut groter in bijna elke sector, of het nu gaat om technologie, media, detailhandel, financiële dienstverlening, reizen en sociale media, om er maar een paar te noemen. De hoeveelheid gegevensverwerking waar we het over hebben is verbijsterend. Hier is wat statistische informatie om je een idee te geven:
- De weerkanalen ontvangen elke minuut 18.055.555 voorspellingsverzoeken.
- Netflix-gebruikers streamen elke minuut 97.222 uur aan video.
- Skype-gebruikers bellen elke minuut 176.220.
- Instagram-gebruikers plaatsen elke minuut 49.380 foto's.
Deze aantallen groeien elk jaar, met een toenemend aantal mensen dat internet gebruikt. In 2017 bereikte het internetgebruik tot 47% (3,8 miljard mensen) van de wereldbevolking. Met een steeds toenemend aantal elektronische apparaten, wordt onze geschatte output data geschat op 2,5 triljoen bytes per dag en groeiend.
De Google Search-statistieken laten 3,5 miljard zoekopdrachten per dag zien, wat gemiddeld meer dan 40.000 zoekopdrachten per seconde is. We mogen ook niet missen dat andere zoekmachines ook zoeken. Het Email Statistics Report, 2015-2019 van Radicati Group, Inc., toont 2,9 miljard e-mailgebruikers in 2019.
In een poging om in te schatten hoeveel foto's er in 2017 zullen worden gemaakt:als er in 2017 7,5 miljard mensen op de wereld waren, met ongeveer 5 miljard mobiele telefoons, dan is een waarschijnlijke gok dat 80% van die telefoons ingebouwde camera's heeft. Dat betekent dat er ongeveer 4 miljard mensen hun camera's gebruiken. Als ze 10 foto's per dag maken, wat neerkomt op 3.650 foto's per jaar per persoon, komt dit neer op ongeveer 14 biljoen foto's die per jaar worden gemaakt.
Daarom, als we Big Data zeggen, verwijst het in wezen naar gegevens of reeksen records die te groot zijn om te vermoeden. Ze worden geproduceerd via zoekmachines, bedrijfsinformatica, sociale netwerken, sociale media, genomica, meteorologie, weersvoorspellingen en vele andere bronnen. Dit kan duidelijk niet worden uitgevoerd met behulp van bestaande databasebeheertools en -technieken. Big Data opent een arena van grote uitdagingen op het gebied van opslag, vastlegging, beheer, onderhoud, analyse, onderzoek, nieuwe tools om ze aan te pakken, en dergelijke.
Kenmerken van Big Data
Zoals met alle grote dingen, als we ze willen beheren, moeten we ze karakteriseren om ons begrip te ordenen. Daarom kan Big Data worden gedefinieerd door een of meer van drie kenmerken, de drie V's:hoog volume , hoge variëteit , en hoge snelheid . Deze kenmerken roepen een aantal belangrijke vragen op die ons niet alleen helpen om het te ontcijferen, maar ook inzicht geven in hoe om te gaan met enorme, ongelijksoortige gegevens met een beheersbare snelheid binnen een redelijk tijdsbestek, zodat we er waarde uit kunnen halen. real-time analyse, en geef snel een daaropvolgend antwoord.
- Volume: Volume verwijst naar de enorme omvang van de steeds groter wordende gegevens van de computerwereld. Het roept de vraag op over de hoeveelheid data.
- Snelheid: Velocity verwijst naar de verwerkingssnelheid. Het roept de vraag op met welke snelheid de gegevens worden verwerkt.
- Verscheidenheid: Verscheidenheid verwijst naar de soorten gegevens. Het roept de vraag op hoe verschillend de dataformaten zijn.
Merk op dat we Big Data karakteriseren in drie V's, alleen om de basisprincipes ervan te vereenvoudigen. Het is heel goed mogelijk dat de omvang relatief klein is, maar te gevarieerd en complex, of het kan relatief eenvoudig zijn en toch een enorme hoeveelheid gegevens. Daarom kunnen we, naast deze drie V's, gemakkelijk een andere toevoegen, Waarachtigheid . Waarachtigheid bepaalt de nauwkeurigheid van de gegevens in relatie tot de bedrijfswaarde die we willen extraheren. Zonder waarachtigheid is het voor een organisatie onhaalbaar om haar middelen aan te wenden om de stapel gegevens te analyseren. Met meer nauwkeurigheid met betrekking tot de context van de gegevens, is er een grotere kans om waardevolle informatie te krijgen. Waarachtigheid is dan ook een ander kenmerk van Big Data. Bedrijven maken gebruik van gestructureerde, semi-gestructureerde en ongestructureerde gegevens uit e-mail, sociale media, tekststreams en meer. Maar vóór de analyse is het belangrijk om de hoeveelheid en soorten gegevens te identificeren die van invloed zijn op de bedrijfsresultaten.
Hulpmiddelen en technieken
Kunstmatige intelligentie (AI), IoT en sociale media stimuleren de gegevenscomplexiteit door nieuwe vormen en bronnen. Het is bijvoorbeeld van cruciaal belang dat big data die via sensoren, apparaten, netwerken en transacties in realtime binnenkomen, met een lage latentie worden vastgelegd, beheerd en verwerkt. Big Data stelt analisten, onderzoekers en zakelijke gebruikers in staat om sneller weloverwogen beslissingen te nemen, gebruikmakend van historische gegevens die anders onbereikbaar waren. Men kan tekstanalyse, machine learning, voorspellende analyses, datamining en natuurlijke taalverwerking gebruiken om nieuwe inzichten uit de beschikbare stapel gegevens te halen.
De technologie is geëvolueerd om enorme hoeveelheden gegevens te beheren, die voorheen duur waren en de hulp van supercomputers nodig hadden. Met de opkomst van sociale media zoals Facebook, zoekmachines zoals Google en Yahoo!, kregen Big Data-projecten een impuls en groeiden ze zoals het nu is. Technologie zoals MapReduce, Hadoop en Big Table zijn ontwikkeld om aan de huidige behoefte te voldoen.
De NoSQL-repositories worden ook genoemd in verband met Big Data. Het is een alternatieve database in tegenstelling tot relationele databases. Deze databases organiseren geen records in tabellen van rijen en kolommen zoals die in de conventionele relationele databases worden aangetroffen. Er zijn verschillende soorten NoSQL-databases, zoals Content Store, Document Store, Event Store, Graph, Key Value en dergelijke. Ze gebruiken geen SQL voor queries en volgen een ander architectuurmodel. Zij blijken op een gunstige manier Big Data Analytics te faciliteren. Enkele populaire namen zijn:Hbase, MongoDB, CouchDB en Neo4j. Naast hen zijn er nog vele anderen.
Conclusie
Big Data opende een nieuwe mogelijkheid om data te verzamelen en er waarde uit te halen, die anders een verspilling zouden zijn. Het is onmogelijk om Big Data vast te leggen, te beheren en te verwerken met behulp van traditionele tools zoals relationele databases. Het Big Data-platform biedt de tools en middelen om inzicht te extraheren uit de omvangrijke, diverse en snelheid van gegevens. Deze stapels gegevens hebben nu middelen en een levensvatbare context die voor verschillende doeleinden in het bedrijfsproces van een organisatie kunnen worden gebruikt. Daarom moeten we, om precies vast te stellen over welk type gegevens we het hebben, deze en de kenmerken ervan als de eerste stap begrijpen.