sql >> Database >  >> RDS >> Database

5 veelgemaakte fouten die u moet vermijden bij het ontdubbelen van uw gegevens

Data is macht en met die macht komt een grote verantwoordelijkheid. Een van de grootste obstakels bij gegevens is het identificeren van duplicaten en ontdubbeling.

Het doel van data-deduplicatie is het elimineren van overtollige data in uw bedrijf. Er worden duplicaten gemaakt in alle delen van uw bedrijf, zoals de verkoper die een nieuw record invoert zonder eerst de database te controleren, een marketeer die een lijst met potentiële kopers uploadt zonder te controleren of het record bestaat en een klant die zijn informatie opnieuw invoert omdat hij ze vergeten is heb al een account bij je.

Gegevensdeduplicatie zorgt voor goed gegevensbeheer van dergelijke records, verminderde gegevensopslag, effectievere marketingcommunicatie en betere voorspellende analyse. Dubbele records kunnen zelfs een enorme impact hebben op machine learning en data science-records door klanten theoretisch twee keer de voorspellende kracht te geven en daardoor een vertekening in de output te creëren.

Elk geweldig idee brengt echter risico's met zich mee en binnen een de-duplicatiestrategie waarbij gegevens meestal worden verwijderd, kunnen er inherente fouten zijn.

In-line of nabewerking

Inline deduplicatieprocessen ontdubbelen de gegevens terwijl deze worden verwerkt. Dit betekent dat het de hoeveelheid gegevens onmiddellijk vermindert, wat geweldig is, maar vaak prestatieproblemen heeft met de hoeveelheid middelen die nodig zijn om uit te voeren, zoals een strategie. Het betekent echter wel dat u veel minder onbewerkte schijfruimte nodig heeft, omdat de gegevens eigenlijk nooit worden verzonden omdat de deduplicatie aan de front-end wordt uitgevoerd.

Het is belangrijk dat u ervoor zorgt dat u over de verwerkingskracht beschikt voor inline deduplicatie en dat dit geen invloed heeft op de prestaties. De andere fout is om aan te nemen dat er geen gevallen zijn voor het hebben van duplicaten. Er zijn legitieme behoeften voor het hebben van duplicaten in uw systeem. Redenen kunnen zijn voor facturering, klantenservice, verkoop en marketing. Daarom is het een goed idee om alle afdelingen te raadplegen die met de gegevens in aanraking komen voordat in-line verwerking wordt geïmplementeerd.

Algoritmen

Deduplicatie is slechts zo goed als de algoritmen die het krijgt, d.w.z. hoe worden dubbele records in de eerste plaats ontdekt? Laten we aannemen dat we 100 exemplaren van een bestand op onze systemen hebben staan, omdat elke medewerker zijn eigen versie had. In plaats van meerdere exemplaren op te slaan, zegt een goede gewoonte dat u er slechts één opslaat en dat alle medewerkers daarop wijzen. Wat als een van de medewerkers een wijziging aanbrengt in hun eigen dossier, waardoor het iets anders is dan de anderen? U loopt het risico gegevens te verliezen. Het is belangrijk om ervoor te zorgen dat alle regels die u instelt, logisch zijn en niet per ongeluk unieke datasets gaan verwijderen.

Er zijn een paar veelvoorkomende algoritmen die worden gebruikt voor gegevensdeduplicatie, zoals SHA-1 of MD5 en binaire zoekboomstructuren, die de moeite waard zijn om te bekijken om te vinden wat het meest geschikt voor u is.

Hoewel het ontdubbelen van datasets in het bovenstaande voorbeeld eenvoudig kan worden aangepakt door datawetenschappers. Voor verkoop- en marketingrecords is het iets moeilijker. Bedenk dat verschillende bedrijven duplicaten anders definiëren, het is niet langer een taak voor de datawetenschapper, maar voor de hoofden van verschillende afdelingen. Daarom is de eerste stap om te identificeren wat een duplicaat maakt. Neem bijvoorbeeld een retailgigant als Walmart. Voor distributiebedrijven zou elke Walmart-locatie als een uniek record worden beschouwd, maar voor een softwarebedrijf dat aan Walmart verkoopt, zouden ze alle locaties als duplicaten beschouwen, omdat ze alleen naar het hoofdkantoor willen verkopen. Hetzelfde kan gezegd worden voor verkopen aan P&G, waar sommige bedrijven afzonderlijk aan elk merk verkopen. Daarom willen ze ze allemaal gescheiden houden en de koppeling tussen ouder en kind toepassen in plaats van ontdubbelen om de verschillende merken te identificeren. Zorg er daarom voor dat u vóór het ontdubbelen alle regels hebt gedefinieerd voordat u het algoritme uitzoekt dat moet worden gebruikt om de gegevens te ontdubbelen.

Encryptie

Bij gegevensbescherming is het vaak zo dat beveiligingsteams gegevens versleuteld hebben zodra ze het bedrijf binnenkomen, wat betekent dat het onmogelijk is om ze te ontdubbelen omdat alles uniek is in deze context. Als u replicatie- en encryptieproducten gebruikt in overeenstemming met deduplicatiesoftware, is de kans zeer groot dat bestanden worden gerepliceerd, omdat ze ze gewoon niet als unieke opslagblokken kunnen selecteren.

Gegevensbeschermingsproducten zijn zich soms bewust van deduplicatie, maar het is van vitaal belang dat u nagaat hoe alles met elkaar integreert.

Handmatige deduplicatie

De meeste bedrijven zullen proberen hun database handmatig te ontdubbelen, wat een enorme hoeveelheid middelen en tijd in beslag neemt met een groot risico op menselijke fouten. Bovendien is het met enorme datasets vrijwel onmogelijk voor handmatige processen om alles op te pikken.

Stel bijvoorbeeld dat John Smith vandaag een paar schoenen op uw website koopt. Hij gaat morgen weer verder, maar registreert zich als J Smith omdat hij zijn inloggegevens is vergeten. Volgende week meldt hij zich weer aan, maar met een ander e-mailadres. Ik heb hier slechts drie gegevensvelden genoemd, maar het begint al ingewikkeld te worden, dus stel je voor dat je 200 velden met klantgegevens hebt, hoe zorg je ervoor dat die uniek blijven?

Het is belangrijk om ofwel zelf volledige algoritmen te bouwen als u een handmatig proces uitvoert of om gegevensopschoningstools aan te schaffen om dit voor u te doen, waardoor u al die tijd en moeite bespaart.

Back-ups

Deduplicatie kan fout gaan! Voordat u duplicaten verwijdert, is het belangrijk dat er een back-up wordt gemaakt van alles en dat u eventuele problemen snel kunt oplossen. Terugkomend op ons eerdere voorbeeld, wat als we ontdekken dat John Smith en J Smith in feite verschillende mensen zijn en het account terug moeten krijgen? U hebt een proces nodig dat precies dat kan, wat nu een wettelijke vereiste is in de EU (AVG).

Een strategie voor gegevensontdubbeling is belangrijk naarmate bedrijven hun digitale voetafdruk vergroten. Met zoveel communicatiekanalen heeft slechts één dubbele record het vermogen om vooringenomenheid te creëren en mogelijk tot verkeerde beslissingen te leiden. Dat gezegd hebbende, moet het op de juiste manier worden gedaan om de gevolgen van het verwijderen van de verkeerde records of het onjuist invoeren van algoritmen en het verlagen van de bedrijfssnelheid te voorkomen. Zorg ervoor dat gegevensdeduplicatie volledig wordt gevormd binnen uw strategie voor gegevensbeheer.


  1. Hoe kunnen we de grootte van de uitvoerparameter definiëren in de opgeslagen procedure?

  2. MySQL-zelfstudie:MySQL IN-clausule (Basic)

  3. Toegang krijgen tot de ingebouwde CRM-sjabloon in Microsoft Access

  4. Beheer wachtwoord en bronnen in Oracle met behulp van Profile