sql >> Database >  >> RDS >> Database

Gegevensprofilering:gegevensdetails ontdekken

Gegevensprofilering, of gegevensontdekking, verwijst naar het proces van het verkrijgen van informatie uit en beschrijvende statistieken over verschillende gegevensbronnen. Het doel van gegevensprofilering is om een ​​beter begrip te krijgen van de inhoud van gegevens, evenals de structuur, relaties en huidige niveaus van nauwkeurigheid en integriteit.

Gegevensprofilering kan fouten in of onjuiste conclusies rond metagegevens (gegevens over gegevens) aan het licht brengen. Door deze problemen in een vroeg stadium op te sporen, kan de kwaliteit van brongegevens worden verbeterd voordat deze worden geïntegreerd of opgeslagen in een datawarehouse. Inzicht in de kenmerken van gegevens in een databasetabel of geëxtraheerd bestand, en het inspecteren van gegevenswaarden, helpt te valideren dat de gegevensinhoud daadwerkelijk overeenkomt met de metagegevensdefinitie. Het zien van de gegevens en metagegevens helpt ook om te identificeren welke items gevoelig zijn of persoonlijk identificeerbare informatie (PII) bevatten, zodat bepaalde kolommen kunnen worden gemarkeerd voor beschermende maatregelen. Gegevensprofilering ontdekt dus de kenmerken van brongegevens die nodig zijn voor de identificatie, het gebruik en de afstamming van gegevens in integratie, beveiliging, rapportage en andere processen die volgen.

Hoewel verzamelde gegevens vaak goedaardig of nutteloos lijken, vooral wanneer ze uit meerdere bronnen worden verzameld, moet u er rekening mee houden dat alle gegevens nuttig kunnen zijn met de juiste toepassing of het juiste algoritme. Dataprofilering is dus ook een eerste stap om dat nut te bepalen (door het begrip van de data zelf te verbeteren).

Aangezien veel bedrijven uiteindelijk afhankelijk zijn van onbewerkte gegevensbronnen voor inzicht in zaken als productinventarissen, demografische gegevens van klanten, koopgewoonten en verkoopprognoses, kan het vermogen van een bedrijf om concurrerend te profiteren van de steeds groter wordende gegevensvolumes recht evenredig zijn met het vermogen om die gegevens te benutten. activa. Het winnen/verliezen van klanten en slagen/falen als bedrijf zou heel goed kunnen worden bepaald door de specifieke kennis die de verzamelde gegevens van een organisatie overdragen. Dus het identificeren van de juiste gegevens, het vaststellen van het nut ervan op het juiste niveau en het bepalen hoe afwijkingen moeten worden beheerd, zijn essentieel bij het ontwerp van datawarehousing-activiteiten en business intelligence-toepassingen.

Volgens Doug Vucevic en Wayne Yaddow, auteurs van Testing the Data Warehouse Practicum, “… is het doel van dataprofilering zowel om metadata te valideren wanneer deze beschikbaar is, en om metadata te ontdekken wanneer dat niet het geval is. Het resultaat van de analyse wordt zowel strategisch gebruikt om de geschiktheid van de kandidaat-bronsystemen te bepalen en de basis te leggen voor een vroege go/no-go-beslissing, maar ook tactisch om problemen te identificeren voor een later oplossingsontwerp en om de verwachtingen van de sponsors te peilen.

Gegevensautoriteiten raden aan om willekeurig en herhaaldelijk gegevensprofilering uit te voeren op beperkte hoeveelheden gegevens, in plaats van te proberen grote, complexe volumes in één keer aan te pakken. Op die manier kunnen de ontdekkingen bepalend zijn voor wat er vervolgens moet worden geprofileerd. Door gegevensregels, -beperkingen en -vereisten te identificeren, wordt de integriteit van de metagegevens gewaarborgd waarop toekomstige profilering wordt uitgevoerd. Weten wat verondersteld wordt om in bepaalde gegevensbestanden te zijn en wat is eigenlijk er is misschien niet hetzelfde. Dus wanneer de kwaliteit of kenmerken van een nieuwe bron onbekend zijn, stellen experts voor om eerst gegevens te profileren, voordat ze in een bestaand systeem worden geïntegreerd.

Stappen in het gegevensprofileringsproces omvatten: alle objecten importeren, configuratieparameters maken, de daadwerkelijke profilering uitvoeren en de resultaten analyseren; geen van alle zijn zo eenvoudig als ze klinken! Vervolgens kunnen op basis van de bevindingen schema- en gegevenscorrecties worden geïmplementeerd, evenals andere fijnafstemming voor daaropvolgende prestatieverbetering van gegevensprofilering.

IRI-profileringstools

Medio 2015 bracht IRI een reeks gratis database-, gestructureerde en ongestructureerde (dark) data discovery-tools uit in zijn Eclipse GUI, IRI Workbench. Ze zijn samengevat op http://www.iri.com/products/workbench/discover-data en linken naar andere artikelen in deze blog die meer in detail gaan.


  1. Hoe u een gebruiker kunt maken met superuser-rechten in PostgreSQL

  2. Toegang geweigerd voor gebruiker '[email protected]' (met wachtwoord:NO)

  3. Hoe schrijf ik UPDATE SQL met tabelalias in SQL Server 2008?

  4. Een lijst met database-e-mailaccounts krijgen in SQL Server (T-SQL)