Gegevensclassificatie in IRI Workbench

Gebruikers van PII-maskeringstools zoals FieldShield, DarkShield en CellShield EE in de IRI Data Protector Suite of het Voracity-platform kunnen hun gegevens catalogiseren en doorzoeken - en gegevenstransformatie- en beschermingsfuncties als regels toepassen - met behulp van ingebouwde gegevens classificatie infrastructuur in hun gemeenschappelijke front-end IDE, IRI Workbench, gebouwd op Eclipse™.

Gegevensontdekkings- (zoek)faciliteiten met meerdere bronnen in IRI Workbench kunnen gebruikmaken van de door u gedefinieerde gegevensklassen, of ze kunnen u helpen gegevensklassen of gegevensklassegroepen toe te wijzen aan uw gegevens op basis van uw zoekresultaten, bedrijfsregels en/of domein ontologieën.

U kunt uw gegevensklassebibliotheek gebruiken in regels voor herbruikbare velden (bijv. gegevensmaskering). En u kunt die regels ook toewijzen terwijl u gegevens automatisch classificeert.

Deze functies bieden gemak, consistentie en compliance-mogelijkheden voor data-architecten en governance-teams. Zie dit artikel voor een end-to-end voorbeeld van het gebruik van gegevensklassen om gegevens consistent te vinden en te maskeren in meerdere tabellen in RDB-schema's.

In dit artikel wordt beschreven hoe u deze klassen kunt definiëren. Er zijn gerelateerde artikelen over validators van gegevensklassen die kunnen worden gebruikt om gegevens te onderscheiden en te verifiëren op basis van patroonzoekopdrachten.

Verschillende andere artikelen in de IRI-blog behandelen de toepassing van gegevensklassen in verschillende (meestal gegevensmaskerende) contexten. Zie dit gedeelte van de zelflerende pagina van de IRI-software voor een volledige index van deze artikelen.

Gegevensklassen maken

De classificatie begint met het instellen van dataklassen in de Workbench Voorkeuren scherm, waarmee u klassen wereldwijd kunt gebruiken voor meerdere projecten in uw werkruimte. Workbench heeft een aantal klassen vooraf geladen, waaronder de klassen FIRST_NAME, LAST_NAME en PIN_US die in dit voorbeeld worden gebruikt.

De gegevensklassen werken door (1) de naam van de klasse te matchen met de naam van het veld, (2) een patroon met de gegevens in het veld, of (3) de bestandsinhoud te vergelijken met de gegevens in het veld. Het eerste item wordt automatisch voor u gedaan in het classificatieproces, als die optie is gekozen. Je kunt voor elke klas zoveel patronen toevoegen en bestandsmatchers instellen als je nodig hebt om de beoogde resultaten te retourneren.

Het invoeren van een reguliere expressie als de naam van de gegevensklasse is een extra manier om de kolomnaam te matchen. Er kan bijvoorbeeld een kolom zijn met de naam LNAME of LASTNAME. Dus ik kan L(AST)?[_-]?NAME . gebruiken (onderstrepingsteken en streepje tussen haakjes) om een paar variaties van ACHTERNAAM weer te geven.

U kunt uw gegevensklassen en -groepen ook inactief maken. Als je veel klassen hebt, maar de items wilt filteren die niet in je specifieke project worden gebruikt, kun je ze inactief maken. Hierdoor kun je er een kopie van behouden, maar de vervolgkeuzelijst waarin deze klassen worden gebruikt niet rommelig maken.

Dataklassegroepen

U kunt ook gegevensklassegroepen hebben. De opgenomen groep "NAMES" bevat bijvoorbeeld de gegevensklassen FIRST_NAME, LAST_NAME en FULL_NAME. Als u een regel op meerdere klassen wilt toepassen, kunt u een groep gebruiken in plaats van afzonderlijke gegevensklassen te selecteren.

Voor dit voorbeeld heb ik het onderstrepingsteken verwijderd uit de gegevensklasse FIRST_NAME om de classificatieoptie voor naamovereenkomst aan te tonen.

Wizard Gegevensclassificatiebron

Zodra de matchers zijn toegevoegd aan de benodigde klassen, kunt u de wizard Gegevensclassificatiebron uitvoeren. De wizard accepteert de volgende gegevensindelingen:CSV, Delimited, LDIF, ODBC of XML. Deze wizard biedt de mogelijkheid om bronnen voor uw dataklassebibliotheek te selecteren voor later classificatie.

Begin op de instellingenpagina met het selecteren van de locatie van uw nieuwe "iriLibrary.dataclass ”-bestand, dat de uitvoer is van deze wizard. De bestandsnaam is alleen-lezen omdat er in elk project slechts één van deze bestandstypen kan zijn. U kunt ook het selectievakje selecteren als al uw bronnen tabellen in een verbindingsprofiel zijn.

Als u dit vak selecteert, wordt een invoerpagina geopend zoals hieronder, waar u de tabellen kunt kiezen die moeten worden opgenomen:

Als het selectievakje niet is geselecteerd, kunt u in hetzelfde invoerscherm bestanden of ODBC-bronnen toevoegen. Op dit type invoerpagina moet u ook de metadata voor elke bron toevoegen. In dit voorbeeld heb ik een CSV-bestand en twee Oracle-tabellen toegevoegd.

Als u gegevens in een of meer volledige databaseschema's tegelijk moet zoeken en classificeren, gebruikt u de wizards Schema Pattern Search en Schema Pattern Search to Data Class Association.

Als u op Voltooien klikt, wordt een gegevensklassenbibliotheek gemaakt waarin de geselecteerde bronnen zijn opgenomen. Met de formuliereditor voor gegevensklassen die wordt geopend, kunt u de gegevens in die bronnen classificeren.

De gegevens classificeren in uw geselecteerde bronnen

U begint het classificatieproces door op een van de gegevensbronnen te klikken om de details over die bron weer te geven. Het bovenste deel van het scherm heeft een uitbreidbaar gedeelte dat de details van het bestand of de tabel toont.

Het classificatiegedeelte begint met een selectievakje om het matchen via de veldnaam aan de gegevensklassenaam op te nemen. Ik heb bijvoorbeeld een gegevensklasse met de naam FIRSTNAME en een veld met de naam FIRSTNAME (de overeenkomst is niet hoofdlettergevoelig).

In dit geval zal het classificatieproces die gegevensklasse voor dat veld selecteren zonder de gegevensinhoud te lezen.

In het volgende gedeelte wordt een tabel weergegeven met veldnamen met selectievakjes, een kolom voor de gegevensklasse en een kolom voor de overeenkomende resultaten. De onderste tabel is een voorbeeld van de gegevens in de bron. De benodigde gegevensklassen moeten zijn gemaakt voordat u deze formuliereditor gebruikt, maar u kunt ze hier toevoegen of bewerken.

U kunt de gegevensklasse handmatig selecteren door op de vervolgkeuzelijst te klikken in de gegevensklassekolom van het veld dat u wilt classificeren. U kunt ook op Automatisch classificeren klikken en de velden selecteren die u wilt classificeren. Als u op OK klikt, wordt het automatische classificatieproces gestart, wat lang kan duren, afhankelijk van de hoeveelheid gegevens die u in uw bron heeft.

Het proces kan op de achtergrond worden uitgevoerd als u die optie selecteert in het standaard Eclipse-dialoogvenster dat wordt weergegeven. Bovendien kunt u de processtatus bekijken in de voortgangsweergave.

Na voltooiing worden de dataklasse en dataklassekaart in de bibliotheek gemaakt voor de geselecteerde velden. In dit voorbeeld vond het classificatieproces een overeenkomst van 87% in het SSN-veld, 11% op LASTNAME en een naamovereenkomst op FIRSTNAME. De percentages geven de hoeveelheid gematchte data aan in je bron via de matchers voor die dataklasse.

Als 'naam' wordt weergegeven in de overeenkomende kolom, is de gegevensklasse gekoppeld op basis van de naam. Als u handmatig een gegevensklasse hebt geselecteerd, wordt "gebruiker" weergegeven in de overeenkomende kolom.

De definitieve bibliotheekinhoud wordt hieronder weergegeven. Net zoals u de details van de bronnen kunt zien, kunt u ook op de gegevensklassen en kaarten klikken om hun details weer te geven.

De dataklassekaarten gebruiken verwijzingen naar de dataklassen en velden, wat de reden is dat de bibliotheek de bronnen en dataklassen opslaat, naast de kaart zelf. Als u een bron of gegevensklasse verwijdert, wordt ook alle bijbehorende gegevensklassenkaart verwijderd die naar dat verwijderde item verwijst.

Als u op Verwijderen klikt, wordt een waarschuwing weergegeven om u hieraan te herinneren. Het proces kan worden herhaald op de andere opgenomen bronnen en er kunnen op elk moment extra bronnen worden toegevoegd.

De classificatieresultaten van deze bibliotheek kunnen nu worden gebruikt om veldregels op die gegevensbronnen toe te passen. Het proces wordt uitgelegd in mijn volgende artikel over Veldregels toepassen met classificatie.