sql >> Database >  >> RDS >> Database

Databaseprofilering in IRI Workbench

Update:Q2'16 :Naast de wizard voor databaseprofilering in de menugroep voor gegevensdetectie in IRI Workbench die hieronder wordt beschreven, heeft IRI robuuste gegevensclassificatie geïntroduceerd waarmee veldregels kunnen worden toegepast voor gegevenstransformatie uit meerdere bronnen en bescherming via bibliotheken met gegevensklassen. Update Q2'18 :IRI heeft ook een schema-brede patroonzoekwizard geïntroduceerd om PII-overeenkomstige RegEx- of letterlijke waarden in meerdere tabellen tegelijk te vinden.Update Q2'19 :IRI biedt nu ook zoeken naar gegevensklassen tussen en binnen schema's en maskering voor gebruikers IRI FieldShield of Voracity. En IRI heeft zojuist dit artikel gepubliceerd om te laten zien hoe de onderstaande DB-profileringsresultaten worden weergegeven in Splunk.

Omdat er tegenwoordig meer gegevens worden verzameld uit meer aspecten van het bedrijfsleven, is het van essentieel belang dat u zich bewust bent van de inhoud en de aard ervan om de kwaliteit, kwantiteit en veiligheid van deze verzamelingen te waarborgen. Gegevensprofilering is het essentiële ontdekkingsproces waarmee u gegevens in uw opslagplaatsen kunt analyseren, classificeren, opschonen, integreren, maskeren en erover rapporteren.

Naast donkere en gestructureerde wizards voor het ontdekken van gegevens (en metagegevensdefinitie), samen met cross-DB ER-diagrammen in Eclipse, stelt de nieuwe cross-DB-profileringstool in IRI Workbench gebruikers in staat om de structuur en volledigheid van databasegegevens te onderzoeken en dat te valideren de juiste gegevens worden op de juiste plaatsen opgeslagen. In dit artikel zullen we deze tool onderzoeken en laten zien hoe deze zoekresultaten met tabelwaarden en statistische metadata levert.

Om toegang te krijgen tot de Database Profiler, navigeert u in de Data Source Explorer naar de tabel die u wilt openen. Klik met de rechtermuisknop op de tafel en ga met de muis over de IRI-optie. Selecteer in het menu dat verschijnt Nieuw databaseprofiel .

Stel op de eerste wizardpagina de locatie en bestemming van de taak in en selecteer de uitvoer van het profielrapport als .csv- of .txt-bestand, of beide.

  • het .csv-formaat is handig voor het importeren in nieuwe tabellen en databases, terwijl
  • de .txt-indeling is een vooraf opgemaakt rapport, handig om resultaten snel te bekijken.

Statistische profileringsinformatie

Het volgende deel van de wizard verschijnt met twee tabellen:

  1. De bovenste tabel is een lijst van alle tabellen in de database, waarbij de tabel waarmee de wizard is gestart standaard is gemarkeerd.
  2. Met dit selectievakje kunt u met één muisklik elke tabel en rij in uw database scannen.
  3. De onderste tabel toont de profileringsopties, gevolgd door de kolommen van de gemarkeerde tabel waarin u ervoor kiest om de opties uit te voeren.

Klik op een tabel in de lijst die u wilt bekijken en profileren. De optiematrix wordt automatisch gewijzigd om de kolommen van de geselecteerde tabel weer te geven. Er zijn verschillende manieren om met de weergaveopties om te gaan:

  • Klik voor alle opties op het selectievakje bovenaan in de tabel, met het label Alles, en alle metadata worden gerapporteerd.
  • Alleen voor basisopties (tellen en waarden) schakelt u het selectievakje Basis in.
  • Alleen voor lengte-opties (waardelengtes) schakelt u het selectievakje Lengtes in.

Als u veel kolommen in uw tabel heeft en voor alle kolommen dezelfde optie wilt selecteren, klikt u op de optienaam zelf en voor alle kolommen wordt die optie geselecteerd. U kunt kolommen binnen de optie deselecteren.

Zodra alles is ingesteld, klikt u op Voltooien en dan wordt het profiel voor u gegenereerd.

Expressie zoeken

Een unieke keuze in de optietabel is de -Expressie Zoeken-. Met deze optie kunt u kolommen zoeken met verschillende zoekopties. Deze opties zijn:

  • Regelmatige expressies (patroon zoeken). Dit lokaliseert en telt het aantal keren dat een waarde overeenkomt met het formaat van een zoekpatroon.
  • Vage string. Met deze optie kunt u zoeken naar tekenreeksen die lijken op de tekenreeksen die u invoert, en zoekvoorwaarden selecteren of specificeren.
  • Waardenbestand. Met deze optie kun je een tekenreeks vergelijken met elke tekenreeks in een setbestand en elke tekenreeks tellen die overeenkomt.

De Expression Search-pagina heeft 6 belangrijke secties

  1. Een keuzelijst Zoektype om het type zoekopdracht te selecteren dat moet worden uitgevoerd.
  2. De optiegroep die verandert afhankelijk van het geselecteerde zoektype
    • Reguliere expressie:heeft twee knoppen; blader waarmee u door de bestaande reguliere expressies bladert en Maken... waarmee u nieuwe reguliere expressies kunt maken.
    • Fuzzy String:heeft een telvak dat de drempel van de fuzzy-zoekopdracht specificeert (hoe dicht de strings moeten zijn om als een overeenkomst te worden beschouwd), en een combobox om het te gebruiken fuzzy-zoekalgoritme te selecteren.
    • Waardenbestand:heeft een knop Bladeren... waarmee u kunt zoeken naar het ingestelde bestand dat u wilt gebruiken voor het zoeken naar waarden.
  3. Een tekstvak waarin u de gegevens voor uw zoekopdracht invoert.
  4. Een vervolgkeuzelijst van de tabellen waarop u het zoeken op uitdrukkingen kunt toepassen.
  5. Een vervolgkeuzelijst met de kolommen waarop u zoeken op uitdrukkingen kunt toepassen.
  6. Een tabel met de zoekopdrachten die u heeft gemaakt en die door de profiler worden uitgevoerd.

Om een ​​filter voor reguliere expressies te maken:

  1. Selecteer in de combinatie Zoektype Reguliere expressie .
  2. Klik op Bladeren naar (uw bibliotheek met opgeslagen uitdrukkingen), of klik op Maken  om een ​​reguliere expressie op te geven die moet worden gebruikt bij het zoeken naar kolomwaarden.
  3. Selecteer in het menu Tabel de tabel die de kolom bevat die moet worden gefilterd.
  4. Selecteer in het menu Kolom de kolom waarop de reguliere expressie moet worden toegepast.
  5. Klik op Toevoegen aan tabel , en er verschijnt een item in de onderstaande tabel met de bestandsnaam, kolomnaam, zoekbron, drempelwaarde en het label voor reguliere expressies waaruit het filter bestaat.
  6. Herhaal dit proces voor elke kolom waaraan u een filter wilt toevoegen. Als u te veel kolommen heeft om dit proces praktisch te maken, kunt u nog steeds automatisch meerdere kolommen en tabellen scannen (voor gegevens die overeenkomen met uw patroon(en) in een volledig databaseschema) met behulp van deze wizard.

Een fuzzy string-zoekopdracht maken:

  1. Selecteer in de combo Zoektype Fuzzy String .
  2. Typ de tekenreeks die u wilt gebruiken voor zoeken.
  3. Selecteer het aantal resultaten dat moet worden geretourneerd (deze optie verschijnt wanneer Fuzzy Search is geselecteerd).
  4. Selecteer het te gebruiken Fuzzy-zoektype (deze optie verschijnt wanneer Fuzzy String is geselecteerd).
  5. Selecteer in het menu Tabel het bestand  dat de kolom bevat om vaag te zoeken.
  6. Selecteer in het menu Kolom de kolom waarnaar de fuzzy-zoekopdracht moet worden uitgevoerd.
  7. Klik op Toevoegen aan tabel , en er verschijnt een item in de onderstaande tabel met de bestandsnaam, kolomnaam, zoekbron, drempel en het zoektype van de fuzzy-zoekopdracht die moet worden uitgevoerd.
  8. Herhaal dit proces voor elke kolom waarin u een zoekactie met vage tekenreeksen wilt uitvoeren.

Om een ​​waardenbestand te zoeken:

  1. Selecteer in de combinatie Zoektype Waardenbestand .
  2. Klik op Bladeren om een ​​ingesteld bestand te selecteren waarmee de kolom wordt gecontroleerd.
  3. Selecteer in het menu Tabel de tabel die de kolom bevat die moet worden gefilterd.
  4. Selecteer in het menu Kolom de kolom waarop de reguliere expressie moet worden toegepast.
  5. Klik op Toevoegen aan tabel , en er verschijnt een item in de onderstaande tabel met de bestandsnaam, kolomnaam, zoekbron, drempelwaarde en zoeklabel voor de waardenlijst waaruit het filter bestaat.

Referentiële integriteitscontrole

Een andere keuze in de optietabel is -Check Referential Integrity-. Met deze optie kan de profiler een of meer kolommen met een andere kolom vergelijken en bepalen of de kolommen referentiële integriteit hebben. Als u deze functie wilt gebruiken, vinkt u de vakjes -Controleer referentiële integriteit- aan in de kolommen om te vergelijken op referentiële integriteit. De knop Volgende wordt geactiveerd en stelt u in staat om de parameters voor de referentiële integriteitscontrole te specificeren (zie hieronder voor details).

Als u de optie Referentiële integriteit controleren voor een van uw kolommen heeft geselecteerd, klikt u op Volgende om naar de pagina Referentiële integriteitscontrole te gaan. Deze pagina heeft de volgende kenmerken:

  1. Twee keuzelijsten, één om de tabel te selecteren waarin de primaire sleutel zich bevindt, de andere om de kolom met primaire sleutel te specificeren.
  2. Twee keuzelijsten, één om de tabel te selecteren waarin de externe sleutel zich bevindt, de andere om de kolom met externe sleutels te specificeren. Er is ook een knop om de vreemde sleutel toe te voegen aan een lijst met externe sleutels om te vergelijken met de primaire sleutel.
  3. Een knop Integriteitscontrole maken om de primaire en buitenlandse kolommen aan de onderstaande lijst toe te voegen.
  4. Een lijst met alle referentiële integriteitscontroles die door de profiler zullen worden uitgevoerd.


Een referentiële integriteitscontrole maken:

  1. Selecteer in de lijst met invoervak ​​onder Primaire sleutelkolom de tabel waarin de primaire sleutel zich bevindt.
  2. Selecteer de primaire sleutel in de keuzelijst met invoervak ​​voor kolommen onder Kolom primaire sleutel.
  3. Selecteer in de tabel met invoervak ​​onder Foreign Key Column de tabel waarin de externe sleutel staat.
  4. Selecteer de externe sleutel in de keuzelijst met kolomcombinatie onder Foreign Key Column.
  5. Klik op de knop Toevoegen aan lijst met externe sleutels...
  6. Herhaal stap 3-5 voor elke externe sleutel die moet worden vergeleken met de primaire sleutel
  7. Klik op de knop Integriteitscontrole maken…
  8. Herhaal de bovenstaande processen voor elke uit te voeren referentiële integriteitscontrole.

Voorbeeldprofieluitvoer

 .csv weergegeven in LibreOffice / .txt weergegeven in EditPad Lite


  1. Hoe maak ik een reeks in MySQL?

  2. Is het mogelijk om van Realm naar Sqlite te migreren?

  3. Problemen met variabele geheugentoekenningen in SQL Server oplossen

  4. lastInsertId werkt niet in Postgresql