sql >> Database >  >> RDS >> Oracle

Datawarehousing ETL-gegevensprofilering met Oracle Warehouse Builder

Inleiding tot gegevensprofilering

Gegevensprofilering is het proces van het systematisch documenteren van het ontwerp en de inhoud van gegevens in een bestand, tabel of schema. Gegevensprofilering is een belangrijke eerste stap die wordt gezet wanneer een datawarehouse zich in de planningsfase bevindt. Het is belangrijk voor datawarehouse-architecten en -ontwerpers om de kwaliteit en de algehele aard van de onderliggende operationele systeemgegevens te begrijpen voordat ze een groot datawarehousingproject ondernemen. Enkele specifieke aspecten van brongegevens die door profilering kunnen worden onthuld, zijn onder meer:

  • De totale grootte (in bytes) van elke brontabel of -bestand inclusief details over het gegevenstype van elk veld/kolom.
  • Tellingen, gemiddelden, bereiken en het bestaan ​​van nulls voor elke kolom.
  • Relaties tussen gegevenskolommen binnen tabellen (zoals functionele afhankelijkheden).
  • Relaties tussen tabellen (zoals relaties met externe sleutels).

De resultaten van de fase van gegevensprofilering kunnen verder worden gebruikt om regels te ontwikkelen om de gegevenskwaliteit te controleren en regels om gegevensproblemen tijdens de eerste fasen van een ETL-pijplijn te corrigeren.

Oracle Warehouse Builder biedt een krachtige faciliteit voor gegevensprofilering die kan worden gebruikt om tot in detail de omvang en kenmerken van gegevens in een schema te leren kennen. De officiële OWB-documentatie over Data Profiling is te vinden op deze link. Oracle Warehouse Builder wordt geïnstalleerd samen met de standaard- en Enterprise-versies van Oracle 11g Database. Hier zijn enkele instructies voor het installeren van Oracle 11g Release 2 op Windows.

Als u een centrale Oracle 11g-server heeft, kunt u de Oracle Warehouse Builder Client gebruiken om toegang te krijgen tot die centrale repository.

In deze demonstratie worden de belangrijkste stappen gepresenteerd die nodig zijn om een ​​OLTP-systeemschema te profileren. Het doelschema is het Oracle "Order Entry"-schema (OE) dat kan worden geïnstalleerd en ingeschakeld op Oracle 11g-databases. Houd er rekening mee dat de Oracle Warehouse-gebruiker toegang (referenties) tot het OE-schema moet hebben om de juiste module in OWB in te stellen.

De eerste belangrijke stap bij profilering is het maken van een module die verwijst naar het brondatabaseschema. OWB ondersteunt een groot aantal databasebronnen en platte (tekst)bestanden.

Een nieuwe module instellen voor het orderinvoerschema

In deze reeks stappen wordt het schema voor orderinvoer (OE) gemaakt als een nieuwe module in Oracle Warehouse Builder.

  1. Begin door u aan te melden bij Oracle Warehouse Builder. Open het venster Project Navigator en open vervolgens het MY_PROJECT
    Open de Databases map en vervolgens de Oracle map.
    Klik met de rechtermuisknop op het Oracle map en selecteer Nieuwe Oracle-module zoals hieronder getoond:
  2. Wanneer het welkomstscherm verschijnt, klikt u op Volgende> knop
  3. Geef een nieuwe naam en beschrijving op voor de database. Merk op dat u geen spaties in de naam van de database mag gebruiken.
    Klik op de Volgende> knop om door te gaan.
  4. De volgende hoofdstap is het specificeren van de locatie van de database. Meer dan waarschijnlijk is dit de eerste keer dat u deze stappen doorloopt en dus is de locatie van het Oracle OE Schema niet ingesteld. Klik in dit geval op de Bewerken... knop weergegeven naast de Locatie prompt
  5. Vul de naam, beschrijving en verbindingsinformatie in (hostnaam, gebruikersnaam, wachtwoord, poortnummer, Oracle-servicenaam, enz.) Klik op de OK knop wanneer u klaar bent.
  6. Bevestig de verbindingsinformatie en klik op de optie om Importeren na voltooiing .
    Klik vervolgens op Volgende> knop om door te gaan:
  7. Het laatste overzichtsscherm verschijnt om aan te geven dat het maken van de module is gelukt.
    Klik op Voltooien knop om dit scherm te sluiten.

Metadata importeren voor het orderinvoerschema

  1. Door het vakje Importeren na voltooiing . aan te vinken optie in stap 6, de Wizard Metadata importeren wordt automatisch gestart zodra de databasemodule is gemaakt. Als u deze optie hebt overgeslagen, klikt u met de rechtermuisknop op de nieuwe Order_Entry-module en selecteert u Metadata importeren uit het menu.
    Zodra de wizard Metagegevens importeren is gestart, klikt u op Volgende> knop om door te gaan.
  2. De Filterinformatie scherm verschijnt hierna. In dit geval willen we metadata importeren voor alle schema-inhoud, dus klik op de knop Alle optie en klik vervolgens op de Volgende> knop om door te gaan.
  3. Het volgende scherm dat verschijnt, biedt de mogelijkheid om enkele of alle objecten te selecteren die in het schema zijn gevonden. Aanvankelijk de Objectselectie scherm zal er als volgt uitzien:
  4. Klik op het pictogram met de dubbele pijl naar rechts om alle objecten uit de Beschikbare te verplaatsen kant naar de Geselecteerde kant zoals hieronder weergegeven. Klik vervolgens op de Volgende> knop om door te gaan.
  5. De Samenvatting en import scherm verschijnt hierna. Bekijk het scherm om er zeker van te zijn dat alle objecten zijn geselecteerd en klik op Voltooien knop om het importeren te voltooien.
  6. Een resultaten importeren overzichtsscherm verschijnt. Klik op de OK knop om het te sluiten.
  7. In de Oracle Warehouse Builder Projects Navigator wordt de ORDER_ENTRY-database gevuld met alle objecten, inclusief de onderstaande tabellen:

Op dit moment is er een nieuwe databasemodule voor het Oracle Order Entry-databaseschema gemaakt en zijn alle metadata van het schema geïmporteerd in Oracle Warehouse Builder. In de volgende reeks stappen wordt een nieuw gegevensprofiel wordt gemaakt.

Een gegevensprofiel maken in Oracle Warehouse Builder

De volgende grote stap is het maken van een Dataprofiel .

  1. Klik in de Oracle Warehouse Builder Projects Navigator met de rechtermuisknop op de Gegevensprofielen groep en selecteer Nieuw gegevensprofiel
  2. Wanneer het welkomstscherm verschijnt, klikt u op Volgende> knop
  3. Geef een naam en een beschrijving op van het nieuwe gegevensprofiel. In dit voorbeeld hebben we het nieuwe profiel de naam gegeven:Order_Entry_Schema_Profile (merk op dat spaties niet zijn toegestaan ​​in de profielnaam). Klik op de Volgende> knop om door te gaan.
  4. Het volgende scherm geeft een lijst met schema-objecten. Open de Tafels map en voeg alle tabellen toe (met uitzondering van de KOOPORDER tabel) vermeld onder de Orderinvoer-database naar de Geselecteerde kant van het scherm.
    Voeg geen van de weergaven toe.
    Klik op Volgende> knop om door te gaan.
  5. Op dit punt is de Samenvatting scherm verschijnt en het gegevensprofiel is ingesteld. Klik op de Voltooien knop.
  6. Zodra het nieuwe profiel is ingesteld, wordt de Data Profile Editor scherm zal verschijnen.

De volgende stap is om de profiler op het schema uit te voeren.

Werken met de profieleditor in Oracle Warehouse Builder

De laatste hoofdstap is om in de profieleditor te werken om een ​​gegevensprofileringstaak te starten en vervolgens de resultaten te bekijken. Als u de vorige stappen hebt gevolgd om een ​​nieuw gegevensprofiel aan te maken, dan had OWB de Data Profile Editor moeten starten . Alle instructies vanaf dit punt gaan ervan uit dat we in de Data Profile Editor werken.

  1. Hieronder ziet u een weergave van de gegevensprofieleditor. Merk op dat de ORDER_ENTRY databasemodule wordt geopend in de Profielobjecten venster en alle tabellen moeten hier worden vermeld.
  2. U kunt wijzigingen aanbrengen in de profileringsstappen door de secties van de Property Inspector, zoals Configuratie laden en Aggregatieconfiguratie . Beschrijvingen van deze instellingen zijn te vinden op deze link.
    Zorg er voor dit voorbeeld voor dat de volgende standaardinstellingen voor profilering zijn geselecteerd:

    • Detectie van gemeenschappelijke indelingen inschakelen
    • Typedetectie inschakelen
    • Patroonherkenning inschakelen
    • Domeindetectie inschakelen
    • Unieke sleuteldetectie inschakelen
    • Detectie van functionele afhankelijkheid inschakelen
    • Detectie van redundante kolommen inschakelen
    • Profiling gegevensregel inschakelen
  3. Om de taak Gegevensprofilering te starten, trekt u het Profiel menu en selecteer Profiel
  4. Zodra de profieltaak is gestart, verschijnt er een dialoogvenster met de voortgang bij het valideren van het profiel. Dit kan enkele minuten duren, afhankelijk van de snelheid van de server en het aantal database-objecten in het profiel.
  5. Wanneer de validatiestap is voltooid, wordt de daadwerkelijke profieltaak uitgevoerd. Houd er rekening mee dat deze taak asynchroon op de achtergrond wordt uitgevoerd. Klik op de OK knop om het Profiel gestart . te sluiten dialoog venster.
  6. Zodra de profieltaak is voltooid, worden de Profielresultaten ophalen scherm zal verschijnen. Klik op Ja om de profielresultaten op te halen in de profieleditor.
  7. De profielresultaten verschijnen in de profieleditor. Klik op een tabelnaam om de metadata te zien in het Profielresultaten Canvas . Klik op een kolomnaam om de details van een kolom te zien in het Data Drill Panel
    In de onderstaande afbeelding (klik voor een grotere afbeelding), de KLANTEN tabel is geselecteerd voor weergave in het Canvas met profielresultaten en de NLS_TERRITORY kolom is geselecteerd om te bekijken in het Data Drill Panel.

Meer informatie over Oracle OWB-gegevensprofilering

Naast de documentatie biedt Oracle ook een Oracle By Voorbeeld (OBE)-serie tutorials voor OWB, waaronder:Oracle Warehouse Builder:Brongegevens onderzoeken met behulp van gegevensprofilering.


  1. Mogelijke manieren om het probleem met corruptie van SQL Server-metagegevens op te lossen

  2. Voeg meerdere rijen in ZONDER het INSERT INTO ...-gedeelte van de instructie te herhalen?

  3. INST_TOP (Oracle R12 INSTANCE_HOME ) gedecodeerd

  4. Postgresql selecteren totdat een bepaald totaalbedrag is bereikt