Verwijder zeer grote databases

Een van de grootste zorgen die DBA's hebben die big data uit VLDB-tabellen moeten verwijderen, is snelheid. Sneller lossen maakt gegevens in verschillende vormen toegankelijk voor verschillende doeleinden en platforms. Hoe sneller die gegevens worden verkregen, hoe sneller ze kunnen worden verwerkt en afgeleverd. Het uiteindelijke resultaat is een snellere time-to-solution, en dus de productiviteit en het concurrentievermogen van bedrijven die geld verdienen met informatie.

De meeste beschikbare tools en methoden die momenteel worden gebruikt om gegevens uit grote feitentabellen te extraheren, zijn gewoon te traag. Degenen die beweren sneller te zijn, zijn gecompliceerd, gepatenteerd of vereisen de aankoop van een duur ETL-pakket. Een verschuiving naar een ELT- of Hadoop-paradigma brengt grote hardwarekosten (of DB-apparaat) met zich mee, belast de onderliggende DB die nu aan het transformeren is en legt steile leercurves en onderhoudslasten op.

Zijn er geen andere opties voor de ontlaad- en stroomafwaartse processen die sneller, eenvoudiger en betaalbaarder zijn?

Waarom VLDB-tabellen verwijderen?

Er zijn veel redenen waarom u in de eerste plaats gegevens uit deze tabellen in bulk zou verwijderen:

Databasemigratie :hoe sneller u gegevens uit de oude database(s) kunt halen, hoe sneller u de gegevens kunt toewijzen en verplaatsen naar de nieuwe database(s). Bulkgegevensverplaatsing zou gunstig zijn als de gegevensvolumes enorm zijn, offline transformatie, bescherming en/of analyse voordelen biedt (wat meteen mogelijk is in IRI CoSort), en wanneer voorgesorteerde bulkladingen de enige manier zijn om te voldoen SLA-deadlines.

Database Reorg :Verwijderen, sorteren, opnieuw laden om de database efficiënt te laten werken en algemene query's te optimaliseren door de tabellen op volgorde te houden. Het lossen gebeurt in off-line of externe reorganisaties. Bekijk deze vergelijking over offline en online reorganisatiemethoden.

Gegevensintegratie :Grootschalige DW-extract-transform-load (ETL)-bewerkingen beginnen met het extraheren van tabellen in het gegevensverwerkingsgebied. Gegevens gedumpt uit tabellen en vermengd met mainframe-datasets, weblogs en andere platte bestanden kunnen het meest efficiënt worden geïntegreerd en verwerkt in het bestandssysteem. Externe transformaties via zijn niet alleen efficiënter omdat meerdere acties in één I/O-doorgang kunnen worden uitgevoerd, maar ook omdat de rekenkundige overhead van al dit werk uit de database wordt verwijderd (zie ETL versus ELT).

Gegevensreplicatie/archief :Door feitentabellen te ontladen, kunnen operationele gegevens uit de gouden bron worden gedupliceerd en opgeslagen in een draagbaar formaat. Gegevens in platte bestanden kunnen worden opgevraagd, gemanipuleerd en opnieuw geformatteerd met tools zoals IRI NextForm of CoSort, en worden gebruikt om andere databases en applicaties te vullen. Evenzo kan een toegankelijke repository van deze gegevens ook offline worden opgeslagen voor back-upherstel en -herstel, of distributie naar partijen die toegang tot de gegevens in een andere omgeving nodig hebben.

Business Intelligence :Het kan sneller en gemakkelijker zijn om operationele gegevens in Excel en andere BI-tools in platte bestandsindelingen zoals CSV en XML te importeren in plaats van te proberen een brug te slaan tussen de tabel en een spreadsheet of BI-kubus. Het overzetten van tabellen naar platte bestanden is daarom een eerste en efficiënte stap in datafranchising – het voorbereiden van data voor BI-operaties.

Een blik op ontlaadmethoden

VLDB-extractiemethoden variëren in prestaties en functionaliteit. Een goed hulpprogramma voor het ontladen van big data uit Oracle en andere grote databases moet efficiënt en gebruiksvriendelijk zijn en bepaalde herformatteringsfuncties ondersteunen die het proces niet hinderen.

De opdracht SQL SPOOL kan gegevens naar een plat bestand dumpen, maar is doorgaans traag in volume. Native hulpprogramma's zoals de export- of datapomp van Oracle zijn sneller, maar produceren eigen extracten die alleen opnieuw in dezelfde database kunnen worden geïmporteerd en niet kunnen worden geanalyseerd zoals een plat bestand zou doen.

Als u snel grote tabellen naar draagbare platte bestanden moet verplaatsen, overweeg dan IRI FACT (Fast Extract) voor Oracle, DB2, Sybase, MySQL, SQL Server, Altibase, Tibero, enz. FACT gebruikt parallellisme en native databaseverbindingsprotocollen (zoals Oracle OCI ) om de extractieprestaties te optimaliseren. De gratis FACT GUI (wizard) die deel uitmaakt van de IRI Workbench, gebouwd op Eclipse™, presenteert beschikbare tabellen en kolommen om te extraheren en gebruikt SQL SELECT-syntaxis.

Een ander voordeel van het gebruik van FACT is de metadata-integratie met het SortCL-programma in IRI Voracity voor het transformeren, beschermen, targeten en zelfs rapporteren over de flat-file-extracten. FACT maakt ook het databasebeheerbestand voor het bulkladen van hulpprogramma's in afwachting van het opnieuw vullen van dezelfde tabel met behulp van vooraf gesorteerde platte bestanden in grootschalige ETL- of reorganisatiebewerkingen.