hoe kan ik een nieuw XML-bestand maken van een bestaande database in de PostgreSQL-database met behulp van java

Ik heb een werkende implementatie waar ik alles doe binnen PostgreSQL zonder extra bibliotheken.

Extra parseerfunctie

CREATE OR REPLACE FUNCTION f_xml_extract_val(text, xml)
  RETURNS text AS
$func$
SELECT CASE
        WHEN $1 ~ '@[[:alnum:]_]+$' THEN
           (xpath($1, $2))[1]
        WHEN $1 ~* '/text()$' THEN
           (xpath($1, $2))[1]
        WHEN $1 LIKE '%/' THEN
           (xpath($1 || 'text()', $2))[1]
        ELSE
           (xpath($1 || '/text()', $2))[1]
       END;
$func$  LANGUAGE sql IMMUTABLE;

Behandel meerdere waarden

De bovenstaande implementatie verwerkt geen meerdere kenmerken op één xpath. Hier is een overbelaste versie van f_xml_extract_val() daarom. Met de 3e parameter kun je one kiezen (de eerste), all of dist (verschillende) waarden. Meerdere waarden worden samengevoegd tot een door komma's gescheiden tekenreeks.

CREATE OR REPLACE FUNCTION f_xml_extract_val(_path text, _node xml, _mode text)
  RETURNS text AS
$func$
DECLARE
   _xpath text := CASE
                   WHEN $1 ~~ '%/'              THEN $1 || 'text()'
                   WHEN lower($1) ~~ '%/text()' THEN $1
                   WHEN $1 ~ '@\w+$'            THEN $1
                   ELSE                              $1 || '/text()'
                  END;
BEGIN
   -- fetch one, all or distinct values
   CASE $3
       WHEN 'one'  THEN RETURN (xpath(_xpath, $2))[1]::text;
       WHEN 'all'  THEN RETURN array_to_string(xpath(_xpath, $2), ', ');
       WHEN 'dist' THEN RETURN array_to_string(ARRAY(
            SELECT DISTINCT unnest(xpath(_xpath, $2))::text ORDER BY 1), ', ');
       ELSE RAISE EXCEPTION
          'Invalid $3: >>%<<', $3;
   END CASE;
END
$func$  LANGUAGE plpgsql;

COMMENT ON FUNCTION f_xml_extract_val(text, xml, text) IS '
Extract element of an xpath from XML document
Overloaded function to f_xml_extract_val(..)
$3 .. mode is one of: one | all | dist'

Bel:

SELECT f_xml_extract_val('//city', x, 'dist');

Hoofdstuk

Naam van doeltabel:tbl; prima. sleutel:id :

CREATE OR REPLACE FUNCTION f_sync_from_xml()
  RETURNS boolean AS
$func$
DECLARE
   datafile text := 'path/to/my_file.xml';  -- only relative path in db dir
   myxml    xml  := pg_read_file(datafile, 0, 100000000); -- arbitrary 100 MB
BEGIN
   -- demonstrating 4 variants of how to fetch values for educational purposes
   CREATE TEMP TABLE tmp ON COMMIT DROP AS
   SELECT (xpath('//some_id/text()', x))[1]::text AS id   -- id is unique  
        , f_xml_extract_val('//col1', x)          AS col1 -- one value
        , f_xml_extract_val('//col2/', x, 'all')  AS col2 -- all values incl. dupes
        , f_xml_extract_val('//col3/', x, 'dist') AS col3 -- distinct values
   FROM   unnest(xpath('/xml/path/to/datum', myxml)) x;

   -- 1.) DELETE?

   -- 2.) UPDATE
   UPDATE tbl t
   SET   (  col_1,   col2,   col3) =
         (i.col_1, i.col2, i.col3)
   FROM   tmp i
   WHERE  t.id = i.id
   AND   (t.col_1, t.col2, t.col3) IS DISTINCT FROM
         (i.col_1, i.col2, i.col3);

   -- 3.) INSERT NEW
   INSERT INTO tbl
   SELECT i.*
   FROM   tmp i
   WHERE  NOT EXISTS (SELECT 1 FROM tbl WHERE id = i.id);
END
$func$  LANGUAGE plpgsql;

Belangrijke opmerkingen

Deze implementatie controleert op een primaire sleutel of de ingevoegde rij al bestaat en updates in dit geval. Er worden alleen nieuwe rijen ingevoegd.
Ik gebruik een tijdelijke staging-tabel om de procedure te versnellen.
Getest met Postgres 8.4 , 9.0 en 9.1 .
XML moet goed gevormd zijn.
pg_read_file() heeft daar beperkingen aan. De handleiding:

Het gebruik van deze functies is beperkt tot supergebruikers.

En:

Alleen bestanden in de databaseclusterdirectory en de log_directory toegankelijk zijn.

Je moet dus je bronbestand daar plaatsen - of een symbolische link naar je eigenlijke bestand/directory maken.

Of je kunt het bestand in jouw geval via Java aanleveren (ik deed het allemaal in Postgres).

Of u kunt de gegevens importeren in 1 kolom van 1 rij van een tijdelijke tabel en deze daar vandaan halen.

Of je kunt lo_import . gebruiken zoals aangetoond in dit gerelateerde antwoord op dba.SE.

SQL om XML uit bestand in PostgreSQL-database te lezen

Deze blogpost van Scott Bailey heeft me geholpen.