sql >> Database >  >> RDS >> PostgreSQL

Postgresql k-nearest buur (KNN) op multidimensionale kubus

PostgreSQL ondersteunt afstandsoperator <-> en zoals ik het begrijp, kan dit worden gebruikt voor het analyseren van tekst (met pg_trgrm-module) en geometrie gegevenstype.

Ik weet niet hoe je het kunt gebruiken met meer dan 1 dimensie. Misschien moet u uw eigen afstandsfunctie definiëren of uw gegevens op de een of andere manier converteren naar één kolom met tekst- of geometrietype. Als u bijvoorbeeld een tabel heeft met 8 kolommen (8-dimensionale kubus):

c1 c2 c3 c4 c5 c6 c7 c8
 1  0  1  0  1  0  1  2

Je kunt het converteren naar:

c1 c2 c3 c4 c5 c6 c7 c8
 a  b  a  b  a  b  a  c

En dan naar tabel met één kolom:

c1
abababac

Dan kunt u (na het maken van gist index ):

SELECT c1, c1 <-> 'ababab'
 FROM test_trgm 
 ORDER BY c1 <-> 'ababab';

Voorbeeld

Voorbeeldgegevens maken

-- Create some temporary data
-- ! Note that table are created in tmp schema (change sql to your scheme) and deleted if exists !
drop table if exists tmp.test_data;

-- Random integer matrix 100*8 
create table tmp.test_data as (
   select 
      trunc(random()*100)::int as input_variable_1,
      trunc(random()*100)::int as input_variable_2, 
      trunc(random()*100)::int as input_variable_3,
      trunc(random()*100)::int as input_variable_4, 
      trunc(random()*100)::int as input_variable_5, 
      trunc(random()*100)::int as input_variable_6, 
      trunc(random()*100)::int as input_variable_7, 
      trunc(random()*100)::int as input_variable_8
   from 
      generate_series(1,100,1)
);

Invoergegevens omzetten in tekst

drop table if exists tmp.test_data_trans;

create table tmp.test_data_trans as (
select 
   input_variable_1 || ';' ||
   input_variable_2 || ';' ||
   input_variable_3 || ';' ||
   input_variable_4 || ';' ||
   input_variable_5 || ';' ||
   input_variable_6 || ';' ||
   input_variable_7 || ';' ||
   input_variable_8 as trans_variable
from 
   tmp.test_data
);

Dit geeft je één variabele trans_variable waar alle 8 dimensies zijn opgeslagen:

trans_variable
40;88;68;29;19;54;40;90
80;49;56;57;42;36;50;68
29;13;63;33;0;18;52;77
44;68;18;81;28;24;20;89
80;62;20;49;4;87;54;18
35;37;32;25;8;13;42;54
8;58;3;42;37;1;41;49
70;1;28;18;47;78;8;17

In plaats van || operator kunt u ook de volgende syntaxis gebruiken (korter, maar cryptischer):

select 
   array_to_string(string_to_array(t.*::text,''),'') as trans_variable
from 
   tmp.test_data t

Index toevoegen

create index test_data_gist_index on tmp.test_data_trans using gist(trans_variable);

Afstand testenOpmerking:ik heb één rij uit de tabel geselecteerd - 52;42;18;50;68;29;8;55 - en licht gewijzigde waarde gebruikt (42;42;18;52;98;29;8;55 ) om de afstand te testen. Natuurlijk heb je compleet andere waarden in je testgegevens, omdat het een RANDOM-matrix is.

select 
   *, 
   trans_variable <->  '42;42;18;52;98;29;8;55' as distance,
   similarity(trans_variable, '42;42;18;52;98;29;8;55') as similarity,
from 
   tmp.test_data_trans 
order by
   trans_variable <-> '52;42;18;50;68;29;8;55';

U kunt de functie voor afstandsoperator <-> of overeenkomst gebruiken. Afstand =1 - Gelijkenis



  1. Hoe moet ik het interpreteren Selecteer Distinct aliasRefForMe.field1 From [email protected] aliasRefForMe

  2. Ingewikkelde SQL-query - items vinden die overeenkomen met meerdere verschillende externe sleutels

  3. Wanneer enkele aanhalingstekens, dubbele aanhalingstekens en backticks gebruiken in MySQL?

  4. Oracle (PL/SQL):is UPDATE TERUGKEER gelijktijdig?