sql >> Database >  >> RDS >> Mysql

Jaro-winkler-functie:waarom komt dezelfde score overeen met zeer vergelijkbare en zeer verschillende woorden?

De afstandsformule van Jaro-Winkler is gericht op snaren met een gemeenschappelijk begin. Bijvoorbeeld Valentina en Valentiria .

Het heeft ook een aantal niet zo intuïtieve "regels" (zie wikipedia ).

U moet waarschijnlijk eerst bepalen wat voor soort ongelijkheid u verwacht en vervolgens op zoek gaan naar een geschikte afstandsformule. Bijvoorbeeld, schriftelijk is "angleworm" en "angelworm" een zeer waarschijnlijke fout, dus de afstand tussen de twee snaren zou laag moeten zijn. Hoewel het minder waarschijnlijk is dat "daar" en "drie" niet bij elkaar passen, en "ether" nog meer. Bij langere anagrammen kan de Jaro-afstand exact hetzelfde zijn, en zelfs de Winkler-correctie treedt mogelijk niet in werking.

Zoals je kunt lezen in deze pagina (nadruk van mij)



  1. 9 echt handige MySQL-datumfuncties die gemakkelijk te onthouden zijn

  2. Optimistische vergrendeling implementeren in Oracle

  3. Wanneer TEKST in mysql gebruiken in plaats van VARCHAR

  4. Spring Boot MySQL-database initialisatiefout met opgeslagen procedures