Verkrijg de meest herhaalde vergelijkbare velden in de MySQL-database

Waar je het over hebt is een tekstclusteringsproces. U probeert soortgelijke stukken tekst te vinden en kiest er willekeurig een van. Ik ken geen enkele database die deze vorm van tekstmining doet.

Voor wat je beschrijft, zou een vrij eenvoudige tekstminingtechniek waarschijnlijk werken. Maak een term-documentmatrix met alle woorden behalve de gebruikersnamen. Gebruik vervolgens ontleding van singuliere waarden om de grootste singuliere waarde en vector te krijgen (dit is de eerste hoofdcomponent van de correlatiematrix). De vergelijkbare activiteiten zouden langs deze lijn moeten worden geclusterd.

Als je een beperkte woordenschat hebt en de termen in een tabel hebt, kun je de afstand tussen twee acties meten door het aantal woorden dat elkaar overlappen. Heb je een lijst van alle woorden in de acties?