Ik gebruik een vergelijkbare aanpak met gesorteerde sets om volledige tekstindexering te implementeren. De algemene aanpak is goed, hoewel er een paar vrij eenvoudige verbeteringen zijn die je zou kunnen maken.
- In plaats van willekeurig gegenereerde sleutels te gebruiken, kunt u de query (of een korte vorm daarvan) als sleutel gebruiken. Zo kunt u de sets hergebruiken die al zijn berekend, wat de prestaties aanzienlijk zou kunnen verbeteren als u zoekopdrachten heeft over twee grote sets die vaak op vergelijkbare manieren worden gecombineerd.
- Het afhandelen van titel als een volledige string zal resulteren in een zeer groot aantal enkelvoudige ledensets. Het is misschien beter om afzonderlijke woorden in de titel te indexeren en de uiteindelijke resultaten te filteren voor een exacte overeenkomst als je die echt nodig hebt.