Een ander idee dat u kunt proberen, is om gemeenschappelijke tekenreeksen te identificeren en deze weer te geven met een bitmap. Geef bijvoorbeeld twee bits om het protocol weer te geven (http, https, ftp of iets anders), een ander bit om aan te geven of het domein begint met "wwww", twee bits om aan te geven of het domein eindigt met ".com", ". org", ".edu" of iets anders. U moet uw gegevens analyseren om te zien of deze zinvol zijn en of er andere veelvoorkomende tekenreeksen zijn die u kunt identificeren.
Als je veel URL's naar dezelfde site hebt, zou je ook kunnen overwegen om je tabel in twee verschillende te splitsen, een met het domein en de andere met het domein-relatieve pad (en querystring &fragment-ID, indien aanwezig). Je zou een linktabel hebben met de id van de URL, de id van het domein en de id van het pad, en je zou je originele URL-tabel vervangen door een weergave die de drie tabellen samenvoegde. De domeintabel zou niet beperkt hoeven te zijn tot het domein, u zou zoveel van de URL kunnen opnemen als gebruikelijk was (bijvoorbeeld 'http://stackoverflow.com/questions'). Dit zou niet al te veel code kosten om te implementeren, en heeft het voordeel dat het nog steeds leesbaar is. Je numerieke codering zou efficiënter kunnen zijn, als je het eenmaal doorhebt, moet je je gegevens analyseren om te zien welke logischer is.