sql >> Database >  >> RDS >> Mysql

Toptechnieken om 'datascraping' uit een websitedatabase te voorkomen

Hoewel er niets is dat een vastberaden persoon ervan weerhoudt om openbaar beschikbare inhoud te schrappen, kunt u een paar basisdingen doen om de zorgen van de klant weg te nemen:

  • Tarieflimiet per gebruikersaccount, IP-adres, user-agent, enz... - dit betekent dat u de hoeveelheid gegevens beperkt die een bepaalde gebruikersgroep in een bepaalde periode kan downloaden. Als u merkt dat er een grote hoeveelheid gegevens wordt overgedragen, sluit u het account of het IP-adres af.

  • JavaScript vereisen - om ervoor te zorgen dat de client enige gelijkenis heeft met een interactieve browser, in plaats van een barebones-spider...

  • RIA - maak uw gegevens beschikbaar via een Rich Internet Application-interface. Op JavaScript gebaseerde rasters omvatten ExtJs, YUI, Dojo, enz. Rijkere omgevingen omvatten Flash en Silverlight als 1kevgriff vermeldt .

  • Codeer gegevens als afbeeldingen. Dit is behoorlijk opdringerig voor gewone gebruikers, maar je zou sommige van je datatabellen of waarden kunnen coderen als afbeeldingen in plaats van tekst, wat de meeste tekstparsers zou verslaan, maar het is natuurlijk niet onfeilbaar.

  • robots.txt - om voor de hand liggende web spiders, bekende robot user agents, te ontkennen.

    User-agent:*

    Niet toestaan:/

  • Gebruik robot-metatags. Dit zou de conformerende spinnen stoppen. Dit voorkomt dat Google u bijvoorbeeld indexeert:

Er zijn verschillende niveaus van afschrikking en de eerste optie is waarschijnlijk de minst ingrijpende.



  1. Hoe kan ik een SQL Server-database op dezelfde server klonen in SQL Server 2008 Express?

  2. kan couchdb loops doen

  3. ProxySQL:alle bronnen van verschillende Nines

  4. Mysql - verbinding maken met externe server via IP-adres