robotstxtbestand

Het robotstxtbestand, in het Engels robots.txt, is een tekstbestand op een website dat aanwijzingen geeft aan webcrawlers over welke delen van de site wel of niet bezocht mogen worden. Het maakt deel uit van wat bekendstaat als het robots exclusion protocol en is bedoeld om crawlverkeer te sturen, niet om beveiliging te bieden.

Het robotstxtbestand bevindt zich in de root van een domein en is publiek toegankelijk via de URL

De basisconfiguratie bestaat uit groepen die beginnen met een user-agent-regel, gevolgd door verbindende regels zoals Disallow

Disallow: /private/

Allow: /public/

Dit betekent: voor alle crawlers mogen de paden onder /private/ niet worden bezocht, terwijl /public/ wel toegankelijk

Sitemap: https://voorbeeld.nl/sitemap.xml

Belangrijke kanttekeningen: het robotstxtbestand is niet bedoeld als toegangsschema of beveiliging. Bots kunnen het negeren, en

Kortom, het robotstxtbestand dient als een gezamenlijke afspraak met geautoriseerde crawlers over crawlinggedrag en heeft invloed

https://voorbeeld.nl/robots.txt.

beveiligingslaag.

beveiligingsmaatregelen.