robotstxtbestand
Het robotstxtbestand, in het Engels robots.txt, is een tekstbestand op een website dat aanwijzingen geeft aan webcrawlers over welke delen van de site wel of niet bezocht mogen worden. Het maakt deel uit van wat bekendstaat als het robots exclusion protocol en is bedoeld om crawlverkeer te sturen, niet om beveiliging te bieden.
Het robotstxtbestand bevindt zich in de root van een domein en is publiek toegankelijk via de URL
De basisconfiguratie bestaat uit groepen die beginnen met een user-agent-regel, gevolgd door verbindende regels zoals Disallow
Dit betekent: voor alle crawlers mogen de paden onder /private/ niet worden bezocht, terwijl /public/ wel toegankelijk
Sitemap: https://voorbeeld.nl/sitemap.xml
Belangrijke kanttekeningen: het robotstxtbestand is niet bedoeld als toegangsschema of beveiliging. Bots kunnen het negeren, en
Kortom, het robotstxtbestand dient als een gezamenlijke afspraak met geautoriseerde crawlers over crawlinggedrag en heeft invloed