Home

robotstxtbestand

Het robotstxtbestand, in het Engels robots.txt, is een tekstbestand op een website dat aanwijzingen geeft aan webcrawlers over welke delen van de site wel of niet bezocht mogen worden. Het maakt deel uit van wat bekendstaat als het robots exclusion protocol en is bedoeld om crawlverkeer te sturen, niet om beveiliging te bieden.

Het robotstxtbestand bevindt zich in de root van een domein en is publiek toegankelijk via de URL

De basisconfiguratie bestaat uit groepen die beginnen met een user-agent-regel, gevolgd door verbindende regels zoals Disallow

User-agent: *

Disallow: /private/

Allow: /public/

Dit betekent: voor alle crawlers mogen de paden onder /private/ niet worden bezocht, terwijl /public/ wel toegankelijk

Sitemap: https://voorbeeld.nl/sitemap.xml

Belangrijke kanttekeningen: het robotstxtbestand is niet bedoeld als toegangsschema of beveiliging. Bots kunnen het negeren, en

Kortom, het robotstxtbestand dient als een gezamenlijke afspraak met geautoriseerde crawlers over crawlinggedrag en heeft invloed

van
de
site
gevolgd
door
/robots.txt,
bijvoorbeeld
https://voorbeeld.nl/robots.txt.
Het
bestand
wordt
gelezen
door
crawlers
die
de
standaard
volgen,
maar
gehoorzaamheid
is
vrijwillig:
het
is
een
richtlijn
en
geen
beveiligingslaag.
en
Allow.
Voorbeeld:
is.
Andere
vaak
voorkomende
regels
zijn
Crawl-delay
(vertraging
tussen
aanvragen)
en
Sitemap
(verwijzing
naar
de
sitemap
van
de
site),
bijvoorbeeld:
inhoud
kan
nog
steeds
in
zoekmachines
verschijnen
via
verwijzen
of
snapshots.
Voor
echte
beveiliging
zijn
serverkant-
maatregelen
nodig,
en
voor
verwijdering
uit
zoekresultaten
kan
meta-noindex
gebruikt
worden.
op
wat
zoekmachines
kunnen
indexeren,
maar
het
is
geen
vervanging
voor
beveiligingsmaatregelen.