Robots.txt
Eine robots.txt ist eine Datei, die normalerweise im Stammverzeichnis einer Website abgelegt wird (zum Beispiel, https://www.example.com/robots.txt
).
Sie gibt an, ob Crawler Zugriff auf eine gesamte Website oder auf bestimmte Ressourcen haben dürfen.
Eine restriktive robots.txt
-Datei kann den Bandbreitenverbrauch durch Crawler verhindern.
Ein Seiteninhaber kann Crawler daran hindern, einen bestimmten Pfad (und alle Dateien in diesem Pfad) oder eine bestimmte Datei zu erkennen. Dies wird häufig getan, um zu verhindern, dass diese Ressourcen von Suchmaschinen indexiert oder bereitgestellt werden.
Wenn einem Crawler der Zugriff auf Ressourcen gestattet ist, können Sie Indexierungsregeln für diese Ressourcen über <meta name="robots">
Elemente (häufig als "Robots-Tag" bezeichnet) und X-Robots-Tag
HTTP-Header definieren.
Suchbezogene Crawler nutzen diese Regeln, um zu bestimmen, wie Ressourcen in Suchergebnissen indexiert und bereitgestellt werden sollen, oder um die Crawl-Rate für bestimmte Ressourcen im Laufe der Zeit anzupassen.