Die robots.txt ist eine Textdatei, die im Wurzelverzeichnis einer Webseite liegt und in der festgelegt ist, welche Seiten und Pfade von den Crawlern der Suchmaschinen erfasst werden dürfen bzw. welche Seiten und Pfade für die Crawler gesperrt sind.
Gemäss geltenden Standards liest ein Suchmaschinen-Roboter beim Auffinden einer Webseite zuerst die Datei im Stammverzeichnis (Root) einer Domain. In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf.
Dank robots.txt haben Website-Betreiber die Möglichkeit, ausgesuchte Bereiche ihres Internetauftrittes für alle oder ausgewählte Suchmaschinen zu sperren.
Eine durch robots.txt ausgeschlossene Seite kann von Suchmaschinen wie Google trotzdem im Index geführt werden. Dabei werden in der Regel aber nur Inhalte gezeigt, welche über Drittquellen öffentlich waren, da der Roboter die Seite selber nicht besuchen durfte. Es ist also keine gute Lösung, zum Beispiel Duplikate auf dem eigenen Auftritt einfach per robots.txt auszuschliessen. Die entsprechenden Links auf diese Seiten existieren immer noch – Google kann nur nicht überprüfen, was auf der Seite steht.
Es ist nicht zwingend, eine robots.txt einzusetzen. Die Roboter suchen zwar danach, haben aber kein Problem, wenn diese nicht vorhanden ist. Eine nicht vorhandene robots.txt bedeutet, es gibt keine Einschränkungen für die Erfassung der Inhalte des Auftrittes. Ausnahmslos alle Inhalte dürfen erfasst werden.
Idealerweise wird der Auftritt so programmiert, dass die Roboter gar keine Seiten finden können, die nicht indexiert werden sollen. Eingesetzt werden kann robots.txt zum Beispiel für…
Eine mit robots.txt ausgeschlossene URL kann trotzdem im Google Index erscheinen, da sie Links erhält. Möchten wir sicherstellen, dass bestimmte URLs nicht im Index auftauchen, müssen wir den noindex-Metatag einsetzen, den Suchmaschinen aber den Zugriff auf diese URLs erlauben. So kann Google die Noindex-Anweisung erkennen und beachten.
Doppelte Inhalte mit robots.txt oder noindex auszuschliessen ist höchstens eine Notlösung, da die Links auf diese URLs ja trotzdem da sind und zum Beispiel PageRank verloren geht.
In unserem Online-Marketing Glossar finden Sie Erläuterungen zu weiteren Begriffen und weiterführende Informationen dazu.