Crawler, auch “Searchbot” oder “Spider” genannt, wird für das durchforsten von verschiedenen Webseiten genutzt. Sie werden z.B. für die Indexierung der Suchmaschinen benutzt, dabei werden entweder die neuen Webseiten bei der Suchmaschine registriert oder aber er verfolgt die Links eigenständig und registriert sie.
Sie gelangen über Hyperlinks von einer Webseite zur anderen. Die Adressen, die dabei gefunden werden, werden der Reihe nach besucht und indexiert. Auf diese Weise werden alle erreichbaren Seiten im Internet gefunden.
Die Crawler werden meistens bei Suchmaschinen verwendet, welche den Prozess irgendwann beendet und von vorne beginnt. Je nach dem wird der Inhalt mittels Indexierung ausgewertet und gespeichert, um bei einer späteren Suchanfrage die gesammelten Daten aufzulisten.
Bei Google steuert der Scheduler den Crawler, indem er die im URL-Server abgespeicherten URLs in einem bestimmten Zeitabstand dem Crawler als Job weitergibt (siehe auch: Besucher auf Homepage locken).
Google findet URLs über:
In bestimmten Meta-Tags im HTML-Header kann eine Webseite einem Crawler mitteilen, welche Seiten indexiert werden sollen und welche nicht, es gibt aber einige die sich nicht daran halten. Die sogenannten Teergruben, welche ihnen falsche Informationen liefern und diese zusätzlich stark ausbremsen, werden zur Bekämpfung benutzt.
In unserem Online-Marketing Glossar finden Sie Erläuterungen zu weiteren Begriffen und weiterführende Informationen dazu.