Crawler

Der Crawler ist ein automatisiertes Softwareprogramm, das Suchmaschinen verwenden, um das Internet systematisch zu „durchsuchen“ und Webseiteninformationen zu sammeln. Diese Informationen werden dann verwendet, um einen Index der gesammelten Seiten zu erstellen, auf den die Suchmaschine bei der Beantwortung von Suchanfragen zugreift.

Crawler „besuchen“ Webseiten und folgen den Links auf diesen Seiten, ähnlich wie ein Mensch beim Surfen im Internet. Sie erfassen dabei den Content der Seiten, Meta-Informationen, interne und externe Links sowie viele andere Informationen. Das Ziel ist es, ständig aktualisierte Daten über den Inhalt und die Struktur des Webs zu erhalten, um relevante und aktuelle Suchergebnisse bereitzustellen.

Um sicherzustellen, dass eine Webseite von einem Crawler optimal erfasst wird, ist es wichtig, dass sie gut strukturiert ist und keine technischen Hürden enthält, die das Durchsuchen und Indexieren behindern könnten. Es ist auch möglich, über die robots.txt-Datei einer Webseite spezifische Anweisungen für Crawler zu hinterlegen, z. B. welche Seiten nicht gecrawlt oder indexiert werden sollen.

Zum Glossar