Wichtigkeit korrekter HTTP-Statuscodes für Googles Web-Crawling und Indexierung
March 14, 2024

Die Bedeutung korrekter HTTP-Antworten für das Crawling und Indexieren von Websites durch Google
In der Welt der Suchmaschinenoptimierung (SEO) ist die Interaktion zwischen Webservern und Suchmaschinen-Crawlern von entscheidender Bedeutung. Eine Schlüsselrolle spielt dabei die korrekte Übermittlung der HTTP-Antworten an den Googlebot, den Crawler von Google. Diese Kommunikation ist nicht nur für das erfolgreiche Crawlen einer Website, sondern auch für ihre Sichtbarkeit in den Suchergebnissen maßgeblich.
HTTP-Antwortcodes, auch Statuscodes genannt, informieren den Googlebot über den Status einer angeforderten Ressource auf einem Webserver. Sie teilen mit, ob eine Anfrage erfolgreich war, ob eine Weiterleitung stattfindet oder ob ein Fehler aufgetreten ist. Korrekte HTTP-Antworten ermöglichen es Google, die Struktur und den Inhalt einer Website zu verstehen und zu indexieren.
Die Bedeutung der robots.txt-Datei kann in diesem Kontext nicht genug betont werden. Sie gibt an, welche Bereiche einer Website vom Crawlen ausgeschlossen werden sollen. Wenn der Googlebot jedoch eine Seite anfordert, ist es entscheidend, dass der Webserver einen passenden HTTP-Statuscode zurückgibt. Ist die Antwort unangemessen, kann dies zu Problemen führen, die von einer unvollständigen Indexierung bis hin zum vollständigen Ausschluss der Seite aus dem Google-Index reichen können.
Wie John Müller, ein bekannter Google-Mitarbeiter, auf LinkedIn berichtete, kann ein ungewöhnlicher HTTP-Statuscode, wie zum Beispiel 418 ("I'm a teapot"), der eigentlich ein Scherz aus dem Jahr 1998 ist und dazu diente, automatische Anfragen zu blockieren, ernsthafte Folgen haben. Technisch gesehen handelt es sich dabei um Cloaking, wenn dem Googlebot ein anderer Statuscode als den Nutzern präsentiert wird. Dies kann dazu führen, dass Google Schwierigkeiten beim Crawlen und Indexieren der Website hat, wie im Fall einer mobilen Website, die nicht im Google-Index erscheinen konnte, weil sie stets mit dem Status 418 antwortete.
Um derartige Probleme zu vermeiden, empfiehlt es sich, den HTTP-Status von URLs mit dem URL Inspection Tool in der Google Search Console zu prüfen. Dieses Tool ermöglicht es Webmastern, direktes Feedback über den Status einer URL aus Googles Sicht zu erhalten. Zudem ist es ratsam, die Crawling-Statistiken in der Search Console regelmäßig zu überwachen, um sicherzustellen, dass die Website ordnungsgemäß von Google gecrawlt wird.
Google selbst stellt klar, dass HTTP-Statuscodes wie 404 ("Not Found") und 403 ("Forbidden") nicht dazu verwendet werden sollten, die Crawlrate zu reduzieren. Es gibt effektivere Methoden, um das Crawling auf einer Website zu steuern, einschließlich der Einstellung der Crawlrate im Crawl Limiter Tool, das allerdings zum 8. Januar eingestellt wurde. Stattdessen führt Google neue Tools und Crawler ein, wie den Google-InspectionTool, der für das URL Inspection Tool und den Rich Results Test verwendet wird.
Die korrekte Verwendung von HTTP-Statuscodes ist also ein wesentlicher Bestandteil der Onsite-Optimierung und kann erheblichen Einfluss auf die Präsenz und Leistung einer Website in der Google-Suche haben. Es liegt im Interesse jedes Website-Betreibers, auf die korrekte Kommunikation mit dem Googlebot zu achten, um die bestmögliche Sichtbarkeit und Indexierung zu gewährleisten.
Abschließend lässt sich sagen, dass die Wechselwirkung zwischen HTTP-Antworten und Googlebot-Kommunikation ein komplexes, aber entscheidendes Feld im SEO-Bereich darstellt. Es bedarf einer fortlaufenden Aufmerksamkeit und Anpassung, um sicherzustellen, dass Websites den Richtlinien und Erwartungen von Google gerecht werden. Durch kontinuierliche Überwachung und Optimierung dieser Kommunikation können Website-Betreiber dazu beitragen, dass ihre Inhalte von Google richtig verstanden, gecrawlt und indexiert werden, was letztlich zu einer besseren Platzierung in den Suchergebnissen führt.