Suchmaschinen und SEO im Wandel: Die Rolle von Googlebot und IP-Adressenaktualisierungen
April 25, 2024

In den letzten Jahren hat sich die digitale Landschaft enorm weiterentwickelt, und Suchmaschinen spielen dabei eine zentrale Rolle. Bei der Arbeit an der Suchmaschinenoptimierung (SEO) müssen Webmaster und SEO-Experten stets auf dem neuesten Stand bleiben, was Änderungen in den Algorithmen und den technischen Aspekten von Suchmaschinen wie Google betrifft. Ein wichtiger Aspekt dabei ist das Verständnis und die Überwachung der Aktivitäten von Webcrawlern, insbesondere des Googlebots. In diesem Zusammenhang hat Google kürzlich eine bedeutende Aktualisierung an seiner Dokumentation vorgenommen, indem eine neue Liste von IP-Adressen veröffentlicht wurde, die von Googlebot und anderen Google-Crawlern verwendet werden.
Googlebot und andere Crawler: Eine Einführung
Der Googlebot ist der Webcrawler von Google, der für das Durchsuchen und Indizieren von Webseiten verantwortlich ist, damit diese in den Suchergebnissen von Google erscheinen können. Neben dem Hauptcrawler Googlebot gibt es eine Reihe von speziellen Crawlern, die für bestimmte Funktionen zuständig sind, wie beispielsweise der AdsBot für AdWords-Anzeigen. Darüber hinaus gibt es sogenannte "user-triggered fetchers", bei denen Nutzeraktionen, wie etwa das Verifizieren einer Webseite mit dem Google Site Verifier, einen Crawl auslösen.
Die Bedeutung der IP-Adressen für Webmaster
Für Webmaster und SEO-Experten ist es wichtig zu wissen, welche IP-Adressen tatsächlich zu Google gehören, um sicherzustellen, dass ihre Websites korrekt gecrawlt werden und um zu verhindern, dass bösartige Bots, die sich als Google ausgeben, Zugang erhalten. Indem sie die IP-Adressen von Googlebot und anderen Google-Crawlern überprüfen, können sie den Datenverkehr auf ihrer Seite besser steuern und sicherstellen, dass ihre Inhalte korrekt von Google erfasst werden.
Die neue Liste von Google: Was hat sich geändert?
In der aktualisierten Dokumentation führt Google zwei Arten von IP-Adressbereichen auf:
1. IP-Bereiche, die von Nutzern ausgelöst, aber von Google kontrolliert werden und zu einem Hostnamen von Google.com aufgelöst werden. Diese umfassen Tools wie den Google Site Verifier und wahrscheinlich auch das Tool zum Testen von Rich Results.
2. IP-Bereiche, die von Nutzern ausgelöst, aber nicht von Google kontrolliert werden und zu einem Hostnamen von gae.googleusercontent.com aufgelöst werden. Diese werden beispielsweise von Apps genutzt, die in der Google Cloud laufen oder von App-Scripts, die aus Google Sheets heraus aufgerufen werden.
Die Listen, die den jeweiligen Kategorien entsprechen, haben sich nun geändert. Früher entsprach die Liste der Google-IP-Adressen der Datei "special-crawlers.json" (die zu gae.googleusercontent.com aufgelöst wurde). Jetzt entspricht die "special crawlers"-Liste den Crawlern, die nicht von Google kontrolliert werden.
Die neue Liste, die den von Google kontrollierten Crawlern entspricht, ist "user-triggered-fetchers-google.json". Diese enthält IP-Bereiche, die schon lange in Gebrauch sind. Für Webmaster, die Crawling-Aktivitäten genau überwachen möchten, ist diese Unterscheidung von großer Bedeutung.
Zusätzlich hat Google einen neuen Abschnitt in der Dokumentation hinzugefügt, der erklärt, was es mit der neuen Liste auf sich hat. Dabei wird betont, dass die Fetcher, die von Google gesteuert werden, von IPs im "user-triggered-fetchers-google.json" Objekt stammen und zu einem Hostnamen von google.com aufgelöst werden. IPs im "user-triggered-fetchers.json" Objekt lösen zu gae.googleusercontent.com Hostnamen auf und werden beispielsweise verwendet, wenn eine auf Google Cloud laufende Website eine Funktion hat, die das Abrufen externer RSS-Feeds auf Anfrage des Nutzers dieser Website erfordert.
Die Listen der IP-Adressen von Google Cloud und App-Crawlern, die Google nicht kontrolliert, sowie die Liste der IP-Adressen von Google, die von Nutzern ausgelöst und von Google kontrolliert werden, sind nun öffentlich zugänglich und können über die oben genannten URLs abgerufen werden.
Was bedeutet das für die Praxis?
Diese Änderung ist besonders relevant für Verlage und Website-Betreiber, die bestimmte IP-Adressen auf einer Whitelist führen, um sicherzustellen, dass ihr Content korrekt von Google erfasst wird. Ebenso kann die neue Liste dabei helfen, Scrapers und andere unerwünschte Crawler zu blockieren, die möglicherweise Google's Cloud-Dienste nutzen.
Die Veröffentlichung der neuen IP-Adressliste durch Google ist ein weiterer Schritt in Richtung Transparenz und Unterstützung für Webmaster und SEO-Experten. Es ermöglicht eine genauere Steuerung des Crawling-Verkehrs und trägt dazu bei, das Potenzial für Missbrauch zu verringern. Mit diesen Informationen ausgestattet, können Website-Betreiber besser entscheiden, welchen Traffic sie zulassen und welchen sie blockieren möchten.
Zusammengefasst bietet die aktuelle Aktualisierung der Google Crawler-Dokumentation eine wichtige Ressource für alle, die sich mit der Optimierung und Sicherheit von Websites beschäftigen. Es verdeutlicht, dass die effektive Nutzung von SEO-Strategien eine kontinuierliche Anpassung an die sich wandelnden Gegebenheiten des digitalen Ökosystems erfordert.