Google aktualisiert Crawler-Dokumentation mit neuen IP-Adressenlisten
April 25, 2024

Google hat kürzlich seine Dokumentation für Googlebot und andere Crawler aktualisiert, um eine Reihe von IP-Adressen für Bots hinzuzufügen, die von Nutzern von Google-Produkten ausgelöst werden. Dies ist ein wichtiger Schritt für Verleger und Webmaster, die Google-kontrollierte IP-Adressen auf ihre Whitelist setzen möchten, sowie für solche, die Scraping-Bots blockieren möchten, die Googles Cloud-Dienste und andere nicht direkt mit Google verbundene Crawler nutzen.
Die Veröffentlichung einer neuen Liste von IP-Adressen stellt eine wichtige Entwicklung dar, da sie eine Unterscheidung zwischen zwei Arten von IP-Adressbereichen ermöglicht: solche, die von Nutzern initiiert, aber von Google kontrolliert werden und zu einem Google.com-Hostname auflösen, und solche, die von Nutzern initiiert, aber nicht von Google kontrolliert werden und zu einem gae.googleusercontent.com-Hostname auflösen.
Die IP-Bereiche, die von Nutzern ausgelöst, aber von Google kontrolliert werden, umfassen Tools wie den Google Site Verifier und vermutlich das Rich Results Test Tool. Diese Werkzeuge ignorieren die Regeln von robots.txt, da die Fetch-Vorgänge auf Anfrage eines Nutzers erfolgen. Die neuen Listen, die den einzelnen Kategorien entsprechen, sind nun unterschiedlich.
Früher entsprach die Liste, die Google-IP-Adressen zugeordnet war, der Datei special-crawlers.json, die zu gae.googleusercontent.com aufgelöst wurde. Jetzt entspricht die Liste „special crawlers“ den Crawlern, die nicht von Google kontrolliert werden.
Die neue Liste, die Google-kontrollierten Crawlern entspricht, ist die Datei user-triggered-fetchers-google.json. Diese Liste enthält IP-Bereiche, die schon lange in Gebrauch sind und daher keine neuen IP-Adressbereiche darstellen.
Die IP-Adressen von Google Cloud und App-Crawlern, die nicht von Google kontrolliert werden, finden sich hier:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers.json
Die Liste der IP-Adressen von Google, die von Nutzern ausgelöst und von Google kontrolliert werden, finden Sie hier:
https://developers.google.com/static/search/apis/ipranges/user-triggered-fetchers-google.json
Es gibt auch einen neuen Abschnitt in der Dokumentation, der erklärt, worum es bei der neuen Liste geht. Diese Informationen sind besonders nützlich für Webseitenbetreiber, die auf Google Cloud (GCP) laufen und Funktionen haben, die das Abrufen externer RSS-Feeds auf Anfrage des Nutzers der Webseite erfordern.
Google hat auch einen Changelog bereitgestellt, der die Änderungen erläutert. Darin heißt es, dass eine zusätzliche Reihe von IP-Adressen für von Google-Produkten gesteuerte Fetcher exportiert wurde und warum dies jetzt technisch möglich ist.
Für diejenigen, die eine manuelle Überprüfung von Google-Crawlern durchführen möchten, bietet Google Anleitungen, wie man mit Command-Line-Tools oder automatischen Lösungen vorgeht. Die manuelle Methode beinhaltet eine Reverse-DNS-Abfrage der zugreifenden IP-Adresse aus den Logs, um zu überprüfen, ob sie zu einem Googlebot.com, google.com oder googleusercontent.com Domainnamen aufgelöst wird. Die automatische Methode erfordert den Abgleich der IP-Adresse des Crawlers mit der Liste der veröffentlichten Googlebot-IP-Adressen.
Die Aktualisierung und Veröffentlichung dieser Listen ist ein klares Zeichen dafür, dass Google Transparenz und Sicherheit für Webmaster und Verleger weiterhin verbessern möchte. Es ist auch ein Hinweis auf die fortwährende Komplexität des Internets und der damit verbundenen Herausforderungen bei der Verwaltung und Sicherung von Webinhalten. Mit diesen Informationen können Eigentümer von Webseiten besser kontrollieren, welche Bots Zugriff auf ihre Seiten haben, und somit ihre Ressourcen effektiver schützen und optimieren.