John Muellers robots.txt: Ein Rätsel in der Welt der Suchmaschinenoptimierung

March 14, 2024

Die seltsame Geschichte von John Muellers robots.txt-Datei In den unendlichen Weiten des Internets gibt es zahllose Dateien, die im Verborgenen ihre Arbeit verrichten. Eine davon ist die robots.txt-Datei, ein unscheinbarer Text, dessen Zweck es ist, Suchmaschinen zu steuern. Kürzlich zog eine solche Datei ausgerechnet von John Mueller, einem Google-Mitarbeiter und bekannten Namen in der SEO-Szene, besondere Aufmerksamkeit auf sich. Der Grund: Eigenartige Anweisungen und eine ungewöhnlich große Größe. Es begann auf Reddit, wo behauptet wurde, dass Muellers Blog vom Helpful Content System von Google getroffen und infolgedessen aus dem Index entfernt wurde. Bei genauerer Betrachtung des robots.txt seiner Seite stellte sich jedoch heraus, dass die Wahrheit weniger dramatisch war, aber dennoch bizarr. Ein erster ungewöhnlicher Punkt war der Eintrag „Disallow“ für die robots.txt selbst. Warum sollte jemand Suchmaschinen daran hindern wollen, gerade diese Datei zu crawlen? Die robots.txt von Mueller tat genau das – und mehr. Sie blockierte zudem alle Suchmaschinen davon, die Website und die robots.txt zu durchsuchen. Diese Blockierung könnte erklären, warum die Seite aus Googles Index entfernt wurde. Doch warum sie immer noch bei Bing gelistet war, blieb ein Rätsel. Adam Humphreys, ein Webentwickler und SEO, vermutete, dass Bingbot vielleicht nicht auf Muellers Seite war, weil sie größtenteils inaktiv ist. Bing könnte die Anweisungen in der robots.txt auch einfach ignoriert haben, da sie möglicherweise falsch implementiert waren. In der Tat wurde die robots.txt zuletzt zwischen Juli und November 2023 aktualisiert, und es ist möglich, dass Bingbot die neueste Version der Datei noch nicht gesichtet hat. Dies würde Sinn ergeben, da Microsofts IndexNow-System auf effizientes Crawling ausgerichtet ist. Eine der von Muellers robots.txt blockierten Verzeichnisse ist /nofollow/, was für einen Ordner ein ungewöhnlicher Name ist. Abgesehen von einigen Navigationslinks gab es auf dieser Seite nichts außer dem Wort „Redirector“. Ein Test bestätigte, dass die robots.txt tatsächlich den Zugriff auf diese Seite blockierte, und Googles Rich Results-Tester konnte die /nofollow/-Webseite nicht crawlen. Mueller selbst nahm die Aufmerksamkeit um seine robots.txt mit einem gewissen Humor und erklärte auf LinkedIn, was es damit auf sich hatte. Er wies darauf hin, dass das Format und die Größe der Datei beabsichtigt waren und dass Crawler damit umgehen können sollten, wenn sie den RFC9309 befolgen. Die Disallow-Anweisung für /robots.txt sollte verhindern, dass die Datei als HTML-Datei indexiert wird, und die Größe der Datei ergab sich aus Tests verschiedener robots.txt-Testwerkzeuge, an denen sein Team gearbeitet hatte. Die robots.txt enthielt insgesamt 22.433 Disallow-Einträge, und Mueller fügte darüber hinaus eine „Disallow: /“-Anweisung hinzu, in der Hoffnung, dass dies als generelles Verbot aufgefasst wird. Es bleibt jedoch unklar, was genau diese Anweisung bewirken sollte, und ob Suchmaschinen sie wie beabsichtigt interpretieren. So bleibt die robots.txt von John Mueller letztlich ein kurioses Beispiel dafür, wie technische Details und SEO-Praktiken für Verwirrung und Faszination sorgen können, selbst oder gerade wenn sie von einem Google-Mitarbeiter stammen. Es zeigt auch, wie Suchmaschinen unterschiedlich auf scheinbar klare Anweisungen reagieren können und dass die Welt des SEOs immer wieder für Überraschungen gut ist. Trotz der unerwarteten Aufmerksamkeit, die seine robots.txt-Datei erregte, scheint Mueller gelassen zu bleiben. Mit einem Augenzwinkern lud er die Community ein, seine Datei in Ruhe zu lassen und stattdessen eigene Web-Kuriositäten zu teilen. So endet die Geschichte von einer Datei, die eigentlich im Verborgenen arbeiten sollte, aber unerwartet ins Rampenlicht trat – und uns alle daran erinnerte, dass auch in den Tiefen einer technischen SEO-Welt immer noch Raum für kleine Geheimnisse und menschliche Faszination ist.