Der vollständige Leitfaden zu robots.txt: Regeln, Beispiele und KI Crawler

Wenn eine Suchmaschine oder ein KI Modell Ihre Website besucht, ist die erste Datei, die es abruft, robots.txt. Dieses kleine Textdokument im Stammverzeichnis Ihrer Domain teilt Crawlern mit, welche Teile Ihrer Seite sie abrufen dürfen und welche sie überspringen sollen. Die Datei existiert seit 1994, doch mit dem Aufkommen von KI Crawlern wie GPTBot, ClaudeBot und PerplexityBot hat sie neues Gewicht erhalten. Dieser Leitfaden behandelt die Syntax, typische Muster, den Umgang mit KI Crawlern und die Fehler, die die Datei still und leise unbrauchbar machen.

Was robots.txt ist und was sie nicht kann

Eine robots.txt Datei ist ein einfaches Textdokument, ausgeliefert unter https://ihredomain.de/robots.txt. Besucht ein Crawler die Seite zum ersten Mal in einer Sitzung, ruft er diese Datei ab, bevor er irgendetwas anderes anfasst. Die Datei listet Regeln auf wie “dieses Verzeichnis überspringen” oder “diesen Pfad nicht besuchen”. Crawler, die das Robots Exclusion Protocol befolgen, lesen die Datei und passen ihr Verhalten an.

Das Schlüsselwort in diesem Satz lautet befolgen. robots.txt ist ein Höflichkeitsmechanismus, kein Sicherheitsmechanismus. Gut gesittete Crawler von Google, Bing, OpenAI und Anthropic lesen die Datei und respektieren die Regeln. Bösartige Scraper ignorieren sie vollständig. Wenn Sie private Daten unter einer URL halten, verbirgt Disallow diese URL nicht. Sie bleibt öffentlich. Jeder, der den Pfad kennt, kann sie im Browser öffnen.

Ein zweites, verbreitetes Missverständnis besagt, dass robots.txt die Indexierung verhindert. Das tut sie nicht. Sie verhindert das Crawlen. Kann Googlebot eine Seite nicht crawlen, weil sie gesperrt ist, findet aber die URL über externe Links, kann Google die URL dennoch in den Suchergebnissen anzeigen, oft mit dem Hinweis “Für diese Seite sind keine Informationen verfügbar”. Um die Indexierung zu unterbinden, benötigen Sie eine noindex Anweisung in einem Meta Tag oder HTTP Header, die der Bot aber nur sehen kann, wenn er die Seite crawlen darf.

Ein dritter Punkt verdient Klärung: robots.txt ersetzt keine XML Sitemap. Sie kann auf eine verweisen, aber beide Dateien erfüllen unterschiedliche Aufgaben. robots.txt geht es um Ausschluss, einer Sitemap um Entdeckung.

Warum also robots.txt überhaupt verwenden? Weil sie für die gutmütige Mehrheit des sinnvollen Traffics klare, explizite Kontrolle bietet. Sie spart Crawl Budget auf großen Seiten, indem sie Bots von endlosen URL Räumen wie Facettennavigation oder Suchergebnisseiten fernhält. Sie verrät Google, wo die Sitemap zu finden ist. Und seit 2024 ist sie das wichtigste Werkzeug geworden, mit dem Seitenbetreiber KI Crawlern Zustimmung oder Ablehnung signalisieren.

Die Syntax auf einer Seite

Vier Mosaiktafeln zeigen die vier wichtigsten robots.txt Direktiven: User Agent, Disallow, Allow und Sitemap

Die Syntax hat vier Direktiven, die fast jeden realen Einsatzfall abdecken: User-agent, Disallow, Allow und Sitemap.

Eine minimal gültige Datei sieht so aus:

User-agent: *
Disallow: /admin/
Allow: /admin/public/

User-agent: Googlebot
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

Die Datei ist in Gruppen organisiert. Eine Gruppe beginnt mit einer oder mehreren User-agent Zeilen und endet bei der nächsten Gruppe oder am Ende der Datei. Das Platzhaltersymbol * trifft auf jeden Crawler zu, der nicht an anderer Stelle genannt wird. Benannte User Agents bekommen ihre eigene Gruppe.

Disallow ist ein Pfad Präfix Abgleich. Disallow: /admin/ sperrt jede URL, die mit /admin/ beginnt. Disallow: / sperrt die gesamte Seite für den jeweiligen User Agent. Ein leeres Disallow: entspricht einer Erlaubnis für alles.

Allow ist die Ausnahme zu einer Disallow Regel. Sie können damit ein Unterverzeichnis innerhalb eines gesperrten übergeordneten Pfads freigeben. Geraten Disallow und Allow in Konflikt, wenden die meisten modernen Crawler die längste, spezifischste Übereinstimmung an. Ältere RFC Parser nahmen den ersten Treffer, also setzen Sie die spezifischere Regel nach oben, wenn Sie ältere Clients ansprechen.

Zwei Platzhalter sind weit verbreitet: * passt auf jede Zeichenfolge in einem Pfad, $ verankert das Ende einer URL. Beispielsweise sperrt Disallow: /*.pdf$ jede URL, die auf .pdf endet.

Einige Regeln vergisst fast jede und jeder:

User-agent Abgleich ist nicht groß und kleinschreibungssensitiv. Googlebot und googlebot verweisen auf denselben Bot.
Pfadabgleich ist groß und kleinschreibungssensitiv. /Admin/ und /admin/ sind verschiedene Pfade.
Sitemap Direktiven stehen außerhalb jeder Gruppe. Mehrere Sitemap Zeilen sind erlaubt, eine pro Zeile, mit absoluten URLs.
Kommentare beginnen mit # und laufen bis zum Zeilenende.

Wenn Sie die vollständige Spezifikation benötigen, ist die robots.txt Einführung der Google Search Central die zugänglichste Referenz, und die IETF RFC 9309 Spezifikation das offizielle Protokolldokument.

Muster, die echte Probleme lösen

Fünf Muster decken etwa 90 Prozent der realen Anwendungsfälle ab.

Interne Werkzeuge vor allen Bots sperren. Admin Oberflächen, Dashboards und interne APIs sollten nicht gecrawlt werden. Diese URLs liefern oft noindex HTML, aber sie auch aus dem Crawl Budget zu halten ist sauberer.

User-agent: *
Disallow: /admin/
Disallow: /dashboard/
Disallow: /api/

Interne Suchergebnisseiten sperren. Suchanfragen erzeugen nahezu unendlich viele URL Varianten. Crawler darüber laufen zu lassen verschwendet Crawl Budget und produziert niedrigwertige Seiten in den Suchergebnissen.

User-agent: *
Disallow: /search
Disallow: /*?q=

Facettennavigation kontrollieren. Online Shops mit Farb, Größen und Marken Filtern können in Millionen von Parameterkombinationen explodieren. Sperren Sie die Parametermuster, die keinen SEO Wert haben. Mehr dazu in unserem Beitrag über das Crawl Budget und wann Parameter URLs eingeschränkt werden sollten.

User-agent: *
Disallow: /*?color=
Disallow: /*?sort=
Disallow: /*?view=

Staging Subdomains mit Bedacht behandeln. Eine live geschaltete robots.txt, die alles sperrt, ist ein gängiger Weg, Staging zu isolieren. Das Risiko: Dieselbe Datei landet versehentlich in der Produktion. Sicherer sind HTTP Basic Auth oder IP Allowlists auf dem Staging Server. Wenn Sie trotzdem robots.txt nutzen müssen:

# staging.example.com/robots.txt
User-agent: *
Disallow: /

Denken Sie nur daran, diese Datei zu ersetzen, bevor die Seite live geht. Viele Teams haben wochenlang Traffic an diese eine Zeile verloren.

Crawler zu Ihrer Sitemap führen. Eine Zeile am Ende der Datei erspart jedem gutartigen Bot einen Umweg.

Sitemap: https://example.com/sitemap.xml

Wenn Sie mehrere Sitemaps pflegen, listen Sie jede einzelne auf. Die komplette Entdeckungskette von robots.txt über die Sitemap Index Datei bis zu den einzelnen Sitemap Dateien wird im vollständigen Leitfaden zu SEO Crawlern vertieft.

KI Crawler: GPTBot, ClaudeBot und die Entscheidung zwischen Sperre und Freigabe

Eine Mosaikszene mit drei Crawler Figuren vor einem antiken Tor, eine geht hindurch während eine andere umkehrt

Seit 2026 besucht eine neue Klasse von Crawlern Ihre Seite. Sie indexieren nicht für eine klassische Suchmaschine. Sie sammeln Inhalte für große Sprachmodelle, die Fragen direkt beantworten. Ob Sie dies wünschen, ist eine redaktionelle Entscheidung, und robots.txt ist der Ort, an dem Sie sie ausdrücken.

Die wichtigsten KI Bots im Überblick:

Bot	Unternehmen	Zweck
`GPTBot`	OpenAI	Trainingsdaten für ChatGPT
`OAI-SearchBot`	OpenAI	Suchergebnisse in ChatGPT
`ChatGPT-User`	OpenAI	Durch Nutzer ausgelöste Abrufe in ChatGPT
`ClaudeBot`	Anthropic	Training und Suche für Claude
`Claude-Web`	Anthropic	Durch Nutzer ausgelöste Abrufe in Claude
`PerplexityBot`	Perplexity	Suchindex für Perplexity Antworten
`Perplexity-User`	Perplexity	Durch Nutzer ausgelöste Abrufe
`Google-Extended`	Google	Training für Gemini (getrennt von Googlebot)
`CCBot`	Common Crawl	Offenes Webarchiv, das viele KI Modelle nutzen
`Amazonbot`	Amazon	Training für Amazon KI Produkte
`Bytespider`	ByteDance	Training für ByteDance Modelle
`Applebot-Extended`	Apple	Training für Apple Intelligence

Die Entscheidung zwischen Sperre und Freigabe hängt davon ab, was Sie optimieren.

Alle KI Trainingsbots sperren, wenn Ihre Inhalte kommerziellen oder lizenzrechtlichen Wert haben oder wenn Sie schlicht nicht zum Modelltraining beitragen möchten. Ein verbreitetes Muster:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

KI Suche erlauben, Training sperren. Einige Bots dienen der Echtzeit Antwortgenerierung, nicht dem Aufbau von Trainingsdatensätzen. Wenn Sie in ChatGPT Search oder Perplexity Antworten erscheinen möchten, aber nicht in Trainingsdaten, erlauben Sie die suchorientierten Bots und sperren Sie die Trainingsbots:

# KI Suche erlauben
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Perplexity-User
Allow: /

# KI Training sperren
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Alles erlauben, wenn Ihre Inhaltsstrategie auf maximale Sichtbarkeit sowohl in der klassischen Suche als auch in KI Antworten setzt. Das ist zunehmend die Wahl von Verlagen, SaaS Marketing Seiten und Dokumentationen. Die Überlegung ist unkompliziert: KI Suche ist ein wachsender Kanal, und Zitate in KI Antworten bringen qualifizierten Traffic. Der Kompromiss besteht darin, dass Ihre Inhalte Teil des Wissens werden, das diese Modelle mit oder ohne Quellenangabe ausgeben.

Seodisias prüft Ihre Seite gegen 14 bekannte KI Bots als Teil der KI Readiness Analyse, sodass Sie sehen, welche Sie freigegeben, welche gesperrt und an welchen Stellen Ihre robots.txt schweigt (was implizit als Freigabe gilt). Das größere Bild, für KI Suche zu optimieren, behandelt das Playbook zur Generative Engine Optimization.

Eine Nuance, die es wert ist, erwähnt zu werden: Manche dieser Bots werden in Request Headern identifiziert, lassen sich aber nicht immer über User-agent Namen in robots.txt ansprechen. robots.txt funktioniert nur für Bots, die sich selbst zu erkennen geben und das Protokoll respektieren. Ein Bot, der scrapen will, wird scrapen. Das Ziel hier ist, die gutartige Mehrheit zu steuern, nicht eine Festung zu bauen. Für die autoritativen Bot Namen und Verhaltensweisen lohnt sich ein Blick in die Dokumentation der Hersteller, etwa die GPTBot Seite von OpenAI und die Claude Crawler Referenz von Anthropic.

Validierung und typische Fehler

Eine fehlerhafte robots.txt scheitert oft lautlos. Die Datei wird weiterhin ausgeliefert, Bots lesen sie weiter, aber ein einziger Tippfehler kann die gesamte Bedeutung verändern. Ein paar Werkzeuge und Gewohnheiten verringern das Risiko.

Testen Sie Ihre Datei, bevor Sie ihr vertrauen.

Die Google Search Console hatte früher einen eigenen robots.txt Tester. Das heutige Äquivalent ist die URL Inspection, die zeigt, wie Googlebot die Regeln für eine bestimmte URL auf Ihrer Seite liest und anwendet.
Öffentliche Validatoren wie der unter technicalseo.com/tools/robots-txt zerlegen die Datei und markieren Syntaxfehler.
Für schnelle Checks genügt curl https://ihredomain.de/robots.txt, um zu bestätigen, dass die Datei ausgeliefert wird und HTTP 200 zurückgibt.

Auf diese typischen Fehler achten:

Versehentlich die gesamte Seite sperren. Ein einzelnes Disallow: / unter User-agent: * entfernt jede Seite aus jedem ehrlichen Bot. Das passiert meist, wenn eine Staging Datei in die Produktion rutscht.
CSS und JavaScript sperren. Moderne Crawler, darunter Googlebot, rendern Seiten. Sperren Sie /static/, /assets/ oder /js/, sieht der Renderer eine kaputte Seite und kann das Ranking abstrafen.
Groß und Kleinschreibung bei Pfaden. Disallow: /Admin/ sperrt nicht /admin/. Passen Sie die Schreibweise Ihren tatsächlichen URLs an.
Fehlender abschließender Schrägstrich. Disallow: /private sperrt /private, /private/page und auch /private-stuff. Disallow: /private/ ist gezielter und sperrt nur Pfade unterhalb des Verzeichnisses /private/.
Platzhalter an der falschen Stelle. Disallow: /*.pdf sperrt jede URL, die .pdf enthält, was fast nie gemeint ist. Disallow: /*.pdf$ sperrt URLs, die auf .pdf enden, und das ist meist das Ziel.
Syntax, die korrekt aussieht, es aber nicht ist. Ein zusätzliches Leerzeichen vor dem Doppelpunkt, ein typographisches Anführungszeichen aus einem Dokument, ein falscher Zeilenumbruch auf Windows. Jede dieser Kleinigkeiten kann dazu führen, dass Parser eine ganze Gruppe überspringen. Schreiben Sie robots.txt immer in einem einfachen Texteditor.
Die Sitemap Direktive vergessen. Diese Zeile auszulassen ist kein Fehler, aber eine verpasste Gelegenheit. Bots finden Sitemaps auch anders, doch sie in robots.txt zu listen ist der schnellste Weg.

Eine gute Gewohnheit ist, nach jeder Änderung an robots.txt das komplette Site Audit erneut zu laufen lassen und zu prüfen, ob der Ausschluss eines Bereichs keine unerwünschten Nebenwirkungen nach sich gezogen hat.

Fazit

robots.txt ist die kleinste Datei auf Ihrer Seite mit dem größten Potenzial, darüber zu entscheiden, wie Suchmaschinen und KI Modelle Sie sehen. Sie ist eine Zeile davon entfernt, einen kritischen Bereich zu sperren, eine Direktive davon entfernt, jeden Trainingscrawler willkommen zu heißen, und einen Tippfehler davon entfernt, Ihre SEO still und heimlich rückgängig zu machen. Die Gewohnheit, die Sie schützt, ist einfach: sorgsam bearbeiten, mit einem Werkzeug validieren und nach jeder Änderung den Effekt auf die gesamte Seite prüfen. Wenn Sie dieses Audit automatisieren und auf einen Blick sehen möchten, welche der 14 wichtigsten KI Bots Sie erlaubt oder gesperrt haben, laden Sie Seodisias herunter und führen Sie einen Crawl auf Ihrer eigenen Maschine aus. Keine Anmeldung, kein Upload, alle Daten bleiben bei Ihnen.

Der vollständige Leitfaden zu robots.txt: Regeln, Beispiele und KI Crawler

Was robots.txt ist und was sie nicht kann

Die Syntax auf einer Seite

Muster, die echte Probleme lösen

KI Crawler: GPTBot, ClaudeBot und die Entscheidung zwischen Sperre und Freigabe

Validierung und typische Fehler

Fazit

Ähnliche Beiträge

llms.txt: Lesen KI-Engines die Datei überhaupt?

Generative Engine Optimization (GEO): wie Sie gleichzeitig in KI Suche und Google ranken

Die besten SEO Crawler 2026: kostenlos, Open Source und kommerzielle Tools im Vergleich