Zurück zu allen Beiträgen
guides 13 min read

llms.txt: Lesen KI-Engines die Datei überhaupt?

Ali Gundogdu ·
llms.txt: Lesen KI-Engines die Datei überhaupt?

Alle paar Monate taucht im Wurzelverzeichnis von Websites eine neue Datei auf, die verspricht, das Lesen des Webs durch Maschinen zu reparieren. Die neueste heißt llms.txt. Die Idee ist einfach und verlockend: Legen Sie unter ihredomain.de/llms.txt eine Markdown-Datei ab, listen Sie Ihre wichtigsten Seiten in sauberer, zusammengefasster Form auf, und KI-Modelle nutzen sie, um Ihre Website zu verstehen. Kein Rätselraten mehr, ob ChatGPT oder Claude Ihre Navigation richtig erfasst hat. Sie reichen ihnen eine kuratierte Karte.

Auf dem Papier ist das eine gute Idee. Das Problem ist die Lücke zwischen Vorschlag und Realität. Stand 2026 gibt es keinen öffentlichen Beleg dafür, dass eine große KI-Engine llms.txt beim Crawlen abruft. Die Unternehmen hinter ChatGPT, Claude, Gemini und Perplexity haben keine Unterstützung angekündigt. Server-Logs von Websites, die die Datei hinzugefügt haben, zeigen in vielen Fällen null Zugriffe durch KI-Bots. Dieser Leitfaden geht durch, was llms.txt zu leisten verspricht, woher die Idee kommt, ob die großen Modelle sie lesen, was die Server-Log-Belege tatsächlich zeigen, warum manche die Datei trotzdem hinzufügen und worauf KI-Engines wirklich zurückgreifen, wenn sie Ihre Website zitieren.

Was llms.txt zu leisten verspricht

Der llms.txt-Vorschlag bittet Website-Betreiber, eine Markdown-Datei im Wurzelverzeichnis zu veröffentlichen. Das Format ist locker, aber konventionell: eine H1 mit dem Namen der Website oder des Projekts, eine kurze Zusammenfassung als Blockzitat, dann Abschnitte mit Links zu wichtigen Seiten, jeder Link optional mit einer einzeiligen Beschreibung. Eine begleitende Konvention, llms-full.txt, enthält den tatsächlichen ausführlichen Inhalt statt nur der Links.

Der erklärte Zweck ist, großen Sprachmodellen eine saubere, rauscharme Version einer Website zu geben. Eine normale Webseite ist umhüllt von Navigation, Werbung, Cookie-Bannern, Skripten und Boilerplate. Ein LLM mit begrenztem Kontextfenster muss sich durch all das wühlen, um den Kern zu finden. llms.txt, so das Argument, ist der Kern ohne die Hülle: hier sind die Seiten, auf die es ankommt, hier ist, worum es bei jeder geht, hier ist der kanonische Text, wenn Sie ihn wollen.

Dahinter steckt ein echtes Problem. Kontextfenster sind endlich. HTML zu rendern und zu bereinigen ist teuer. Ein kuratierter Index würde dem Modell im Prinzip helfen, sein Budget für das Signal statt für das Markup auszugeben. Der Vorschlag löst kein Scheinproblem. Er schlägt eine Lösung vor, die diejenigen, die sie umsetzen müssten, bisher nicht übernommen haben.

Es lohnt sich, genau zu sein, was llms.txt nicht ist. Es ist nicht Teil des Robots Exclusion Protocol. Es blockiert und erlaubt nichts. Es ist nicht robots.txt für KI. Es beeinflusst nicht die Sammlung von Trainingsdaten. Es ist reine Hinweisdatei, und ein Hinweis funktioniert nur, wenn der Empfänger zuhört.

Woher die Idee kommt

Der llms.txt-Vorschlag wurde im September 2024 von Jeremy Howard veröffentlicht, Mitgründer von Answer.AI und fast.ai und eine bekannte Figur in der Machine-Learning-Gemeinschaft. Die Vorschlagsseite, llmstxt.org, legt das Format und die Begründung dar. Howards Rahmung war pragmatisch: LLMs werden immer häufiger genutzt, um Websites zu lesen und zu verarbeiten, das Web ist für Browser gebaut, nicht für Modelle, also sollen Website-Betreiber eine modellfreundliche Version anbieten können.

Die Idee verbreitete sich schnell durch Entwickler-Tools. Dokumentationsplattformen wie Mintlify fügten eine automatische llms.txt-Erzeugung hinzu. Frameworks und Static-Site-Generatoren lieferten Plugins. Innerhalb von Monaten fand man llms.txt-Dateien auf den Doku-Seiten großer Entwicklerprodukte. Ein Verzeichnis von Websites mit der Datei entstand. In der Tooling-Schicht hatte die Konvention fast sofort Schwung.

Was sie in den folgenden Monaten nicht bekam, war die Übernahme durch die Verbraucher, für die sie gedacht war. OpenAI, Anthropic, Google und Perplexity kündigten nicht an, dass ihre Crawler oder Retrieval-Systeme llms.txt abrufen. Keine Dokumentation dieser Unternehmen verweist darauf. Der Vorschlag existiert, die Dateien existieren, die Tools existieren. Das Leseende der Leitung ist der Teil, der sich nicht verbunden hat.

Das ist für Webstandards nicht ungewöhnlich. robots.txt brauchte Jahre, um universell zu werden. Schema.org brauchte Google, Bing, Yahoo und Yandex, die gemeinsam dahinterstanden, bevor es zählte. Ein Dateiformat, das eine einzelne Person vorschlägt, so geschätzt sie auch sei, wird erst dann bedeutsam, wenn die großen Plattformen beschließen, es zu beachten. Bei llms.txt haben sie das bisher nicht gesagt.

Lesen die großen Modelle die Datei wirklich?

Vier Röhrenmonitor-Terminals, jedes mit einer Statuszeile dazu, ob eine KI-Engine llms.txt abruft, im Risograph-Retro-Stil

So sieht die Lage Stand 2026 aus, Engine für Engine. Die ehrliche Antwort lautet für jede von ihnen in irgendeiner Form “keine bestätigte Unterstützung”.

EngineCrawlerRuft llms.txt ab?Anmerkungen
ChatGPT (OpenAI)GPTBot, OAI-SearchBot, ChatGPT-UserKeine bestätigte UnterstützungDie Bot-Doku von OpenAI beschreibt den Umgang mit robots.txt, nicht mit llms.txt. Keine Aussage, dass das Retrieval die Datei liest.
Claude (Anthropic)ClaudeBot, Claude-UserKeine bestätigte UnterstützungDie Crawler-Dokumentation von Anthropic verweist auf robots.txt. Keine Erwähnung von llms.txt.
Gemini (Google)Googlebot, Google-ExtendedKeine bestätigte UnterstützungGoogle-Vertreter haben öffentlich gesagt, dass Google llms.txt nicht nutzt. Suche und AI Overviews stützen sich auf den normalen Crawl.
PerplexityPerplexityBot, Perplexity-UserKeine bestätigte UnterstützungPerplexity dokumentiert das Verhalten bei robots.txt. Keine Unterstützung für llms.txt angekündigt.
Copilot (Microsoft)BingbotKeine bestätigte UnterstützungDie Crawling-Doku von Bing erwähnt llms.txt nicht.

Ein paar Klarstellungen, weil diese Tabelle oft falsch gelesen wird.

Erstens: “Keine bestätigte Unterstützung” ist nicht dasselbe wie “die Datei ist verboten”. Es passiert nichts Schlimmes, wenn Sie llms.txt veröffentlichen. Sie liegt einfach da.

Zweitens: Ein KI-Agent, der im Auftrag eines Nutzers handelt, ist ein anderer Fall als ein Crawler, der einen Index aufbaut. Wenn Sie ChatGPT oder Claude sagen “lies ihredomain.de/llms.txt und fasse sie zusammen”, ruft das Tool genau diese URL ab, weil Sie es darum gebeten haben, genauso wie es jede URL abrufen würde, die Sie nennen. Das ist nicht das Modell, das die Datei von sich aus entdeckt und bevorzugt. Es ist das Modell, das einer ausdrücklichen Anweisung folgt. Manche führen dieses Verhalten als Beweis dafür an, dass “Claude llms.txt liest”. Es ist ein Beweis dafür, dass Claude eine URL abrufen kann, die Sie ihm reichen, was nie in Zweifel stand.

Drittens war Google am deutlichsten. Google-Vertreter haben erklärt, dass Google llms.txt nicht nutzt und es nicht plant. Für eine Suchmaschine, die zugleich die meistgenutzte KI-Antwortoberfläche betreibt, ist das ein starkes Signal dafür, wo das Format steht.

Was die Server-Logs zeigen

Der sauberste Test, ob KI-Engines llms.txt lesen, ist: die Datei hinzufügen, warten und nachsehen, wer sie abgerufen hat. Mehrere Website-Betreiber haben genau das getan und die Ergebnisse veröffentlicht. Das Muster ist beständig und für das Format wenig schmeichelhaft.

Der “null Zugriffe”-Fall ist der häufige. Eine Website fügt llms.txt hinzu, lässt sie Wochen oder Monate liegen, durchsucht dann die Access-Logs nach Anfragen an /llms.txt. Das Ergebnis, in Entwicklerforen und Blogbeiträgen immer wieder berichtet: Die einzigen Abrufe kommen von wenigen Quellen, und KI-Trainings- und Such-Crawler gehören meist nicht dazu.

Wenn /llms.txt doch angefragt wird, fallen die Anfragenden in vorhersehbare Schubladen:

  • Neugier-Traffic. Entwickler, die von der Datei gehört haben und sehen wollen, ob eine bestimmte Website eine hat. Browser, curl, gelegentlich ein Headless-Tool.
  • Verzeichnis- und Aggregator-Bots. Dienste, die katalogisieren, welche Websites llms.txt veröffentlichen. Sie rufen die Datei ab, um sie zu listen, nicht um ein Modell zu füttern.
  • SEO- und Monitoring-Tools. Crawler, die die Datei als Punkt auf einer Checkliste prüfen, so wie sie sitemap.xml oder humans.txt prüfen.
  • Das eigene Monitoring der Website. Uptime-Checks, der Betreiber, der die URL testet.

Was auf dieser Liste meist fehlt, ist GPTBot, ClaudeBot, PerplexityBot oder Googlebot, der /llms.txt im Rahmen seines normalen Crawls abruft. Sie rufen robots.txt ab. Sie rufen Ihre Seiten ab. Sie rufen sitemap.xml ab. Sie rufen llms.txt, in den veröffentlichten Logs, nicht zuverlässig ab.

Das ist kein endgültiger Beweis für ein universelles Nein, und das Crawler-Verhalten kann sich ohne Ankündigung ändern. Aber die Beweislast liegt auf der anderen Seite. Würden die großen Engines llms.txt still lesen, würde es sich in Logs über viele Websites zeigen. Das tut es nicht. Die einfachste Lesart ist, dass sie es nicht tun. Wenn Sie die Frage für Ihre eigene Domain klären wollen, ist die Methode trivial: Datei hinzufügen, dann die Logs beobachten. Ein regelmäßiger Crawl- und Log-Check ist dieselbe Routine, die Sie ohnehin laufen lassen sollten, um zu sehen, welche Bots welche URLs erreichen.

Warum fügen Leute sie trotzdem hinzu?

Trotz alledem liefern viele Websites llms.txt weiterhin aus. Die Gründe sind nicht alle unvernünftig.

Optionalität und geringe Kosten. Die Datei zu erzeugen ist oft ein Ein-Klick-Feature in der Doku-Plattform oder ein kleines Build-Plugin. Sollte das Format jemals übernommen werden, ist die Datei schon da. Die Kosten, früh dran zu sein, liegen nahe null. Die Kosten, spät dran zu sein, falls es darauf ankommt, sind eine Konfigurationsänderung. Leute hedgen.

Dokumentations-Hygiene. Einen sauberen, link-reichen, zusammengefassten Index einer Website zu erstellen, ist eine nützliche Übung, unabhängig davon, wer ihn liest. Manche Teams stellen fest, dass die erzeugte llms.txt eine bessere Sitemap für Menschen ist als ihre tatsächliche Sitemap. Die Datei hat als Nebenprodukt einen Wert, auch wenn kein Modell sie abruft.

Marketing und Signalwirkung. llms.txt zu veröffentlichen, sagt einem bestimmten Publikum “wir denken über KI nach”. Für ein Unternehmen für Entwickler-Tools hat dieses Signal einen gewissen Wert. Es ist dieselbe Logik, die vor einem Jahrzehnt eine Welle von Websites humans.txt veröffentlichen ließ.

Missverständnis. Manche Websites fügen sie hinzu, weil ein Blogbeitrag oder ein Anbieter angedeutet hat, dass KI-Engines sie lesen und dass es der Sichtbarkeit schadet, sie nicht zu haben. Diese Prämisse wird von den aktuellen Belegen nicht gestützt. Das ist die Kategorie, bei der man vorsichtig sein sollte, weil sie zu Zeit führt, die in die Datei fließt, statt anderswo mehr zu bewirken.

Die ehrliche Rahmung: llms.txt ist heute eine Wette auf eine künftige Konvention, plus ein Nebennutzen als sauberer Index. Es ist 2026 kein funktionierender Kanal in KI-Antworten. Es als “Betrug” zu bezeichnen, ist zu stark. Es wurde in gutem Glauben von einer glaubwürdigen Person vorgeschlagen, um ein echtes Problem zu lösen. Aber wer es als aktuellen Ranking- oder Sichtbarkeitshebel in der KI-Suche verkauft, übertreibt, was die Belege zeigen.

Was KI-Engines wirklich nutzen

Schema-Markup-, Sitemap- und robots.txt-Symbole, durch einen elektrischen Strom verbunden, der zu einer KI-Engine fließt, im Risograph-Retro-Stil

Wenn llms.txt nicht der Kanal ist, was dann? Dieselbe Infrastruktur, die für die Suche funktioniert hat, mit ein paar KI-spezifischen Eigenheiten. Vier Dinge haben echtes Gewicht.

robots.txt. Das ist die Datei, die KI-Crawler tatsächlich zuerst abrufen. GPTBot, ClaudeBot, PerplexityBot, Google-Extended und der Rest lesen robots.txt und passen ihr Verhalten an. Wenn Sie beeinflussen wollen, worauf KI-Modelle zugreifen können, ist das der Hebel, der heute existiert. Die Entscheidung zwischen Blockieren und Erlauben und die vollständige Liste der KI-Bot-Namen stehen in der Komplettanleitung zu robots.txt und KI-Crawlern. Beachten Sie die Asymmetrie: robots.txt wird gelesen und befolgt, llms.txt wird bestenfalls ignoriert.

Strukturierte Daten. Schema.org-Markup gibt Maschinen ausdrückliche, eindeutige Fakten über eine Seite: das ist ein Artikel, hier ist der Autor, hier ist das Veröffentlichungsdatum, das ist ein Produkt, hier ist der Preis und die Bewertung. KI-Antwort-Engines stützen sich auf strukturierte Daten genauso wie die Suche, weil sie die Interpretation aus der Gleichung nehmen. Eine Seite, die ihre Fakten in JSON-LD angibt, ist für ein Modell leichter korrekt zu zitieren als eine Seite, auf der dieselben Fakten in Prosa vergraben sind. Die Mechanik steht im Leitfaden zu Schema-Markup für SEO und KI-Suche.

XML-Sitemaps. Sitemaps sind, wie Crawler, KI-Crawler eingeschlossen, die gesamte Menge der URLs entdecken, die Sie bekannt machen wollen. Eine vollständige, aktuelle, gültige Sitemap ist ein weit zuverlässigerer Weg, dafür zu sorgen, dass ein Modell Ihre wichtigen Seiten sieht, als eine llms.txt, die es nicht abruft. Das ist die Entdeckungsebene, die tatsächlich funktioniert.

Lesbare, gut strukturierte Inhalte. Der am meisten unterschätzte Faktor. KI-Modelle lesen Ihre tatsächlichen Seiten. Eine Seite mit klarer Überschriftenhierarchie, einer direkten Antwort weit oben, kurzen überfliegbaren Abschnitten und minimalem Ballast zwischen dem Nutzer und dem Kern ist leichter auszuwerten und wird eher zitiert. Das ist ironischerweise genau das, was llms.txt als separate Datei liefern wollte. Die Sache ist: Sie können Ihre echten Seiten einfach so bauen. Sauberes HTML, semantische Überschriften, Inhalte, die die Frage beantworten, ohne dass der Leser graben muss. Das ist die Version von “modellfreundlichem Inhalt”, die heute funktioniert, weil sie unter den URLs liegt, die die Crawler ohnehin abrufen.

Das umfassendere Vorgehen, um in KI-Antworten zitiert zu werden und in Google und KI-Oberflächen gleichzeitig zu ranken, steht im Leitfaden zur Generative Engine Optimization. Und wenn Sie sehen wollen, welche KI-Bots Ihre Website tatsächlich erreichen und welche URLs sie abrufen, ist das eine Crawl- und Log-Frage, von der Art, die die Komplettanleitung zu SEO-Crawlern durchgeht.

Das Fazit

Die Teile zusammengesetzt:

  • Die Behauptung: KI-Engines lesen llms.txt, um Ihre Website zu verstehen. Status: von den aktuellen Belegen nicht gestützt. Keine große Engine hat es bestätigt. Google hat ausdrücklich gesagt, dass es das nicht tut.
  • Die Geschichte: im September 2024 von Jeremy Howard vorgeschlagen, von Doku-Tools schnell übernommen, von den KI-Plattformen, an die es sich richtet, nicht übernommen.
  • Die Logs: Websites, die die Datei hinzufügen, sehen üblicherweise null Abrufe durch KI-Trainings- oder Such-Crawler. Der Traffic, der ankommt, ist Neugier, Verzeichnisse und Monitoring.
  • Die Kosten des Hinzufügens: nahe null. Es schadet Ihnen nicht. Es könnte helfen, falls die Konvention je landet.
  • Das Risiko: llms.txt als funktionierenden Sichtbarkeitshebel zu behandeln und die Dinge zu überspringen, die tatsächlich funktionieren: robots.txt, strukturierte Daten, Sitemaps, sauberer Inhalt.

Also: Fügen Sie llms.txt hinzu, wenn es eine Ein-Klick-Option ist und Sie gern einen sauberen Index pflegen. Fügen Sie sie nicht hinzu in der Erwartung, dass KI-Engines sie lesen. Bezahlen Sie niemanden dafür, sie für Sie zu “optimieren”. Und lassen Sie sich davon nicht von den vier Dingen ablenken, die in der KI-Suche wirklich etwas bewegen, die alle in Dateien und Seiten liegen, die die Crawler ohnehin abrufen.

“Ist llms.txt ein Betrug?” Nein. Es ist ein aufrichtiger Vorschlag für ein echtes Problem, der von denen, die ihn übernehmen müssten, nicht übernommen wurde. Es ist eine Wette, kein Werkzeug. Behandeln Sie es entsprechend.

Schluss

llms.txt ist die Art Idee, die funktionieren sollte und es noch nicht tut. Das Web ist wirklich für Browser gebaut, nicht für Modelle, und ein kuratierter, sauberer Index würde wirklich helfen. Aber eine Hinweisdatei ist wertlos ohne einen Leser, und Stand 2026 lesen die großen KI-Engines sie nicht. Google hat das direkt gesagt. Server-Logs über viele Websites bestätigen es. Die Datei ist harmlos und billig zu veröffentlichen, und sie taugt nebenbei als ordentlicher Website-Index, also gibt es keinen Grund, sie zu bekämpfen. Es gibt auch keinen Grund zu glauben, dass sie irgendetwas für Ihre KI-Sichtbarkeit tut.

Was die Arbeit macht, ist unspektakulär und vertraut: eine korrekte robots.txt, strukturierte Daten auf jeder Seite, die nennenswerte Fakten hat, eine vollständige und gültige XML-Sitemap und Seiten, die so gebaut sind, dass eine Maschine sie lesen kann, ohne durch Unordnung zu graben. Das sind die Dateien und Seiten, die KI-Crawler tatsächlich abrufen. Wenn Sie überprüfen wollen, welche Bots Ihre Website erreichen, welche URLs sie treffen und ob Ihre strukturierten Daten und Sitemaps in Ordnung sind, laden Sie Seodisias herunter und führen Sie einen Crawl auf Ihrem eigenen Rechner aus. Es läuft lokal, hat keine URL-Grenze und meldet die Signale, die KI-Engines wirklich nutzen, kein Upload, keine Anmeldung, alle Daten bleiben bei Ihnen.