Volver a todos los artículos
guides 15 min read

llms.txt: ¿de verdad lo leen los motores de IA?

Ali Gundogdu ·
llms.txt: ¿de verdad lo leen los motores de IA?

Cada pocos meses aparece un archivo nuevo en la raíz de los sitios web, prometiendo arreglar cómo leen la web las máquinas. El último se llama llms.txt. La propuesta es sencilla y atractiva: deje un archivo Markdown en sudominio.com/llms.txt, liste sus páginas más importantes en forma limpia y resumida, y los modelos de IA lo usarán para entender su sitio. Se acabó adivinar si ChatGPT o Claude interpretaron bien su navegación. Usted les entrega un mapa curado.

Sobre el papel es una buena idea. El problema es la brecha entre la propuesta y la realidad. A día de hoy, en 2026, no hay evidencia pública de que ningún motor de IA importante descargue llms.txt al rastrear. Las empresas detrás de ChatGPT, Claude, Gemini y Perplexity no han anunciado soporte. Los logs de servidor de sitios que han añadido el archivo muestran, en muchos casos, cero accesos de bots de IA. Esta guía repasa qué promete hacer llms.txt, de dónde viene, si los modelos grandes lo leen, qué muestran realmente los logs del servidor, por qué algunos lo añaden de todos modos y en qué se apoyan de verdad los motores de IA cuando citan su sitio.

Qué promete hacer llms.txt

La propuesta de llms.txt pide a los propietarios de sitios que publiquen un archivo Markdown en la raíz del dominio. El formato es flexible pero convencional: un H1 con el nombre del sitio o del proyecto, un resumen corto como cita, luego secciones de enlaces a páginas clave, cada enlace con una descripción de una línea opcional. Una convención complementaria, llms-full.txt, contiene el contenido expandido en sí, no solo los enlaces.

El propósito declarado es dar a los modelos de lenguaje grandes una versión limpia y con poco ruido de un sitio. Una página web normal va envuelta en navegación, anuncios, banners de cookies, scripts y relleno. Un LLM con una ventana de contexto limitada tiene que abrirse paso entre todo eso para encontrar lo esencial. llms.txt, según el argumento, es lo esencial sin la envoltura: aquí están las páginas que importan, aquí está de qué va cada una, aquí está el texto canónico si lo quiere.

Detrás de esto hay un problema real. Las ventanas de contexto son finitas. Renderizar y limpiar HTML es caro. Un índice curado ayudaría, en principio, a que un modelo gastara su presupuesto en la señal y no en el marcado. La propuesta no resuelve un problema falso. Propone una solución que, hasta ahora, quienes tendrían que implementarla no han adoptado.

Conviene ser preciso sobre lo que llms.txt no es. No forma parte del Protocolo de Exclusión de Robots. No bloquea ni permite nada. No es robots.txt para IA. No influye en la recopilación de datos de entrenamiento. Es puramente un archivo de pista, y una pista solo funciona si el destinatario está escuchando.

De dónde viene

La propuesta de llms.txt la publicó en septiembre de 2024 Jeremy Howard, cofundador de Answer.AI y fast.ai, y una figura conocida en la comunidad de machine learning. El sitio de la propuesta, llmstxt.org, expone el formato y el razonamiento. El planteamiento de Howard era pragmático: los LLM se usan cada vez más para leer y razonar sobre sitios web, la web está hecha para navegadores, no para modelos, así que dejemos que los propietarios ofrezcan una versión apta para modelos.

La idea se extendió rápido por las herramientas para desarrolladores. Plataformas de documentación como Mintlify añadieron generación automática de llms.txt. Frameworks y generadores de sitios estáticos lanzaron plugins. En unos meses se podían encontrar archivos llms.txt en las webs de documentación de productos importantes para desarrolladores. Apareció un directorio de sitios que publicaban el archivo. En la capa de herramientas, la convención cogió impulso casi de inmediato.

Lo que no consiguió, en los meses siguientes, fue la adopción por parte de los consumidores para los que estaba pensada. OpenAI, Anthropic, Google y Perplexity no anunciaron que sus rastreadores o sistemas de recuperación descarguen llms.txt. Ninguna documentación de esas empresas lo menciona. La propuesta existe, los archivos existen, las herramientas existen. El extremo lector de la tubería es la parte que no se ha conectado.

Esto no es raro en los estándares web. robots.txt tardó años en volverse universal. Schema.org necesitó que Google, Bing, Yahoo y Yandex lo respaldaran juntos antes de que importara. Un formato de archivo que propone una sola persona, por respetada que sea, solo cobra sentido cuando las grandes plataformas deciden honrarlo. Con llms.txt, hasta ahora, no han dicho que lo hagan.

¿De verdad lo leen los modelos grandes?

Cuatro terminales de monitor CRT, cada uno con una línea de estado sobre si un motor de IA descarga llms.txt, en estilo risograph retro

Así está la situación a día de hoy, en 2026, motor por motor. La respuesta honesta para cada uno de ellos es alguna versión de “sin soporte confirmado”.

MotorRastreador¿Descarga llms.txt?Notas
ChatGPT (OpenAI)GPTBot, OAI-SearchBot, ChatGPT-UserSin soporte confirmadoLa doc de bots de OpenAI describe el manejo de robots.txt, no de llms.txt. Ninguna afirmación de que la recuperación lea el archivo.
Claude (Anthropic)ClaudeBot, Claude-UserSin soporte confirmadoLa documentación del rastreador de Anthropic remite a robots.txt. Ninguna mención de llms.txt.
Gemini (Google)Googlebot, Google-ExtendedSin soporte confirmadoRepresentantes de Google han dicho públicamente que Google no usa llms.txt. La Búsqueda y los AI Overviews se apoyan en el rastreo normal.
PerplexityPerplexityBot, Perplexity-UserSin soporte confirmadoPerplexity documenta su comportamiento con robots.txt. No ha anunciado soporte para llms.txt.
Copilot (Microsoft)BingbotSin soporte confirmadoLa doc de rastreo de Bing no menciona llms.txt.

Algunas aclaraciones, porque esta tabla se malinterpreta a menudo.

Primero: “sin soporte confirmado” no es lo mismo que “el archivo está prohibido”. No pasa nada malo si publica llms.txt. Simplemente está ahí.

Segundo: un agente de IA actuando por encargo de un usuario es un caso distinto de un rastreador que construye un índice. Si le dice a ChatGPT o a Claude “lee sudominio.com/llms.txt y resúmelo”, descargará exactamente esa URL porque usted se lo ha pedido, igual que descargaría cualquier URL que le nombre. Eso no es el modelo descubriendo y prefiriendo el archivo por su cuenta. Es el modelo siguiendo una instrucción explícita. A veces se cita ese comportamiento como prueba de que “Claude lee llms.txt”. Es prueba de que Claude puede descargar una URL que usted le entrega, lo cual nunca estuvo en duda.

Tercero, Google ha sido el más directo. Representantes de Google han afirmado que Google no usa llms.txt y que no tiene planes de hacerlo. Para un buscador que además opera la superficie de respuestas de IA más usada, es una señal fuerte de dónde está el formato.

Qué muestran los logs del servidor

La prueba más limpia de si los motores de IA leen llms.txt es: añadir el archivo, esperar y mirar quién lo ha descargado. Varios propietarios de sitios han hecho exactamente eso y han publicado los resultados. El patrón es constante y poco halagüeño para el formato.

El caso de “cero accesos” es el habitual. Un sitio añade llms.txt, lo deja semanas o meses, luego busca en los logs de acceso las peticiones a /llms.txt. El resultado, contado una y otra vez en foros de desarrolladores y en artículos de blog, es que las únicas descargas vienen de unas pocas fuentes, y los rastreadores de entrenamiento y de búsqueda de IA no suelen estar entre ellas.

Cuando /llms.txt sí recibe peticiones, los que las hacen tienden a caer en cubos predecibles:

  • Tráfico de curiosidad. Desarrolladores que oyeron hablar del archivo y quieren ver si un sitio dado tiene uno. Navegadores, curl, alguna herramienta headless ocasional.
  • Bots de directorios y agregadores. Servicios que catalogan qué sitios publican llms.txt. Descargan el archivo para listarlo, no para alimentar un modelo.
  • Herramientas de SEO y monitorización. Rastreadores que comprueban el archivo como una casilla de una checklist, igual que comprueban sitemap.xml o humans.txt.
  • La propia monitorización del sitio. Comprobaciones de uptime, el propietario probando la URL.

Lo que suele faltar en esa lista es GPTBot, ClaudeBot, PerplexityBot o Googlebot descargando /llms.txt como parte de su rastreo normal. Descargan robots.txt. Descargan sus páginas. Descargan sitemap.xml. No descargan llms.txt, en los logs que la gente ha publicado, de forma fiable.

Esto no es una prueba definitiva de un no universal, y el comportamiento de los rastreadores puede cambiar sin aviso. Pero la carga de la prueba va en la otra dirección. Si los motores grandes leyeran llms.txt en silencio, aparecería en los logs de muchos sitios. No aparece. La lectura más simple es que no lo hacen. Si quiere zanjar la cuestión para su propio dominio, el método es trivial: añada el archivo, luego observe sus logs. Una auditoría periódica de rastreo y logs es la misma rutina que ya debería estar haciendo para ver qué bots llegan a qué URLs.

Entonces, ¿por qué lo añade la gente igualmente?

Con todo eso, muchos sitios siguen sirviendo llms.txt. Las razones no son todas irracionales.

Opcionalidad y bajo coste. Generar el archivo suele ser una función de un clic en la plataforma de documentación o un pequeño plugin de build. Si el formato llega a adoptarse alguna vez, el archivo ya está. El coste de ir pronto es casi cero. El coste de ir tarde, si importa, es un cambio de configuración. La gente se cubre.

Higiene de la documentación. Producir un índice limpio, rico en enlaces y resumido de un sitio es un ejercicio útil, sea quien sea quien lo lea. Algunos equipos descubren que el llms.txt que generaron es un mejor mapa del sitio para humanos que su sitemap real. El archivo tiene valor como subproducto aunque ningún modelo lo descargue.

Marketing y señalización. Publicar llms.txt le dice a cierto público “estamos pensando en la IA”. Para una empresa de herramientas para desarrolladores, esa señal tiene algún valor. Es la misma lógica que puso humans.txt en una oleada de sitios hace una década.

Malentendido. Algunos sitios lo añaden porque un artículo de blog o un proveedor dio a entender que los motores de IA lo leen y que no tenerlo perjudica la visibilidad. Esa premisa no se sostiene con la evidencia actual. Esta es la categoría con la que conviene tener cuidado, porque lleva a invertir tiempo en el archivo que rendiría más en otra parte.

El planteamiento honesto: llms.txt hoy es una apuesta por una convención futura, más un beneficio lateral como índice limpio. No es, en 2026, un canal que funcione hacia las respuestas de IA. Llamarlo “estafa” es demasiado fuerte. Lo propuso de buena fe una persona creíble para resolver un problema real. Pero quien lo venda como una palanca actual de ranking o visibilidad en la búsqueda de IA está exagerando lo que muestra la evidencia.

Qué usan de verdad los motores de IA

Iconos de schema markup, sitemap y robots.txt conectados por una corriente eléctrica que fluye hacia un motor de IA, en estilo risograph retro

Si llms.txt no es el canal, ¿cuál es? La misma infraestructura que ha funcionado para la búsqueda, con algunas particularidades específicas de la IA. Cuatro cosas pesan de verdad.

robots.txt. Es el archivo que los rastreadores de IA descargan primero de verdad. GPTBot, ClaudeBot, PerplexityBot, Google-Extended y el resto leen robots.txt y ajustan su comportamiento. Si quiere influir en a qué pueden acceder los modelos de IA, esta es la palanca que existe hoy. La decisión entre bloquear y permitir, y la lista completa de nombres de bots de IA, están en la guía completa de robots.txt y rastreadores de IA. Fíjese en la asimetría: robots.txt se lee y se respeta, llms.txt se ignora, en el mejor de los casos.

Datos estructurados. El marcado de Schema.org da a las máquinas hechos explícitos e inequívocos sobre una página: esto es un artículo, este es el autor, esta es la fecha de publicación, esto es un producto, este es el precio y la valoración. Los motores de respuestas de IA se apoyan en los datos estructurados igual que la búsqueda, porque sacan la interpretación de la ecuación. Una página que declara sus hechos en JSON-LD es más fácil de citar correctamente para un modelo que una página donde esos mismos hechos están enterrados en prosa. La mecánica está en la guía de schema markup para SEO y búsqueda con IA.

Sitemaps XML. Los sitemaps son cómo los rastreadores, los de IA incluidos, descubren el conjunto completo de URLs que usted quiere que se conozcan. Un sitemap completo, actual y válido es una forma mucho más fiable de asegurarse de que un modelo vea sus páginas importantes que un llms.txt que no descarga. Esta es la capa de descubrimiento que funciona de verdad.

Contenido legible y bien estructurado. El factor más infravalorado. Los modelos de IA leen sus páginas reales. Una página con una jerarquía de encabezados clara, una respuesta directa cerca del principio, secciones cortas y fáciles de escanear y poco lastre entre el usuario y lo esencial es más fácil de extraer y más probable de ser citada. Esto es, irónicamente, exactamente lo que llms.txt intentaba ofrecer como archivo aparte. La cosa es que puede construir sus páginas reales así, sin más. HTML limpio, encabezados semánticos, contenido que responde a la pregunta sin que el lector tenga que escarbar. Esa es la versión de “contenido apto para modelos” que funciona hoy, porque vive en las URLs que los rastreadores ya descargan.

El plan más amplio para que le citen en las respuestas de IA y rankear en Google y en las superficies de IA al mismo tiempo está en la guía de Generative Engine Optimization. Y si quiere ver qué bots de IA llegan de verdad a su sitio y qué URLs descargan, eso es una cuestión de rastreo y logs, del tipo que recorre la guía completa de rastreadores SEO.

El veredicto

Juntando las piezas:

  • La afirmación: los motores de IA leen llms.txt para entender su sitio. Estado: no respaldado por la evidencia actual. Ningún motor importante lo ha confirmado. Google ha dicho explícitamente que no lo hace.
  • La historia: propuesto por Jeremy Howard en septiembre de 2024, adoptado rápido por las herramientas de documentación, no adoptado por las plataformas de IA a las que apunta.
  • Los logs: los sitios que añaden el archivo ven habitualmente cero descargas de rastreadores de entrenamiento o de búsqueda de IA. El tráfico que llega es curiosidad, directorios y monitorización.
  • El coste de añadirlo: casi cero. No le hará daño. Podría ayudar si la convención llega a cuajar.
  • El riesgo: tratar llms.txt como una palanca de visibilidad que funciona y saltarse las cosas que funcionan de verdad: robots.txt, datos estructurados, sitemaps, contenido limpio.

Así que: añada llms.txt si es una opción de un clic y le gusta mantener un índice limpio. No lo añada esperando que los motores de IA lo lean. No le pague a nadie para “optimizárselo”. Y no deje que le distraiga de las cuatro cosas que de verdad mueven la aguja en la búsqueda con IA, todas las cuales viven en archivos y páginas que los rastreadores ya descargan.

“¿Es llms.txt una estafa?” No. Es una propuesta sincera para un problema real que no han adoptado quienes tendrían que adoptarla. Es una apuesta, no una herramienta. Trátelo como tal.

Conclusión

llms.txt es de ese tipo de ideas que deberían funcionar y todavía no funcionan. La web sí está hecha para navegadores, no para modelos, y un índice curado y limpio sí ayudaría. Pero un archivo de pista no vale nada sin un lector, y a día de hoy, en 2026, los motores de IA grandes no lo leen. Google lo ha dicho directamente. Los logs de servidor de muchos sitios lo confirman. El archivo es inofensivo y barato de publicar, y de paso sirve como índice ordenado del sitio, así que no hay razón para combatirlo. Tampoco hay razón para creer que está haciendo nada por su visibilidad en IA.

Lo que hace el trabajo es poco vistoso y conocido: un robots.txt correcto, datos estructurados en cada página que tenga hechos que valga la pena declarar, un sitemap XML completo y válido, y páginas construidas para que una máquina pueda leerlas sin escarbar entre el desorden. Esos son los archivos y las páginas que los rastreadores de IA descargan de verdad. Si quiere comprobar qué bots llegan a su sitio, qué URLs visitan y si sus datos estructurados y sus sitemaps están en orden, descargue Seodisias y ejecute un rastreo en su propia máquina. Funciona en local, no tiene límite de URLs e informa de las señales que los motores de IA usan de verdad, sin subir nada, sin registro, todos los datos se quedan con usted.