La Guía Completa de robots.txt: Reglas, Ejemplos y Crawlers de IA

Cuando un motor de búsqueda o un modelo de IA visita su sitio web, el primer archivo que busca es robots.txt. Este pequeño documento de texto situado en la raíz de su dominio indica a los rastreadores qué partes de su sitio pueden leer y cuáles deben omitir. El archivo existe desde 1994, pero la llegada de crawlers de IA como GPTBot, ClaudeBot y PerplexityBot le ha dado un peso renovado. Esta guía cubre la sintaxis, los patrones que resuelven problemas reales, cómo tratar a los crawlers de IA y los errores que deshacen el archivo sin dar ningún aviso.

Qué es robots.txt y qué no puede hacer

Un archivo robots.txt es un documento de texto plano servido en https://sudominio.com/robots.txt. Cuando un crawler visita un sitio por primera vez en una sesión, recupera este archivo antes de tocar cualquier otra cosa. El archivo contiene reglas como “omite este directorio” o “no visites esta ruta”. Los crawlers que respetan el Protocolo de Exclusión de Robots leen el archivo y ajustan su comportamiento.

La palabra clave en esa frase es respetan. robots.txt es un mecanismo de cortesía, no un mecanismo de seguridad. Los crawlers educados de Google, Bing, OpenAI y Anthropic leen el archivo y cumplen las reglas. Los scrapers maliciosos lo ignoran por completo. Si tiene datos privados en una URL, colocar esa URL en Disallow no la oculta. La URL sigue siendo pública. Cualquiera que conozca la ruta puede abrirla en el navegador.

Un segundo malentendido habitual es que robots.txt evita la indexación. No lo hace. Evita el rastreo. Si Googlebot no puede rastrear una página porque está bloqueada pero descubre la URL a través de enlaces externos, Google puede mostrarla igualmente en los resultados, a menudo con la leyenda “No hay información disponible sobre esta página”. Para evitar la indexación necesita una instrucción noindex en una meta etiqueta o en una cabecera HTTP, que el bot solo podrá leer si se le permite rastrear la página.

Un tercer punto merece claridad: robots.txt no reemplaza los sitemaps XML. Puede hacer referencia a uno, pero ambos archivos cumplen funciones distintas. robots.txt se ocupa de la exclusión; un sitemap se ocupa del descubrimiento.

Entonces, ¿por qué usar robots.txt? Porque ofrece un control limpio y explícito para los buenos actores, que representan la gran mayoría del tráfico significativo hacia su sitio. Ahorra presupuesto de rastreo en sitios grandes al mantener a los bots lejos de espacios de URL infinitos como la navegación facetada o las páginas de resultados de búsqueda. Indica a Google dónde encontrar el sitemap. Y desde 2024 se ha convertido en la principal herramienta con la que los propietarios de sitios expresan consentimiento o rechazo ante los crawlers de IA.

La sintaxis en una página

Cuatro tabletas de mosaico muestran las cuatro directivas clave de robots.txt: User Agent, Disallow, Allow y Sitemap

La sintaxis tiene cuatro directivas que cubren casi todos los casos de uso reales: User-agent, Disallow, Allow y Sitemap.

Un archivo mínimo válido se ve así:

User-agent: *
Disallow: /admin/
Allow: /admin/public/

User-agent: Googlebot
Disallow: /private/

Sitemap: https://example.com/sitemap.xml

El archivo se organiza en grupos. Un grupo comienza con una o más líneas User-agent y termina en el siguiente grupo o al final del archivo. El comodín * coincide con cualquier crawler no nombrado en otra parte. Los user agents nombrados crean su propio grupo.

Disallow realiza una coincidencia por prefijo de ruta. Disallow: /admin/ bloquea cualquier URL que comience con /admin/. Disallow: / bloquea el sitio entero para ese user agent. Un Disallow: vacío equivale a permitir todo.

Allow es la excepción a una regla Disallow. Le permite liberar un subdirectorio dentro de una ruta padre bloqueada. Cuando Disallow y Allow entran en conflicto, los crawlers modernos aplican la coincidencia más específica (la más larga). Los clientes RFC más antiguos aplicaban la primera coincidencia, así que coloque la regla más específica arriba si el objetivo son parsers antiguos.

Dos comodines están ampliamente soportados: * coincide con cualquier secuencia de caracteres en una ruta, y $ ancla el final de una URL. Por ejemplo, Disallow: /*.pdf$ bloquea cualquier URL que termine en .pdf.

Algunas reglas que casi todo el mundo olvida:

La coincidencia de User-agent no distingue mayúsculas de minúsculas. Googlebot y googlebot se refieren al mismo bot.
La coincidencia de rutas sí distingue mayúsculas de minúsculas. /Admin/ y /admin/ son rutas diferentes.
Las directivas Sitemap viven fuera de cualquier grupo. Se admiten varias líneas Sitemap, una por línea, con URLs absolutas.
Los comentarios empiezan con # y llegan hasta el final de la línea.

Si necesita la especificación completa, la introducción a robots.txt de Google Search Central es la referencia más accesible, y la especificación IETF RFC 9309 es el documento oficial del protocolo.

Patrones que resuelven problemas reales

Cinco patrones cubren aproximadamente el 90 por ciento de los casos de uso reales.

Bloquear herramientas internas para todos los bots. Paneles de administración, cuadros de mando y APIs internas no deben rastrearse. Estas URLs suelen devolver HTML con noindex por diseño, pero mantenerlas fuera del presupuesto de rastreo es más limpio.

User-agent: *
Disallow: /admin/
Disallow: /dashboard/
Disallow: /api/

Bloquear páginas de resultados de búsqueda interna. Las consultas generan infinitas variantes de URL. Permitir que los crawlers las sigan desperdicia presupuesto de rastreo y produce páginas de baja calidad en los resultados.

User-agent: *
Disallow: /search
Disallow: /*?q=

Controlar la navegación facetada. Los sitios de comercio electrónico con filtros de color, talla y marca pueden explotar en millones de combinaciones de parámetros. Bloquee los patrones de parámetros que no aportan valor SEO. Descubra más sobre cómo funciona el presupuesto de rastreo y cuándo conviene restringir las URLs con parámetros.

User-agent: *
Disallow: /*?color=
Disallow: /*?sort=
Disallow: /*?view=

Tratar los subdominios de staging con cuidado. Un robots.txt en producción que lo bloquea todo es una forma habitual de aislar el entorno de staging. El riesgo es que el mismo archivo llegue accidentalmente a producción. Una alternativa más segura es proteger el servidor de staging con autenticación HTTP básica o listas de IP permitidas. Si aun así necesita usar robots.txt:

# staging.example.com/robots.txt
User-agent: *
Disallow: /

Solo recuerde sustituir este archivo antes de que el sitio entre en producción. Muchos equipos han perdido semanas de tráfico por una única línea como esta.

Dirigir a los crawlers a su sitemap. Una línea al final del archivo ahorra un viaje a cada bot bienintencionado.

Sitemap: https://example.com/sitemap.xml

Si mantiene varios sitemaps, liste cada uno. La cadena completa de descubrimiento, desde robots.txt hasta el sitemap índice y los archivos sitemap individuales, se trata con más profundidad en la guía completa sobre crawlers SEO.

Crawlers de IA: GPTBot, ClaudeBot y la decisión de bloquear o permitir

Una escena de mosaico con tres figuras de crawler aproximándose a una puerta antigua, una la atraviesa mientras otra se aleja

Desde 2026 hay una nueva clase de crawlers que visita su sitio. No indexan para un motor de búsqueda tradicional. Recopilan contenido para grandes modelos de lenguaje que responden directamente a las preguntas. Que esto ocurra o no es una decisión editorial, y robots.txt es el lugar donde usted la expresa.

Los principales bots de IA que conviene conocer:

Bot	Empresa	Propósito
`GPTBot`	OpenAI	Datos de entrenamiento para ChatGPT
`OAI-SearchBot`	OpenAI	Resultados de búsqueda en ChatGPT
`ChatGPT-User`	OpenAI	Recuperaciones activadas por el usuario dentro de ChatGPT
`ClaudeBot`	Anthropic	Entrenamiento y búsqueda para Claude
`Claude-Web`	Anthropic	Recuperaciones activadas por el usuario dentro de Claude
`PerplexityBot`	Perplexity	Índice de búsqueda para las respuestas de Perplexity
`Perplexity-User`	Perplexity	Recuperaciones activadas por el usuario
`Google-Extended`	Google	Entrenamiento para Gemini (separado de Googlebot)
`CCBot`	Common Crawl	Archivo abierto de la web usado por muchos modelos de IA
`Amazonbot`	Amazon	Entrenamiento para productos de IA de Amazon
`Bytespider`	ByteDance	Entrenamiento para modelos de ByteDance
`Applebot-Extended`	Apple	Entrenamiento para Apple Intelligence

La decisión entre bloquear y permitir depende de qué quiera optimizar.

Bloquee todos los bots de entrenamiento de IA si su contenido tiene valor comercial o de licencia, o si sencillamente prefiere no contribuir al entrenamiento de modelos. Un patrón habitual:

User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: CCBot
Disallow: /

Permita la búsqueda con IA pero bloquee el entrenamiento. Algunos bots se utilizan para generar respuestas en tiempo real, no para construir conjuntos de entrenamiento. Si quiere aparecer en ChatGPT Search o en las respuestas de Perplexity pero mantenerse fuera de los datos de entrenamiento, permita los bots orientados a búsqueda y bloquee los de entrenamiento:

# Permitir búsqueda con IA
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: Perplexity-User
Allow: /

# Bloquear entrenamiento
User-agent: GPTBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Permita todo si su estrategia de contenido depende de la máxima visibilidad tanto en la búsqueda tradicional como en las respuestas de IA. Esta opción cada vez gana terreno entre editoriales, sitios de marketing SaaS y documentaciones. El razonamiento es directo: la búsqueda con IA es un canal en crecimiento, y aparecer citado en respuestas de IA trae tráfico cualificado. El compromiso es que su contenido pasa a formar parte del conocimiento que estos modelos muestran, con o sin atribución.

Seodisias revisa su sitio frente a 14 bots de IA conocidos como parte de su análisis de preparación para IA, de forma que pueda ver cuáles tiene permitidos, cuáles bloqueados y dónde su robots.txt guarda silencio (lo que equivale a permiso implícito). El panorama más amplio, optimizar para la búsqueda con IA, se aborda en el manual de Generative Engine Optimization.

Un matiz que vale la pena recordar: algunos de estos bots se identifican en las cabeceras de petición pero no siempre en cadenas User-agent que pueda usar en robots.txt. robots.txt solo funciona con bots que se presentan por su nombre y respetan el protocolo. Un bot que quiere hacer scraping lo hará. El objetivo aquí es gestionar la mayoría bienintencionada, no construir una fortaleza. Para consultar los nombres oficiales de los bots y su comportamiento, revise la documentación de cada proveedor, como la página de GPTBot de OpenAI y la referencia del crawler de Anthropic sobre Claude.

Validación y errores comunes

Un robots.txt mal formado suele fallar en silencio. El archivo sigue siendo servido, los bots siguen leyéndolo, pero un único tipo puede cambiar por completo su significado. Unas pocas herramientas y hábitos reducen el riesgo.

Pruebe su archivo antes de confiar en él.

Google Search Console ofrecía antes un probador dedicado de robots.txt. El equivalente actual es la Inspección de URL, que muestra cómo Googlebot analiza y aplica las reglas a una URL específica de su sitio.
Validadores públicos como el disponible en technicalseo.com/tools/robots-txt analizan el archivo y resaltan los errores de sintaxis.
Para comprobaciones rápidas, curl https://sudominio.com/robots.txt basta para confirmar que el archivo se sirve y devuelve HTTP 200.

Errores comunes a revisar:

Bloquear todo el sitio por accidente. Una sola línea Disallow: / bajo User-agent: * retira todas las páginas de todos los bots honestos. Suele ocurrir cuando un archivo de staging llega a producción.
Bloquear CSS y JavaScript. Los crawlers modernos, incluido Googlebot, renderizan páginas. Si bloquea /static/, /assets/ o /js/, el renderizador ve una página rota y puede penalizar el ranking.
Errores de mayúsculas en las rutas. Disallow: /Admin/ no bloquea /admin/. Ajuste las mayúsculas a las URLs reales.
Falta de barra final. Disallow: /private bloquea /private, /private/page y también /private-stuff. Disallow: /private/ es más quirúrgico y solo bloquea rutas bajo el directorio /private/.
Comodines en el lugar equivocado. Disallow: /*.pdf bloquea cualquier URL que contenga .pdf, lo que casi nunca es la intención. Disallow: /*.pdf$ bloquea URLs que terminan en .pdf, y eso suele ser lo deseado.
Sintaxis que parece correcta pero no lo es. Un espacio extra antes de los dos puntos, una comilla tipográfica copiada desde un documento, un salto de línea con formato erróneo en Windows. Cualquiera de estos detalles puede hacer que los parsers salten un grupo completo. Edite siempre robots.txt en un editor de texto plano.
Olvidar la directiva Sitemap. Omitir esa línea no es un error, pero sí una oportunidad perdida. Los bots encuentran los sitemaps por otras vías, aunque listarlos en robots.txt es el camino más rápido.

Un buen hábito es volver a ejecutar la auditoría completa del sitio después de cualquier cambio en robots.txt para confirmar que excluir una sección no ha provocado efectos secundarios indeseados.

Conclusión

robots.txt es el archivo más pequeño de su sitio con el mayor potencial para cambiar cómo lo ven los motores de búsqueda y los modelos de IA. Está a una línea de bloquear una sección crítica, a una directiva de dar la bienvenida a cada crawler de entrenamiento, a un error tipográfico de deshacer su SEO en silencio. El hábito que le protege es sencillo: edite con cuidado, valide con una herramienta y audite el efecto en todo el sitio después de cada cambio. Si quiere automatizar la auditoría y ver de un vistazo cuáles de los 14 principales bots de IA ha permitido o bloqueado, descargue Seodisias y ejecute un rastreo en su propia máquina. Sin registro, sin subida de datos, todos los datos permanecen con usted.

La Guía Completa de robots.txt: Reglas, Ejemplos y Crawlers de IA

Qué es robots.txt y qué no puede hacer

La sintaxis en una página

Patrones que resuelven problemas reales

Crawlers de IA: GPTBot, ClaudeBot y la decisión de bloquear o permitir

Validación y errores comunes

Conclusión

Artículos relacionados

llms.txt: ¿de verdad lo leen los motores de IA?

Optimización para Motores Generativos (GEO): cómo rankear en búsqueda de IA y en Google a la vez

Los mejores crawlers SEO en 2026: gratuitos, open source y comerciales comparados