XML Sitemaps in großem Umfang: Erstellen, Aufteilen und Validieren ohne stille Fehler

Eine Sitemap ist die höflichste Art, einer Suchmaschine mitzuteilen, was gecrawlt werden soll. Anders als robots.txt, die ein Ausschlussinstrument ist, ist eine Sitemap ein positives Signal. Sie sagt in maschinenlesbarer Form: Hier sind die URLs, die auf dieser Website wichtig sind, schauen Sie bitte vorbei.

Die meisten Sitemaps geraten still und leise aus dem Takt mit der restlichen Site. Seiten werden auf noindex gesetzt, Weiterleitungen sammeln sich an, Slugs ändern sich, und die Sitemap listet weiter die alten URLs. Bis das jemand bemerkt, enthält die Datei tausende URLs, die nicht mehr existieren oder nicht mehr im Index landen sollen. Dieser Leitfaden behandelt die XML Sitemap Spezifikation, die Aufteilungsregeln im großen Umfang, was in die Datei gehört und was nicht, die spezialisierten Varianten, die Validierung sowie die häufigen Fehler, die die Datei stillschweigend kaputt machen, ohne eine einzige Warnung zu erzeugen.

Was eine XML Sitemap eigentlich ist

Die XML Sitemap ist eine öffentliche Datei am Stamm Ihrer Domain, ausgeliefert als XML, die URLs auflistet, die ein Crawler berücksichtigen soll. Das Format wird von der offenen sitemaps.org Spezifikation definiert, ursprünglich 2005 von Google, Yahoo und Microsoft entworfen und mittlerweile von allen großen Suchmaschinen und KI Crawlern unterstützt.

Eine minimal gültige Sitemap sieht so aus:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2026-04-20</lastmod>
  </url>
  <url>
    <loc>https://example.com/blog/post</loc>
    <lastmod>2026-04-22</lastmod>
  </url>
</urlset>

Jeder <url> Eintrag hat ein Pflichtfeld, <loc>, das die absolute URL der Seite enthält. Drei optionale Felder sind erlaubt: <lastmod> für das Datum der letzten Änderung, <changefreq> als Hinweis auf die Aktualisierungshäufigkeit und <priority> als relative Gewichtung von 0,0 bis 1,0.

Ein Hinweis zu den optionalen Feldern. Google hat öffentlich erklärt, dass es <priority> und <changefreq> vollständig ignoriert und nur lockere Aufmerksamkeit auf <lastmod> legt. Bing und Yandex nutzen sie etwas mehr, aber die praktische Empfehlung lautet: Pflegen Sie <lastmod> korrekt und sparen Sie sich die anderen beiden. Ein genauer lastmod ist ein wertvoller Hinweis, ein irreführender ein Risiko.

Sitemaps müssen UTF 8 kodiert sein. URLs innerhalb von <loc> müssen für die fünf XML Sonderzeichen (&, ', ", <, >) maskiert werden. Der häufigste stille Fehler ist ein nicht maskiertes Et Zeichen innerhalb eines Query Strings, das die gesamte Sitemap unparsbar macht.

Die Aufteilungsregel für große Sites

Eine einzelne Sitemap Datei darf bis zu 50.000 URLs oder 50 MB unkomprimiert enthalten, je nachdem, was zuerst eintritt. Sobald Sie eine der beiden Grenzen überschreiten, müssen Sie die Datei aufteilen und alle Teile von einem Sitemap Index referenzieren.

Ein Sitemap Index hat dieselbe Form wie eine Sitemap, listet aber Sitemaps statt URLs:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-pages.xml</loc>
    <lastmod>2026-04-22</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products-1.xml</loc>
    <lastmod>2026-04-22</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products-2.xml</loc>
    <lastmod>2026-04-20</lastmod>
  </sitemap>
</sitemapindex>

Auch der Index selbst ist begrenzt: bis zu 50.000 Sitemap Einträge in einem Index. Das ergibt eine theoretische Obergrenze von 2,5 Milliarden URLs pro Index, mehr als jede normale Site jemals brauchen wird.

Aufteilungs Layout: ein Sitemap Index verweist auf mehrere spezialisierte Sitemap Dateien

Die Aufteilungsstrategie ist wichtiger, als die Grenzen vermuten lassen. Drei Muster sind verbreitet.

Nach Inhaltstyp. Eine Sitemap für statische Seiten, eine für Blogbeiträge, eine für Produktseiten, eine für Tag Seiten. Diese Variante ist am lesbarsten und am leichtesten zu pflegen, wenn ein Bereich schneller wächst als ein anderer.

Nach Datum. Nützlich für Nachrichtensites oder Sites mit einer starken Zeitachse. Sitemaps mit Namen wie sitemap-2026.xml und sitemap-2025.xml machen inkrementelle Updates günstig, weil alte datumsbasierte Sitemaps selten geändert werden.

Nach Segment. Große Onlineshops teilen Produktsitemaps in products-1.xml bis products-N.xml per einfacher Modulo oder Sharding Logik. Jede Shard bleibt unter 50.000 URLs, während der Katalog wächst.

Welches Schema Sie auch wählen, dokumentieren Sie es. Die nächste Person, die Ihre Sitemap Pipeline bearbeitet, muss die Konvention verstehen, damit nichts auseinanderdriftet.

Eine häufige Skalierungsfrage: Sollten Sie Ihre Sitemaps mit gzip komprimieren? Das Protokoll erlaubt es, und Crawler akzeptieren .xml.gz Dateinamen. Die 50 MB Grenze gilt für die unkomprimierte Größe. Kompression spart Bandbreite bei der Übertragung, ändert aber nichts an der effektiven URL Obergrenze.

Was hineingehört, und was nicht

Die einzelne Regel, die die meisten Sitemap Probleme verhindert, lautet: nur kanonische, indexierbare URLs mit Statuscode 200 gehören in eine Sitemap. Alles andere ist Rauschen, das Crawl Budget verschwendet und Indexierungsentscheidungen verwirrt.

Seiten, die enthalten sein sollten:

Die kanonische Version jeder Seite, die Sie indexiert haben möchten
Öffentliche Seiten, die mit HTTP 200 antworten
Seiten, deren <meta name="robots"> kein noindex enthält
Seiten, die nicht durch robots.txt blockiert sind

Seiten, die ausgeschlossen sein sollten:

Seiten mit noindex. Eine noindex Seite in der Sitemap aufzuführen ist der häufigste stille Konflikt, und Google nennt es in der Search Console Hilfe ein verwirrendes Signal
Weitergeleitete URLs (3xx). Die Sitemap sollte das Ziel auflisten, nicht die Quelle
Fehlerseiten (4xx und 5xx). Selbsterklärend, aber sie tauchen auf, wenn der Sitemap Generator keine Statuscodes prüft
URLs, die durch robots.txt blockiert sind. Eine gesperrte URL aufzulisten ist ein Widerspruch
Doppelte URLs, die nicht kanonisch sind. Wenn /seite und /seite?ref=newsletter beide funktionieren, gehört nur die kanonische Version dazu
Parameter URLs aus Facettennavigation, Sortierung oder Sitzungsverfolgung
Seiten hinter Authentifizierung, einschließlich Adminbereiche

Die Sitemap ist ein positives Signal, keine Liste jeder existierenden URL. Rauschen aus einer Sitemap zu entfernen ist eine der wirkungsvollsten technischen SEO Aufgaben für eine große Site, weil es direkt eingrenzt, was der Crawler als seiner Zeit wert betrachtet.

Ein nützlicher mentaler Test: Wenn eine URL nicht als Suchergebnis erscheinen würde, auf das Sie stolz wären, gehört sie wahrscheinlich nicht in Ihre Sitemap.

Spezialisierte Sitemaps: Bild, Video, Nachrichten

Das Basisprotokoll deckt HTML Seiten ab. Drei offizielle Erweiterungen decken andere Inhaltstypen ab.

Bildersitemaps. Eine Bildersitemap ist eine reguläre Sitemap mit zusätzlichen <image:image> Blöcken in jedem <url> Eintrag. Jeder Block deklariert eine Bild URL, die auf einer Seite gehostet wird. Nützlich für Portfolios, Onlineshops und alle Sites, bei denen die Bildersuche eine relevante Trafficquelle ist. Sie können bis zu 1.000 Bilder pro Seiteneintrag aufführen.

<url>
  <loc>https://example.com/produkte/stuhl</loc>
  <image:image>
    <image:loc>https://example.com/bilder/stuhl-front.jpg</image:loc>
  </image:image>
  <image:image>
    <image:loc>https://example.com/bilder/stuhl-seite.jpg</image:loc>
  </image:image>
</url>

Videositemaps. Eine Videositemap deklariert Videoobjekte mit Vorschaubild, Dauer und Inhalts URLs. Erforderlich für Sites, deren Videos in der Videosuche und in strukturierten Rich Results erscheinen sollen. Die meisten modernen Videoplattformen geben Video Schema direkt auf der Seite aus, was den Bedarf einer separaten Videositemap reduziert, aber die Sitemap bleibt der sauberste Weg für eine konsistente Auffindbarkeit.

Nachrichtensitemaps. Eine Nachrichtensitemap ist auf Artikel beschränkt, die in den letzten zwei Tagen veröffentlicht wurden. Sie ist der Einstieg in Google News, und das Format verlangt <news:publication>, <news:publication_date> und <news:title>. Nur Sites, die in Google News aufgenommen wurden, sollten eine erzeugen. Für alle anderen leistet eine normale Sitemap mit korrektem lastmod für das Ranking dieselbe Arbeit.

Sie können spezialisierte Einträge in dieselbe Datei mischen wie Ihre regulären URL Einträge oder sie in dedizierten Sitemaps trennen und beide vom Index referenzieren. Der dedizierte Ansatz ist im großen Umfang sauberer, weil jeder Generator nach eigenem Zeitplan laufen kann.

Die Sitemap einreichen und deklarieren

Zwei Kanäle liefern Ihre Sitemap an einen Crawler.

Deklaration in robots.txt. Fügen Sie eine Sitemap: Zeile am Ende Ihrer robots.txt Datei mit der absoluten URL der Sitemap oder des Sitemap Index hinzu. Das ist der universelle Kanal und funktioniert für jeden Crawler, der robots.txt respektiert, einschließlich Bing, Yandex, OpenAI und Anthropic.

User-agent: *
Allow: /

Sitemap: https://example.com/sitemap.xml

Sie können mehrere Sitemap URLs deklarieren, jeweils eine pro Zeile. Es gibt keine Ratenbegrenzung für diese Deklaration, und Crawler holen die Datei in regelmäßigen Abständen ab.

Search Console Einreichung. Google Search Console und Bing Webmaster Tools akzeptieren beide manuelle Sitemap Einreichungen. Der Vorteil ist die Auswertung: Beide Tools zeigen, wie viele URLs eingereicht wurden, wie viele indexiert sind und welche ausgeschlossen wurden. Für Sites, die bereits Analytics Integrationen haben, gibt die manuelle Einreichung schnelleres Feedback bei Parserfehlern, als auf den Crawler zu warten.

Die Einreichung über die Search Console ersetzt nicht die Deklaration in robots.txt. Tun Sie immer beides. Andere Crawler, einschließlich KI Crawlern von OpenAI und Perplexity, sehen die Search Console Einreichung nicht und verlassen sich vollständig auf die robots.txt Zeile.

Die Sitemap validieren

Eine Sitemap kann auf drei Arten ungültig sein. Jede erfordert einen anderen Validierungsschritt.

Validierungsablauf mit Schema Prüfung, Statuscode Prüfung und Konsistenz Prüfung als Stufen

Schemavalidität. Lässt sich die Datei als XML parsen und hält sie das Sitemap XSD ein? Ein nicht maskiertes Et Zeichen oder ein fehlendes schließendes Tag bricht die gesamte Datei. Die einfachste Prüfung ist, die URL im Browser zu laden. Zeigt der Browser einen Parsefehler, ist die Sitemap kaputt. Für tiefere Validierung prüfen Online Tools wie der W3C XML Validator Wohlgeformtheit und DOCTYPE Konformität.

URL Erreichbarkeit. Antworten die URLs in der Sitemap tatsächlich mit 200? Ein häufiges Versagensmuster ist eine Sitemap mit 50.000 URLs, von denen 8.000 inzwischen 404 zurückgeben, weil Inhalte gelöscht wurden, ohne den Generator zu aktualisieren. Den Sitemap Parser stört das nicht, aber der Crawler verschwendet Budget mit toten URLs. Ein vollständiger Crawl jeder URL in der Sitemap ist die einzige zuverlässige Methode, die Erreichbarkeit zu bestätigen. Tools wie Seodisias führen diese Prüfung automatisch im Rahmen eines Sitemap Audits durch.

Konsistenz mit dem Rest der Site. Sind die URLs in der Sitemap kanonisch, indexierbar und nicht blockiert? Das ist die tiefste Prüfung. Sie vergleicht die Sitemap Einträge mit den Live Antworten der Site, den Canonical Tags, den robots Meta Anweisungen und den robots.txt Regeln. Jeder Konflikt ist ein stiller Fehler. Eine noindex URL in der Sitemap, eine Disallow URL als Crawl Empfehlung, ein Sitemap Eintrag mit 301 Weiterleitung auf eine andere URL, all das widerspricht sich. Es erzeugt keine Fehlermeldungen, aber es erodiert das Vertrauen, das die Suchmaschine in Ihre Sitemap als sauberes Signal setzt.

Der Sitemap Bericht der Search Console zeigt die häufigsten Konflikte, aber er hinkt Echtzeit Crawls hinterher und kann Tage zur Aktualisierung brauchen. Für Produktivsysteme planen Sie ein Sitemap Audit als Teil Ihrer monatlichen technischen SEO Routine. Bei aktiven Migrationen wöchentlich.

Die sechs stillen Fehler

Manche Sitemap Fehler sind laut. Ein 500 Fehler beim Abruf der Datei, ein XML Parserfehler, ein fehlender Namespace, all das wird in der Search Console mit roten Markierungen geloggt. Die schwierigeren Fehler sind die, die keine Fehlermeldung erzeugen und das Signal still und leise verschlechtern.

Noindex Seiten auflisten. Die Seite antwortet mit 200 und einem noindex Meta Tag. Die Sitemap führt sie auf. Der Crawler kommt, befolgt die Meta Anweisung und entfernt sie aus dem Index. Das gesendete Signal (bitte indexieren) und das Seitensignal (nicht indexieren) heben sich gegenseitig auf.

Weitergeleitete URLs auflisten. Die Sitemap listet /seite-alt auf. Die Seite gibt eine 301 auf /seite-neu zurück. Der Crawler folgt der Weiterleitung, indexiert irgendwann /seite-neu, aber die Sitemap wird nie aktualisiert. Mit der Zeit sammeln sich in der Sitemap Verweise auf URLs, die nicht mehr direkt antworten.

Veraltete lastmod Werte. Ein <lastmod> von vor drei Jahren teilt dem Crawler mit, dass diese URL seit Jahren unverändert ist. Wurde die Seite gestern aktualisiert, wird der Crawler ein erneutes Crawlen womöglich überspringen. Das Gegenteil ist ebenfalls ein Problem: Ein aktueller <lastmod> auf einer Seite, die sich gar nicht geändert hat, lehrt den Crawler, das Feld zu ignorieren.

Gemischte Protokolle. Manche Einträge zeigen auf http://, andere auf https://. Nachdem die Site vollständig auf HTTPS umgezogen ist, leiten die http Einträge entweder weiter oder geben 404. So oder so ist die Hälfte der Sitemap verschwendet.

Inkonsistente Trailing Slashes. Die Site kanonisiert auf /seite/, aber die Sitemap listet /seite ohne Slash. Jeder Eintrag leitet weiter und kostet bei jeder URL in der Sitemap einen zusätzlichen Crawl Hop.

Sitemap nicht in robots.txt deklariert. Die Einreichung über die Search Console funktioniert für Google, aber jeder andere Crawler verlässt sich auf die robots.txt Zeile. Ohne diese entdecken KI Crawler und kleinere Suchmaschinen die Sitemap unter Umständen gar nicht.

Diese sechs Fehler haben eine Eigenschaft gemeinsam. Keiner produziert eine Warnung. Die Sitemap bleibt technisch gültig, der Crawler verarbeitet sie weiter, aber das Signal verliert leise an Klarheit. Der einzige Weg, sie sichtbar zu machen, ist ein Vergleich Seite an Seite zwischen der Sitemap und der Live Antwort der Site. Genau das tut ein SEO Crawler.

Fazit

Eine saubere Sitemap ist ein konstantes Signal der Absicht. Sie sagt jede Woche oder jeden Tag: Hier sind die kanonischen, indexierbaren, lebendigen URLs, die ich von einer Suchmaschine berücksichtigt haben möchte. In dem Moment, in dem dieses Signal aufhört, der Realität zu entsprechen, hört die Sitemap auf, ihre Aufgabe zu erfüllen.

Bauen Sie die Datei aus Ihren indexierbaren Canonicals, nicht aus Ihrer vollständigen URL Liste. Teilen Sie an der Skalengrenze nach der Konvention, die zu Ihren Inhalten passt. Validieren Sie auf drei Ebenen: Schema, Erreichbarkeit und Konsistenz. Deklarieren Sie die Sitemap in robots.txt und reichen Sie sie zur Auswertung in der Search Console ein. Auditieren Sie nach Plan, monatlich für stabile Sites und wöchentlich während Migrationen. Für tiefere interne Abstimmung kombinieren Sie Sitemap Audits mit Prüfungen zu Crawl Budget, Weiterleitungsketten und Ihrer SEO Crawler Routine.

Wenn Sie ein Werkzeug für den Crawl brauchen, laden Sie Seodisias herunter kostenlos. Es läuft lokal auf Ihrem Rechner, hat keine URL Obergrenzen und liefert Sitemap Berichte als Teil jedes Audits, einschließlich Erreichbarkeit, Canonical Übereinstimmung und Indexierbarkeit pro Eintrag.

XML Sitemaps in großem Umfang: Erstellen, Aufteilen und Validieren ohne stille Fehler

Was eine XML Sitemap eigentlich ist

Die Aufteilungsregel für große Sites

Was hineingehört, und was nicht

Spezialisierte Sitemaps: Bild, Video, Nachrichten

Die Sitemap einreichen und deklarieren

Die Sitemap validieren

Die sechs stillen Fehler

Fazit

Ähnliche Beiträge

Warum Seiten aus dem Index fliegen (und wie Sie es mit einem Crawl diagnostizieren)

JavaScript SEO und Rendering: was Suchmaschinen von Ihrer modernen App sehen

Der vollständige Leitfaden zu robots.txt: Regeln, Beispiele und KI Crawler