Eine falsch konfigurierte robots.txt kann Ihre gesamte Website aus dem Google-Index verbannen. Ich habe das einmal bei einem Kunden gesehen: Traffic von heute auf morgen auf null – weil jemand versehentlich “Disallow: /” in die robots.txt geschrieben hatte. Zwei Wochen Panik, bis alles wieder normalisiert war.
robots.txt und XML-Sitemaps sind fundamentale technische SEO-Werkzeuge. In diesem Artikel zeige ich Ihnen, was sie tun, wie Sie sie richtig einsetzen, und welche Fehler Sie unbedingt vermeiden müssen.
Was ist die robots.txt?
Die robots.txt ist eine einfache Textdatei im Root-Verzeichnis Ihrer Website (z.B. https://ihre-seite.at/robots.txt). Sie gibt Anweisungen an Crawler (wie den Googlebot), welche Bereiche Ihrer Website sie crawlen dürfen oder nicht.
Wichtig zu verstehen:
- robots.txt ist eine Empfehlung, kein Gesetz. Crawler können sie ignorieren.
- Sie verhindert Crawling, nicht Indexierung. Eine Seite kann trotz “Disallow” in Google erscheinen!
- Jeder kann Ihre robots.txt sehen – verstecken Sie hier keine sensiblen Pfade!
Warum brauchen Sie eine robots.txt?
1. Crawl-Budget optimieren Google crawlt Ihre Website nicht unendlich. Verschwenden Sie keine Ressourcen auf unwichtige Seiten.
2. Duplicate Content vermeiden Filter-URLs, Druckversionen, Session-IDs – oft wollen Sie diese nicht im Index.
3. Temporäre Bereiche blockieren Entwicklungs- oder Staging-Umgebungen sollten nicht gecrawlt werden.
4. Admin-Bereiche schützen Ihr CMS-Login sollte nicht in Google auftauchen.
Grundlagen der robots.txt Syntax
Aufbau einer robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /produkte/
Sitemap: https://ihre-seite.at/sitemap.xml
Zeile für Zeile erklärt:
**User-agent: *** Gilt für alle Crawler. Sie können auch spezifische Bots ansprechen (Googlebot, Bingbot, etc.)
Disallow: /admin/
Der Pfad /admin/ und alle Unterseiten werden vom Crawling ausgeschlossen.
Allow: /produkte/ Explizit erlauben (wichtig, wenn ein übergeordneter Pfad blockiert ist).
Sitemap: … Teilt Crawlern mit, wo Ihre XML-Sitemap liegt.
Wichtige Syntax-Regeln
Wildcards:
*= beliebige Zeichen$= Ende der URL
Beispiele:
# Blockiert alle PDFs
Disallow: /*.pdf$
# Blockiert alle URLs mit "?" (Parameter)
Disallow: /*?
# Blockiert alle URLs die mit /temp/ beginnen
Disallow: /temp/*
Groß-/Kleinschreibung:
robots.txt ist case-sensitive! /Admin/ ist nicht dasselbe wie /admin/.
Was gehört in Ihre robots.txt?
Typische Disallows für Online-Shops
User-agent: *
# Admin-Bereiche
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /wp-login.php
# Warenkorb und Checkout
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /kasse/
# Such- und Filterergebnisse
Disallow: /suche/
Disallow: /*?filter=
Disallow: /*?sort=
Disallow: /*?page=
# Session-IDs
Disallow: /*?sid=
Disallow: /*sessionid
# Interne Suche
Disallow: /*?s=
Disallow: /search?
Sitemap: https://ihr-shop.at/sitemap.xml
Typische Disallows für Blogs/Corporate Sites
User-agent: *
# CMS-Bereiche (WordPress-Beispiel)
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
# Technische Seiten
Disallow: /cgi-bin/
Disallow: /*.php$
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
# Temporäre/Test-Bereiche
Disallow: /staging/
Disallow: /dev/
Disallow: /test/
Sitemap: https://ihre-seite.at/sitemap.xml
Sitemap: https://ihre-seite.at/sitemap-blog.xml
Was Sie NICHT blockieren sollten
CSS und JavaScript: Früher üblich, heute ein Fehler! Google braucht CSS/JS zum Rendern.
# FALSCH - nicht so machen!
Disallow: /css/
Disallow: /js/
# RICHTIG - erlauben!
Allow: /css/
Allow: /js/
Bilder (in den meisten Fällen): Wenn Sie wollen, dass Ihre Bilder in der Google-Bildersuche erscheinen, blockieren Sie sie nicht.
Wichtige Seiten: Klingt offensichtlich, passiert aber immer wieder: Nie Ihre Hauptseiten blockieren!
Häufige robots.txt Fehler
Fehler 1: Die gesamte Website blockieren
User-agent: *
Disallow: /
Resultat: Ihre komplette Website wird vom Crawling ausgeschlossen. Google kann nichts indexieren.
Wie es passiert: Auf Staging-Servern ist das richtig. Jemand kopiert die robots.txt auf Production → Katastrophe.
Lösung: Doppelt und dreifach checken vor dem Übertragen!
Fehler 2: Verwechslung von Crawling und Indexierung
Häufige Annahme: “Wenn ich es in robots.txt blockiere, kommt es nicht in Google.”
Realität: Eine Seite kann trotzdem indexiert werden (wenn sie von anderen verlinkt wird), wird dann aber ohne Beschreibung angezeigt: “Aufgrund der robots.txt wurde keine Beschreibung für dieses Ergebnis bereitgestellt.”
Lösung: Für Indexierungs-Kontrolle nutzen Sie Meta-Tags: <meta name="robots" content="noindex">.
Fehler 3: Sensitive Pfade in robots.txt nennen
Disallow: /geheime-kundendaten/
Disallow: /admin-backup-2024/
Problem: Jeder kann Ihre robots.txt lesen! Sie weisen Hacker buchstäblich auf sensitive Bereiche hin.
Lösung: Schützen Sie solche Bereiche mit .htaccess, Passwörtern, oder Server-Konfiguration – nicht mit robots.txt.
Fehler 4: Syntaxfehler
# FALSCH:
User-agent * # Fehlendes Doppelpunkt
Dissallow: / # Tippfehler
Disalow: /admin # Tippfehler
Resultat: Die Zeilen werden ignoriert – im schlimmsten Fall wird etwas Wichtiges nicht blockiert oder fälschlicherweise blockiert.
Lösung: Nutzen Sie Validators (siehe unten) und testen Sie immer!
Fehler 5: Zu restriktiv
Manche Websites blockieren alles, was nicht explizit wichtig ist. Das ist oft kontraproduktiv.
Beispiel: Blog-Kommentare blockieren → Google sieht keine User-Generated-Content-Signale.
Lösung: Blockieren Sie nur, was wirklich problematisch ist.
Was ist eine XML-Sitemap?
Eine XML-Sitemap ist eine Datei, die alle wichtigen URLs Ihrer Website auflistet – wie ein Inhaltsverzeichnis für Suchmaschinen.
Beispiel (vereinfacht):
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://ihr-shop.at/</loc>
<lastmod>2024-11-22</lastmod>
<changefreq>weekly</changefreq>
<priority>1.0</priority>
</url>
<url>
<loc>https://ihr-shop.at/produkte/laufschuhe/</loc>
<lastmod>2024-11-20</lastmod>
<changefreq>weekly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Bestandteile einer URL-Eintrag
<loc> (erforderlich)
Die vollständige URL der Seite.
<lastmod> (optional)
Wann wurde die Seite zuletzt geändert? Format: YYYY-MM-DD
<changefreq> (optional)
Wie oft ändert sich die Seite? (always, hourly, daily, weekly, monthly, yearly, never)
<priority> (optional)
Relative Wichtigkeit (0.0 bis 1.0). Nutzen Sie 1.0 für Ihre Homepage, 0.8-0.9 für wichtige Seiten, 0.5-0.7 für normale Seiten.
Wichtig: changefreq und priority sind Hinweise, keine Befehle. Google nutzt sie oft nicht.
Warum Sie eine XML-Sitemap brauchen
1. Schnellere Entdeckung neuer Seiten
Ohne Sitemap muss Google Ihre internen Links folgen. Mit Sitemap sieht Google sofort alle URLs.
2. Unterstützung bei großen Websites
1.000+ Seiten? Eine Sitemap hilft Google, den Überblick zu behalten.
3. Priorisierung
Sie signalisieren, welche Seiten wichtig sind (via priority).
4. Metadaten für besseres Crawling
lastmod hilft Google zu verstehen, welche Seiten sich geändert haben → effizienteres Crawling.
5. Voraussetzung für einige Google-Features
Google News, Google Discover – beide benötigen Sitemaps.
Sitemap erstellen: Drei Methoden
Methode 1: CMS/Shop-System (am einfachsten)
WordPress:
- Plugin: Yoast SEO (automatisch aktiviert)
- Plugin: Rank Math
- Plugin: Google XML Sitemaps
Shopify:
- Automatisch generiert unter
/sitemap.xml
WooCommerce:
- Via Yoast SEO oder Rank Math
Vorteile: Automatisch, immer aktuell, kein manueller Aufwand.
Methode 2: Online-Generatoren
Für kleine Websites (<500 Seiten):
- XML-Sitemaps.com
- Screaming Frog (kostenlos bis 500 URLs)
Prozess:
- URL eingeben
- Tool crawlt die Website
- XML-Datei herunterladen
- Auf Server hochladen (als
/sitemap.xml)
Nachteil: Manuell, muss regelmäßig wiederholt werden.
Methode 3: Programmatisch generieren
Für Entwickler: Generieren Sie die Sitemap dynamisch via Script.
Node.js Beispiel:
// Astro-Sitemap-Integration
import sitemap from '@astrojs/sitemap';
export default {
integrations: [
sitemap({
changefreq: 'weekly',
priority: 0.7,
lastmod: new Date(),
})
]
}
Best Practices für XML-Sitemaps
1. Nur indexierbare URLs einschließen
Nicht in die Sitemap:
- Seiten mit noindex
- Weiterleitungen (301/302)
- Blockierte URLs (robots.txt)
- 404-Seiten
- Duplicate Content
In die Sitemap:
- Alle wichtigen, crawlbaren Seiten
- Kanonische URLs (nicht die Varianten)
2. Aktualität wahren
Wenn Ihre Sitemap 500 tote URLs enthält, verliert Google das Vertrauen.
Lösung: Automatische Generierung via CMS oder regelmäßige manuelle Updates.
3. Große Sitemaps aufteilen
Limits:
- Max. 50.000 URLs pro Sitemap-Datei
- Max. 50 MB (unkomprimiert)
Bei Überschreitung: Nutzen Sie einen Sitemap-Index.
Sitemap-Index (sitemap.xml):
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>https://ihr-shop.at/sitemap-produkte.xml</loc>
<lastmod>2024-11-22</lastmod>
</sitemap>
<sitemap>
<loc>https://ihr-shop.at/sitemap-blog.xml</loc>
<lastmod>2024-11-20</lastmod>
</sitemap>
<sitemap>
<loc>https://ihr-shop.at/sitemap-kategorien.xml</loc>
<lastmod>2024-11-15</lastmod>
</sitemap>
</sitemapindex>
4. Kompression nutzen
Gzip-komprimierte Sitemaps (.xml.gz) werden von Google unterstützt und sparen Bandbreite.
5. In robots.txt verlinken
Sitemap: https://ihre-seite.at/sitemap.xml
Auch wenn Sie die Sitemap in der Google Search Console einreichen – hier gehört sie auch hin.
6. Verschiedene Sitemap-Typen
Standard-Sitemap: Für normale Seiten Bilder-Sitemap: Für bessere Indexierung in der Bildersuche Video-Sitemap: Für Video-Content News-Sitemap: Für aktuelle Nachrichten (Google News)
Sitemap in Google Search Console einreichen
Schritt 1: Sitemap hochladen
Stellen Sie sicher, dass Ihre Sitemap unter https://ihre-seite.at/sitemap.xml erreichbar ist.
Schritt 2: In GSC einreichen
- Öffnen Sie Google Search Console
- Wählen Sie Ihre Property
- Gehen Sie zu “Sitemaps” (linkes Menü)
- Geben Sie die Sitemap-URL ein (z.B.
sitemap.xml) - Klicken Sie “Senden”
Schritt 3: Status überwachen
Nach einigen Tagen zeigt GSC:
- Erfolg: Grüner Haken, Anzahl entdeckter URLs
- Fehler: Rotes X, Fehlerbeschreibung
- Warnung: Gelbes Dreieck, teilweise Probleme
Häufige Fehler:
- Sitemap nicht erreichbar (404)
- Syntaxfehler im XML
- Zu viele URLs
- URLs mit noindex oder 301-Redirects
Testen: So prüfen Sie robots.txt und Sitemap
robots.txt testen
Google Search Console:
- Gehen Sie zu “Einstellungen” → “robots.txt-Tester”
- Geben Sie eine URL ein
- Klicken Sie “Testen”
- Resultat: “Blockiert” oder “Zugelassen”
Manuell:
- Öffnen Sie
https://ihre-seite.at/robots.txt - Prüfen Sie visuell auf Fehler
- Testen Sie verschiedene URLs gegen die Regeln
Online-Tools:
- robots.txt Checker by Merkle
- Technical SEO Tools Robots.txt Tester
XML-Sitemap testen
Google Search Console: Unter “Sitemaps” sehen Sie erkannte URLs und Fehler.
Online-Validators:
- XML Sitemap Validator: https://www.xml-sitemaps.com/validate-xml-sitemap.html
- Validator.nu für XML-Syntax
Manuell:
- Öffnen Sie
https://ihre-seite.at/sitemap.xmlim Browser - Sollte als strukturiertes XML angezeigt werden (nicht als Download)
- Stichproben: Sind die URLs korrekt? Gibt es 404er?
Screaming Frog:
- Crawl-Modus auf “List” stellen
- Sitemap-URL eingeben
- Start → zeigt alle URLs aus der Sitemap
- Prüft Statuscodes, noindex, redirects
Fortgeschrittene Techniken
User-agent-spezifische Regeln
# Für Google
User-agent: Googlebot
Disallow: /keine-google-inhalte/
# Für Bing
User-agent: Bingbot
Disallow: /keine-bing-inhalte/
# Für alle anderen
User-agent: *
Disallow: /admin/
Anwendungsfall: Verschiedene Crawler unterschiedlich behandeln (selten nötig).
Crawl-Delay
User-agent: *
Crawl-delay: 10
Bittet Crawler, 10 Sekunden zwischen Requests zu warten.
Wichtig: Google ignoriert Crawl-delay! Nutzen Sie die GSC-Einstellungen stattdessen.
robots.txt für Subdomains
Jede Subdomain braucht ihre eigene robots.txt:
https://www.ihre-seite.at/robots.txthttps://shop.ihre-seite.at/robots.txthttps://blog.ihre-seite.at/robots.txt
Dynamische Sitemaps
Für große, sich häufig ändernde Websites: Generieren Sie die Sitemap on-the-fly.
Vorteil: Immer aktuell. Nachteil: Rechenaufwand bei jedem Request.
Kompromiss: Cache für 1-24 Stunden.
Häufige Fragen
Brauche ich eine robots.txt, wenn ich nichts blockieren will?
Nein, aber empfohlen. Eine minimale robots.txt mit Sitemap-Verweis ist sinnvoll:
User-agent: *
Disallow:
Sitemap: https://ihre-seite.at/sitemap.xml
Was, wenn ich keine robots.txt habe?
Google crawlt einfach alles, was es findet. Für kleine, unkomplizierte Sites kein Problem.
Kann ich robots.txt für einzelne Seiten nutzen?
Ja, aber umständlich:
Disallow: /diese-eine-seite.html
Besser: Nutzen Sie Meta-Tags direkt auf der Seite:
<meta name="robots" content="noindex, nofollow">
Ist die Sitemap ein Ranking-Faktor?
Nein. Aber sie hilft bei Entdeckung und Crawling → indirekt positiv.
Wie oft sollte ich die Sitemap aktualisieren?
Automatisch: Bei jedem neuen Inhalt (CMS-Plugins machen das). Manuell: Mindestens monatlich.
Muss ich die Sitemap in Bing/Yandex einreichen?
Empfohlen. Bing Webmaster Tools und Yandex Webmaster haben ähnliche Funktionen wie GSC.
Checkliste: robots.txt und Sitemap
robots.txt:
- Liegt unter
/robots.txt - Enthält Sitemap-Verweis
- Blockiert Admin/Backend-Bereiche
- Blockiert NICHT CSS/JS/Bilder
- Blockiert NICHT wichtige Inhalte
- Syntaktisch korrekt (via Validator geprüft)
- In GSC getestet
XML-Sitemap:
- Liegt unter
/sitemap.xml(oder anderer stabiler URL) - Enthält alle wichtigen Seiten
- Enthält KEINE noindex-Seiten
- Enthält KEINE 404er oder Redirects
- Unter 50.000 URLs / 50 MB
- In robots.txt verlinkt
- In Google Search Console eingereicht
- Keine Fehler in GSC
Fazit: Klein, aber mächtig
robots.txt und XML-Sitemaps sind unscheinbare Textdateien – aber mit enormer Wirkung. Richtig eingesetzt, optimieren sie Ihr Crawl-Budget, beschleunigen die Indexierung, und verhindern Duplicate-Content-Probleme.
Meine Empfehlung:
- Erstellen Sie eine robots.txt mit sinnvollen Disallows (Admin, Warenkorb, Parameter-URLs)
- Nutzen Sie ein CMS-Plugin oder Tool für automatische Sitemap-Generierung
- Reichen Sie die Sitemap in Google Search Console ein
- Testen Sie alles gründlich
- Überprüfen Sie regelmäßig auf Fehler
Und bitte: Seien Sie vorsichtig mit robots.txt-Änderungen. Ein einziger Fehler kann Ihre gesamte Website de-indexieren. Testen Sie immer erst auf Staging!
Wenn Sie unsicher sind: Lieber eine minimalistische robots.txt als eine, die zu viel blockiert.
Viel Erfolg beim Optimieren Ihrer Crawling-Strategie!