Die robots.txt ist eine kleine Textdatei im Stammverzeichnis Ihrer Website. Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche sie crawlen dürfen und welche nicht. In diesem Lexikon-Artikel erfahren Sie, was die robots.txt ist, wie sie aufgebaut ist, wie Sie Allow/Disallow nutzen und welche Fehler Sie vermeiden – wichtig für SEO und technisches SEO.
Was ist die robots.txt? Definition
Die robots.txt ist eine Datei im Root Ihrer Domain (z. B. https://www.beispiel.de/robots.txt). Suchmaschinen wie Google rufen sie vor dem Crawling ab, um zu prüfen, ob und wo sie crawlen dürfen. Sie ist Teil des Robots Exclusion Protocol und wird von allen großen Suchmaschinen unterstützt.
Wichtig: Die robots.txt steuert nur das Crawling, nicht die Indexierung. Eine mit Disallow blockierte Seite wird möglicherweise nicht gecrawlt, kann aber trotzdem indexiert werden, wenn Google die URL aus anderen Quellen kennt. Um Seiten von der Suche auszuschließen, brauchen Sie zusätzlich noindex oder andere Maßnahmen.
Aufbau der robots.txt
Die Datei besteht aus Zeilen mit Direktiven. Pro Crawler (User-agent) können Sie Regeln vergeben. Typischer Aufbau:
User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /admin/public/
Sitemap: https://www.beispiel.de/sitemap.xml
- User-agent: * – gilt für alle Crawler (Googlebot, Bingbot etc.). Sie können auch spezifische User-agents ansprechen (z. B. User-agent: Googlebot).
- Disallow: – Pfade, die nicht gecrawlt werden sollen. Leer lassen = alles erlauben.
- Allow: – Ausnahme innerhalb eines blockierten Bereichs (z. B. eine Unterordnung wieder erlauben).
- Sitemap: – URL Ihrer Sitemap. Hilft Crawlern, alle relevanten Seiten zu finden.
Typische Anwendungen
Nur Sitemap angeben, alles erlauben:
User-agent: *
Allow: /
Sitemap: https://www.beispiel.de/sitemap.xml
Admin-, Backend- und Such-URLs blockieren:
Viele Websites blockieren /admin/, /wp-admin/, /search?, /cart? oder ähnliche Pfade, die für Nutzer und SEO wenig Mehrwert haben. So sparen Sie Crawl-Budget und vermeiden, dass Duplikate oder interne Suchresultate indexiert werden.
Häufige Fehler vermeiden
- Wichtige Seiten versehentlich blockieren: Prüfen Sie, ob kein Disallow für Bereiche gilt, die in der Suche erscheinen sollen (z. B. /blog/, /leistungen/). Ein falscher Disallow: / kann die gesamte Seite vom Crawling ausschließen.
- robots.txt an falscher Stelle: Die Datei muss unter der Hauptdomain erreichbar sein. Subdomains haben eine eigene robots.txt.
- Groß-/Kleinschreibung und Schrägstriche: Bei einigen Crawlern sind Pfade case-sensitive. Einheitliche Schreibweise und klare Pfade vermeiden Missverständnisse.
Für eine vollständige technische Basis empfehlen wir neben der robots.txt eine aktuelle Sitemap, saubere Canonical URLs und eine schnelle, mobilfreundliche Website – Themen unseres technischen SEO für Hamburg und Norddeutschland.
Zusammenfassung
- Die robots.txt liegt im Root Ihrer Domain und steuert, was Crawler crawlen dürfen.
- Disallow blockiert Crawling, nicht zwingend die Indexierung; für Ausschluss aus der Suche noindex nutzen.
- Sitemap in der robots.txt angeben, damit Suchmaschinen alle relevanten URLs finden.
- Wichtige Inhalte nicht versehentlich blockieren – vor Go-Live prüfen.
Praxis-Tipp: Im SEO-Audit prüfen wir unter anderem Ihre robots.txt und Crawlbarkeit. Kontaktieren Sie uns für eine unverbindliche Erstberatung.



