TECHNIK10 Min. Lesezeit

robots.txt: Was sie ist und wie Sie sie für SEO nutzen

Paul Golz

Gründer & SEO-Stratege, Daalsen

01. März 2026

Die robots.txt ist eine kleine Textdatei im Stammverzeichnis Ihrer Website. Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche sie crawlen dürfen und welche nicht. In diesem Lexikon-Artikel erfahren Sie, was die robots.txt ist, wie sie aufgebaut ist, wie Sie Allow/Disallow nutzen und welche Fehler Sie vermeiden – wichtig für SEO und technisches SEO.

Was ist die robots.txt? Definition

Die robots.txt ist eine Datei im Root Ihrer Domain (z. B. https://www.beispiel.de/robots.txt). Suchmaschinen wie Google rufen sie vor dem Crawling ab, um zu prüfen, ob und wo sie crawlen dürfen. Sie ist Teil des Robots Exclusion Protocol und wird von allen großen Suchmaschinen unterstützt.

Wichtig: Die robots.txt steuert nur das Crawling, nicht die Indexierung. Eine mit Disallow blockierte Seite wird möglicherweise nicht gecrawlt, kann aber trotzdem indexiert werden, wenn Google die URL aus anderen Quellen kennt. Um Seiten von der Suche auszuschließen, brauchen Sie zusätzlich noindex oder andere Maßnahmen.

Aufbau der robots.txt

Die Datei besteht aus Zeilen mit Direktiven. Pro Crawler (User-agent) können Sie Regeln vergeben. Typischer Aufbau:

User-agent: *
Disallow: /admin/
Disallow: /temp/
Allow: /admin/public/

Sitemap: https://www.beispiel.de/sitemap.xml

User-agent: * – gilt für alle Crawler (Googlebot, Bingbot etc.). Sie können auch spezifische User-agents ansprechen (z. B. User-agent: Googlebot).
Disallow: – Pfade, die nicht gecrawlt werden sollen. Leer lassen = alles erlauben.
Allow: – Ausnahme innerhalb eines blockierten Bereichs (z. B. eine Unterordnung wieder erlauben).
Sitemap: – URL Ihrer Sitemap. Hilft Crawlern, alle relevanten Seiten zu finden.

Typische Anwendungen

Nur Sitemap angeben, alles erlauben:

User-agent: *
Allow: /

Sitemap: https://www.beispiel.de/sitemap.xml

Admin-, Backend- und Such-URLs blockieren:

Viele Websites blockieren /admin/, /wp-admin/, /search?, /cart? oder ähnliche Pfade, die für Nutzer und SEO wenig Mehrwert haben. So sparen Sie Crawl-Budget und vermeiden, dass Duplikate oder interne Suchresultate indexiert werden.

Häufige Fehler vermeiden

Wichtige Seiten versehentlich blockieren: Prüfen Sie, ob kein Disallow für Bereiche gilt, die in der Suche erscheinen sollen (z. B. /blog/, /leistungen/). Ein falscher Disallow: / kann die gesamte Seite vom Crawling ausschließen.
robots.txt an falscher Stelle: Die Datei muss unter der Hauptdomain erreichbar sein. Subdomains haben eine eigene robots.txt.
Groß-/Kleinschreibung und Schrägstriche: Bei einigen Crawlern sind Pfade case-sensitive. Einheitliche Schreibweise und klare Pfade vermeiden Missverständnisse.

Für eine vollständige technische Basis empfehlen wir neben der robots.txt eine aktuelle Sitemap, saubere Canonical URLs und eine schnelle, mobilfreundliche Website – Themen unseres technischen SEO für Hamburg und Norddeutschland.

Zusammenfassung

Die robots.txt liegt im Root Ihrer Domain und steuert, was Crawler crawlen dürfen.
Disallow blockiert Crawling, nicht zwingend die Indexierung; für Ausschluss aus der Suche noindex nutzen.
Sitemap in der robots.txt angeben, damit Suchmaschinen alle relevanten URLs finden.
Wichtige Inhalte nicht versehentlich blockieren – vor Go-Live prüfen.

Praxis-Tipp: Im SEO-Audit prüfen wir unter anderem Ihre robots.txt und Crawlbarkeit. Kontaktieren Sie uns für eine unverbindliche Erstberatung.

Häufig gestellte Fragen

Was ist die robots.txt?

Die robots.txt ist eine Textdatei im Stammverzeichnis Ihrer Website (z. B. beispiel.de/robots.txt). Sie gibt Suchmaschinen-Crawlern Anweisungen, welche Pfade sie crawlen dürfen (Allow) oder nicht crawlen sollen (Disallow). Sie steuert nicht, ob eine Seite indexiert wird – dafür sind noindex oder Canonical zuständig.

Wo liegt die robots.txt?

Die robots.txt muss im Root Ihrer Domain erreichbar sein: https://ihredomain.de/robots.txt. Nur dort suchen Crawler danach. In Unterordnern platzierte robots.txt-Dateien werden von Google nicht beachtet.

Blockiert Disallow die Indexierung?

Nein. Disallow sagt dem Crawler nur: „Crawle diese URL nicht.“ Wenn die Seite trotzdem von anderen Seiten verlinkt wird oder Google die URL kennt, kann Google sie dennoch indexieren. Um Seiten von der Indexierung auszuschließen, nutzen Sie noindex (Meta-Tag oder Header) oder entfernen Sie die Seite aus der Sitemap und blockieren Sie sie in der robots.txt.

Soll ich die Sitemap in der robots.txt angeben?

Ja. Über die Zeile Sitemap: https://ihredomain.de/sitemap.xml teilen Sie Crawlern mit, wo Ihre Sitemap liegt. Das hilft Google, alle relevanten Seiten zu finden. Sie können mehrere Sitemaps angeben.

Quellen & Referenzen

Google Search Central, robots.txt — Google
Robots Exclusion Protocol — robotstxt.org
Google SEO Starter Guide — Google

Über Paul Golz

Gründer & SEO-Stratege, Daalsen

Paul Golz ist Gründer der SEO-Agentur Daalsen in Hamburg. Er berät Unternehmen zu technischem SEO, Crawling und Indexierung.

Individuelle Beratung gewünscht?

Sie haben Fragen zu SEO, GEO oder der digitalen Sichtbarkeit Ihres Unternehmens? Wir beraten Sie kostenlos und unverbindlich.

Mehr zu unseren Leistungen: SEO Optimierung · SEO Hamburg

Kontakt aufnehmen SEO Optimierung Zurück zum Lexikon

Alle Lexikon-Artikel

SEO Content Framework für die Auswahl einer SEO-Agentur in Hamburg, Laptop mit Dashboard, Keywords und KPIs am Schreibtisch

12.03.2026

SEO Content Framework: So wählen Sie eine SEO-Agentur in Hamburg und verbessern Ihre Google-Platzierung

Ein SEO Content Framework macht Agenturen vergleichbar: lokale SEO, Technik, AI-Content, Tracking...