robots.txt: wie du Crawler richtig steuerst (inkl. GPTBot und AI-Crawler 2026)

Konzept-Bild zum Glossar-Beitrag robots txt mit photorealistischer Arbeitsplatz-Szene

Inhalt

robots.txt ist eine Textdatei im Root einer Domain, die Crawlern mitteilt, welche URLs sie crawlen duerfen. 2026 ist ihre Bedeutung gewachsen: neben Googlebot und Bingbot muessen auch GPTBot, ClaudeBot, PerplexityBot und Google-Extended korrekt gesteuert werden – versehentliche Blockaden kosten KI-Sichtbarkeit.

AUF EINEN BLICK
  • Pfad: immer im Root-Verzeichnis der Domain.
  • Syntax: User-Agent + Allow/Disallow + Sitemap-Direktive.
  • 2026-Pflicht: GPTBot, ClaudeBot, PerplexityBot, Google-Extended zugaenglich lassen.
  • 33 % der SW-Mandate blockieren AI-Crawler versehentlich.
  • Sitemap-Hinweis: immer am Ende der Datei.
  • Hinweis, kein Befehl: Mainstream-Bots respektieren robots.txt.

Syntax und Pflicht-Regeln

Drei Hauptdirektiven: User-Agent (auf welchen Crawler bezieht sich die Regel), Allow/Disallow (was darf/darf nicht), Sitemap (Pfad zur XML-Sitemap). Beispiel: User-Agent Asterisk gefolgt von Allow Slash erlaubt allen Crawlern Zugang. User-Agent Googlebot mit Disallow Slash-Admin verbietet Googlebot den Zugang zum Admin-Pfad.

33 %
AI-Crawler-Blockaden
33 Prozent der SW-Mandate haben beim Erst-Audit versehentlich blockierte AI-Crawler in der robots.txt.

AI-Crawler 2026 richtig behandeln

Vier AI-Crawler sind 2026 relevant: GPTBot (OpenAI), ClaudeBot (Anthropic), PerplexityBot (Perplexity), Google-Extended (Bard/Gemini plus AI Overviews). Wer KI-Sichtbarkeit will, muss diese vier zugaenglich halten. Bei SW-Audits finden wir in 33 Prozent der Mandate versehentliche AI-Crawler-Blockaden.

„Robots.txt is the most consequential 100-byte file on most websites.“

Aleyda Solis, Founder Orainti, BrightonSEO 2024

Sitemap-Hinweis und Pfad-Wildcards

Wichtig am Ende: Sitemap-Direktive mit absoluter URL. Wildcards Asterisk und Dollar erlauben praezise Steuerung – etwa Disallow Slash-Asterisk-Fragezeichen-Asterisk verbietet alle URLs mit Query-String.

[ 4 AI-CRAWLER 2026 ]
01
GPTBot
OpenAI ChatGPT Suche.
02
ClaudeBot
Anthropic Claude.
03
PerplexityBot
Perplexity AI.
04
Google-Extended
Bard/Gemini plus AI Overviews.
Alle vier Pflicht-Zugang fuer KI-Sichtbarkeit.

Haeufige Fehler in robots.txt

Erstens zu aggressive Blockaden (Disallow Slash), die ganze Sites unindexierbar machen. Zweitens Blockade von CSS oder JS, die Googles Rendering kaputt machen. Drittens sensitive Inhalte via robots.txt verstecken – diese werden weiterhin indexiert, wenn extern verlinkt. Bei sensitiven Inhalten noindex Meta-Robots Tag verwenden, nicht robots.txt-Blockade.

[ KOSTENLOSER CHECK ]

Ist deine robots.txt 2026-fit fuer SEO und KI-Suche?

Wir pruefen alle Crawler-Regeln und Sitemap-Hinweise.

Wie sichtbar ist dein Unternehmen für ChatGPT & Co.?

Was viele falsch verstehen

Anti-PatternRichtige Praxis
AI-Crawler pauschal blockierenBewusste Entscheidung pro Crawler treffen.
CSS/JS in robots.txt blockierenCSS und JS zugaenglich – Googlebot braucht es zum Rendern.
Sensitives via robots.txt versteckennoindex Meta-Robots-Tag verwenden.
Crawl-delay verwendenGooglebot ignoriert es. GSC Crawl-Rate steuern.

Was du jetzt tun kannst

  1. Aktuelle robots.txt pruefen: direkt im Browser oeffnen.
  2. AI-Crawler-Check: sind GPTBot, ClaudeBot, PerplexityBot, Google-Extended nicht versehentlich blockiert?
  3. Sitemap-Direktive am Ende: korrekter Pfad zur XML-Sitemap.
[ JETZT STARTEN ]

Lass deine Crawler-Architektur pruefen

Wir auditieren robots.txt und Crawl-Verhalten – mit konkreten Empfehlungen. Kostenlos und unverbindlich.

Jetzt kostenlose Videoanalyse anfragen
★★★★★420+ erfolgreich betreute Unternehmen

Häufige Fragen

Was ist robots.txt?
robots.txt ist eine Textdatei im Root einer Domain, die Crawlern mitteilt, welche URLs sie crawlen duerfen. Seit 1994 als Robots Exclusion Protocol standardisiert.

Wo liegt die robots.txt?
Immer im Root-Verzeichnis der Domain. Andere Pfade werden ignoriert. Pro Domain und Subdomain eine separate Datei.

Wie blockiere ich AI-Crawler in robots.txt?
User-Agent GPTBot gefolgt von Disallow Slash blockiert GPTBot. Analog ClaudeBot, PerplexityBot, Google-Extended. Achtung: kostet KI-Sichtbarkeit.

Was ist der Unterschied zu Meta-Robots?
robots.txt steuert Crawl-Zugang vor dem Fetch. Meta-Robots-Tag steuert Indexierung nach dem Fetch.

Kann ich Wildcards in robots.txt nutzen?
Ja, Asterisk und Dollar werden von Googlebot und Mainstream-Crawlern unterstuetzt.

Wie sieht eine minimale robots.txt aus?
User-Agent Asterisk plus Allow Slash plus Sitemap-Direktive – erlaubt allen Crawlern Zugang.

Warum sollte ich AI-Crawler zulassen?
Forrester 2026: 71 Prozent der B2B-Kaeufer:innen nutzen KI-Suche vor Anbieterkontakt. Wer blockiert, ist unsichtbar in dieser Recherche-Phase.

Wie teste ich meine robots.txt?
Google Search Console hat ein robots.txt Tester-Tool.

thomas gal

Der Autor

Thomas Gal

Geschäftsführer von SichtbarerWerden, TÜV-zertifizierter Experte für Verkaufspsychologie. 420+ erfolgreich betreute Unternehmen, German Web Award Winner 2023.

Wie sichtbar ist dein Unternehmen bei Google & ChatGPT?

Wie sichtbar ist dein Unternehmen gerade? Erhalte in 60 Sekunden alle Zahlen, Daten & Fakten über deine Sichtbarkeit, deine Konkurrenten (die deine Kunden wegschnappen) und deine größten Hebel zum Wachstum.

Trage deine URL ein und erhalte sofort die Auswertung:

Wie sichtbar ist dein Unternehmen für ChatGPT & Co.?

Jetzt starten

Werde sichtbar und unvergleichbar.

Lass dein Unternehmen dort erscheinen, wo die Zukunft der Suche stattfindet: In den Antworten von ChatGPT, Perplexity, Gemini und Google AI Overviews. Starte mit einem kostenlosen KI-Sichtbarkeits-Check und erfahre, wie Generative Engine Optimization deine Sichtbarkeit transformiert.

jann kaporse.jpeg
gesicher boris grundl
gesichter ralf schmitz
gesicher maurice braun
gesicher matthias eser
gesicher ojo
gesicher wbd
gesichter richard
gesichter florian hoeper
gesicher socialnatives

420+ erfolgreich betreute Unternehmen

Nach oben scrollen