Eine falsche Zeile in der robots.txt – und ein Hotel in Naumburg verschwindet binnen Tagen aus dem Google-Index, ein Onlineshop einer Manufaktur in der Region liefert seine Produktseiten nicht mehr aus, ein Pflegedienst aus der Beispielregion-Neustadt sieht seine Standortseite nicht im Local Pack. Wer die Kontrolle darüber behalten will, welche Seiten Google crawlt und indexiert, kommt an robots.txt und Meta-Robots-Tags nicht vorbei. Beide Werkzeuge gehören zum Fundament der OnPage-Optimierung und SEO-Analyse – und werden in der Praxis erstaunlich oft falsch eingesetzt.

Was ist die robots.txt?

Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website (z. B. https://www.beispiel.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche Ihrer Website sie besuchen dürfen und welche nicht.

Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine blockierte Seite kann trotzdem im Index landen, wenn externe Links darauf verweisen.

# Einfache robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /

Sitemap: https://www.beispiel.de/sitemap.xml

Die Datei wird von Crawlern als erstes abgerufen, bevor sie eine Website durchsuchen. Fehlt sie oder ist sie fehlerhaft, crawlen Suchmaschinen grundsätzlich alles, was erreichbar ist.

Robots.txt Syntax im Detail

User-agent Direktiven

Der User-agent legt fest, für welchen Crawler die folgenden Regeln gelten. Ein Sternchen gilt für alle Bots:

# Regeln für alle Crawler
User-agent: *
Disallow: /intern/

# Spezifische Regeln nur für Google
User-agent: Googlebot
Disallow: /tmp/

# Spezifische Regeln für Bing
User-agent: Bingbot
Disallow: /archiv/

Spezifische User-agent-Regeln haben Vorrang vor allgemeinen Regeln. Wenn Sie sowohl * als auch Googlebot definieren, folgt der Googlebot nur den für ihn spezifischen Anweisungen.

Allow und Disallow Regeln

Mit Disallow sperren Sie Verzeichnisse oder Pfade, mit Allow geben Sie Ausnahmen innerhalb gesperrter Bereiche frei:

User-agent: *
# Gesamtes Admin-Verzeichnis sperren
Disallow: /admin/

# Aber die öffentliche Login-Seite erlauben
Allow: /admin/login/

# Alle URLs mit Parametern sperren
Disallow: /*?

# PDF-Dateien sperren
Disallow: /*.pdf$

Regeln werden von oben nach unten gelesen. Bei Konflikten gilt die spezifischere Regel (längerer Pfad).

Sitemap-Verweis

Am Ende der robots.txt sollte immer ein Verweis auf Ihre XML Sitemap stehen:

Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Der Sitemap-Verweis ist unabhängig vom User-agent und kann mehrfach vorkommen, falls Sie mehrere Sitemaps haben.

Crawl-delay

Einige Crawler wie Bingbot unterstützen die Crawl-delay-Direktive. Google ignoriert sie und nutzt stattdessen die Einstellungen in der Search Console:

User-agent: Bingbot
Crawl-delay: 10

User-agent: Googlebot
# Crawl-delay wird von Google nicht unterstützt
# Stattdessen: Search Console > Einstellungen > Crawling-Rate

Häufige Fehler in der robots.txt

Vorsicht: Ein falsches Zeichen kann Ihre gesamte Website aus dem Google-Index verschwinden lassen. Besonders gefährlich sind: Disallow: / ohne weitere Allow-Regeln (sperrt alles), fehlende Leerzeichen nach dem Doppelpunkt und Tippfehler in Verzeichnisnamen. Testen Sie Änderungen immer zuerst in der Google Search Console.

Meta-Robots Tags

Während die robots.txt das Crawling auf Verzeichnisebene steuert, bieten Meta-Robots-Tags Kontrolle auf Seitenebene. Sie werden im <head>-Bereich einer HTML-Seite platziert:

<!-- Seite nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">

<!-- Seite indexieren, aber Links nicht folgen -->
<meta name="robots" content="index, nofollow">

<!-- Kein Snippet in Suchergebnissen zeigen -->
<meta name="robots" content="nosnippet">

<!-- Keine zwischengespeicherte Version anzeigen -->
<meta name="robots" content="noarchive">

<!-- Bilder auf dieser Seite nicht indexieren -->
<meta name="robots" content="noimageindex">

<!-- Kombination mehrerer Direktiven -->
<meta name="robots" content="noindex, noarchive, nosnippet">

Wichtige Meta-Robots-Direktiven

| Direktive | Wirkung | |-----------|---------| | index | Seite darf indexiert werden (Standard) | | noindex | Seite soll NICHT indexiert werden | | follow | Links auf der Seite dürfen verfolgt werden (Standard) | | nofollow | Links sollen NICHT verfolgt werden | | noarchive | Keine Cached-Version in Suchergebnissen | | nosnippet | Kein Text-Snippet anzeigen | | noimageindex | Bilder nicht indexieren | | max-snippet:[n] | Maximale Snippet-Länge in Zeichen |

Sie können Meta-Robots auch nur für bestimmte Crawler setzen:

<!-- Nur für Google -->
<meta name="googlebot" content="noindex">

<!-- Nur für Bing -->
<meta name="bingbot" content="noindex">

X-Robots-Tag (HTTP-Header)

Für Nicht-HTML-Dateien wie PDFs oder Bilder verwenden Sie den X-Robots-Tag als HTTP-Header:

HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow

In der Apache-Konfiguration:

# PDFs von der Indexierung ausschließen
<FilesMatch "\.pdf$">
 Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>

Robots.txt vs. Meta Robots vs. X-Robots-Tag

| Eigenschaft | robots.txt | Meta Robots | X-Robots-Tag | | --- | --- | --- | --- | | Steuerungsebene | Verzeichnis / Pfad | Einzelne Seite | Einzelne Ressource | | Steuert Crawling | | | | | Steuert Indexierung | | | | | Für HTML-Seiten | | | | | Für PDFs/Bilder | | | | | Granularität | Grob (Pfad-basiert) | Fein (pro Seite) | Fein (pro Ressource) | | Umsetzung | Textdatei im Root | HTML <head>-Tag | HTTP-Header | | noindex möglich | | | | | nofollow möglich | | | | | Von Google beachtet | | | |

Best Practices

Was sollte blockiert werden?

Sperren Sie Bereiche, die keinen SEO-Wert haben und Crawl-Budget verschwenden:

/admin/ und /wp-admin/ - Backend-Bereiche
/warenkorb/ und /checkout/ - Transaktionsseiten
/suche/ und /?s= - Interne Suchergebnisse
/tag/ - Tag-Archive (häufig Thin Content)
/tmp/ und /cache/ - Temporäre Dateien
Parameter-URLs wie ?sort=, ?filter=, ?session=

Was sollte NICHT blockiert werden?

Diese Ressourcen müssen für Crawler zugänglich bleiben:

CSS- und JavaScript-Dateien - Google benötigt sie zum Rendern
Bilder - Wichtig für die Bild-Suche und Page Experience
Die Sitemap - Muss immer erreichbar sein
Seiten mit Canonical Tags - Canonical funktioniert nur, wenn die Seite gecrawlt wird
Wichtige Verzeichnisse wie /leistungen/, /blog/, /produkte/

Testing mit der Google Search Console

Öffnen Sie die Google Search Console
Navigieren Sie zu Einstellungen > robots.txt
Nutzen Sie den robots.txt-Tester zum Prüfen einzelner URLs
Überprüfen Sie unter Indexierung > Seiten den Status Ihrer Seiten
Nutzen Sie die URL-Prüfung für einzelne Seiten

Komplette robots.txt für eine typische Website

# robots.txt für www.beispiel.de
# Letzte Aktualisierung: 2026-03-27

# Allgemeine Regeln für alle Crawler
User-agent: *

# Backend und Admin sperren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/

# Interne Suche sperren
Disallow: /suche/
Disallow: /*?s=

# Warenkorb und Checkout sperren
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/

# Thin Content und Duplikate vermeiden
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=

# Technische Verzeichnisse
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/

# CSS, JS und Bilder explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/

# Sitemaps
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml

Profi-Tipp

Kombinieren Sie robots.txt mit Meta-Robots-Tags für maximale Kontrolle. Die robots.txt steuert, was gecrawlt wird, und Meta-Robots steuern, was indexiert wird. Für Seiten, die aus dem Index verschwinden sollen, verwenden Sie immer noindex per Meta-Tag - blockieren Sie diese Seiten aber NICHT per robots.txt, da Google sonst das noindex-Tag nicht lesen kann.

Häufige Fehler

Alles mit Disallow: / sperren - Der häufigste und folgenschwerste Fehler. Ihre gesamte Website verschwindet aus dem Index. Oft passiert dies nach einem Relaunch, wenn die Staging-robots.txt in die Produktion übernommen wird.
CSS und JavaScript blockieren - Google muss Ihre Seite rendern können. Wenn Sie CSS/JS sperren, kann Google Ihre Seite nicht richtig bewerten und das Ranking leidet.
robots.txt zur Indexierungssteuerung nutzen - Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Eine per robots.txt blockierte Seite kann trotzdem im Index erscheinen. Nutzen Sie stattdessen noindex.
noindex UND robots.txt-Block kombinieren - Wenn Google eine Seite nicht crawlen kann, sieht es auch das noindex-Tag nicht. Die Seite bleibt möglicherweise im Index.
Wildcard-Regeln ohne Tests - Regeln mit * und $ können unbeabsichtigt wichtige Seiten blockieren. Testen Sie jede Regel in der Search Console.
Sitemap-Verweis vergessen - Der Sitemap-Verweis in der robots.txt ist eine zusätzliche Absicherung, dass Crawler Ihre Sitemap finden.
Veraltete robots.txt nach Relaunch - Nach einem Website-Relaunch ändern sich oft URL-Strukturen. Passen Sie die robots.txt entsprechend an.

Fazit

Die richtige Konfiguration von robots.txt und Meta-Robots-Tags ist ein zentraler Bestandteil einer soliden technischen SEO-Strategie. Beide Werkzeuge ergänzen sich: Die robots.txt steuert effizient das Crawling ganzer Verzeichnisse, während Meta-Robots-Tags die Indexierung einzelner Seiten kontrollieren.

Nehmen Sie sich die Zeit, Ihre robots.txt regelmäßig zu prüfen und mit der Google Search Console zu testen. Fehler in diesem Bereich können gravierende Auswirkungen auf Ihre Sichtbarkeit haben.

Wir prüfen robots.txt- und Indexierungs-Setups regelmäßig für mittelständische Mandanten vor Ort, einer Beispielregion, Dessau-Roßlau und in der Region – im Rahmen unserer SEO-Analyse und OnPage-Optimierung. Wer lokal sichtbar werden will, kombiniert das mit Local-SEO der Beispielregion und SEO einer Beispielregion. Vertiefend zur technischen Seite finden Sie weitere Hinweise auf onpage-optimierung.de. Im Schwester-Beitrag auf einem Schwester-Standort zeigen wir die Variante mit dem .com-Profil; für Beispiele aus Sachsen lohnt der Blick auf einer Vergleichsregion.

Lesen Sie ergänzend unsere Beiträge XML-Sitemap optimieren und Crawl Budget steuern.

FAQ

Was passiert, wenn ich keine robots.txt habe?

Ohne robots.txt crawlen Suchmaschinen alle erreichbaren Seiten Ihrer Website. Das ist für kleine Websites meist unproblematisch. Bei größeren Websites kann es jedoch dazu führen, dass Crawl-Budget für unwichtige Seiten verschwendet wird - etwa für interne Suchergebnisse, Filterseiten oder Admin-Bereiche.

Kann ich mit robots.txt Seiten aus Google entfernen?

Nein. Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Wenn externe Links auf eine per robots.txt blockierte Seite verweisen, kann Google sie trotzdem indexieren - allerdings ohne den Inhalt zu kennen. Um Seiten aus dem Index zu entfernen, verwenden Sie das noindex Meta-Tag oder das Google URL Removal Tool in der Search Console.

Wie teste ich meine robots.txt?

Am zuverlässigsten testen Sie in der Google Search Console unter Einstellungen > robots.txt. Dort können Sie einzelne URLs eingeben und prüfen, ob sie blockiert oder erlaubt sind. Zusätzlich können Sie mit der URL-Prüfung sehen, ob Google eine bestimmte Seite crawlen und indexieren kann.

Blockiert robots.txt auch andere Suchmaschinen?

Die robots.txt gilt für alle Suchmaschinen-Crawler, die sich an das Robots Exclusion Protocol halten - also Google, Bing, Yahoo, Yandex und viele weitere. Allerdings halten sich nicht alle Bots daran. Malware-Bots oder Scraper ignorieren die robots.txt in der Regel. Für echten Zugriffsschutz benötigen Sie serverseitige Maßnahmen wie Passwortschutz oder IP-Blocking.

Wie oft sollte ich meine robots.txt aktualisieren?

Prüfen Sie Ihre robots.txt mindestens vierteljährlich sowie nach jedem Website-Relaunch, nach strukturellen Änderungen an der URL-Architektur und nach der Einführung neuer Bereiche wie einem Blog oder Shop. Eine veraltete robots.txt kann versehentlich neue, wichtige Seiten blockieren oder irrelevante Bereiche offenlassen.

Cookie	Zweck	Dauer	Anbieter
cookieConsent	Speichert Ihre Cookie-Einstellungen	1 Jahr	Eigene Website
theme	Speichert Ihre Farbschema-Praeferenz	1 Jahr	Eigene Website
session	Sitzungsmanagement für Formulare	Sitzung	Eigene Website

Cookie	Zweck	Dauer	Anbieter
language	Speichert Ihre Spracheinstellung	1 Jahr	Eigene Website
region	Speichert Ihre Regionseinstellung	1 Jahr	Eigene Website

robots.txt und Meta-Robots: Crawler-Steuerung im Überblick