Effektive Keyword-Recherche: Systematischer Praxisleitfaden
Keyword-Recherche systematisch durchführen: Seed-Keywords, Tools, Cluster-Bildung und Priorisierung nach Suchintention.
Rechtliches & Info
robots.txt und Meta-Robots-Tags richtig nutzen: Syntax, häufige Anwendungsfälle und typische Stolperfallen.
Eine falsche Zeile in der robots.txt – und ein Hotel in Naumburg verschwindet binnen Tagen aus dem Google-Index, ein Onlineshop einer Manufaktur in der Region liefert seine Produktseiten nicht mehr aus, ein Pflegedienst aus der Beispielregion-Neustadt sieht seine Standortseite nicht im Local Pack. Wer die Kontrolle darüber behalten will, welche Seiten Google crawlt und indexiert, kommt an robots.txt und Meta-Robots-Tags nicht vorbei. Beide Werkzeuge gehören zum Fundament der OnPage-Optimierung und SEO-Analyse – und werden in der Praxis erstaunlich oft falsch eingesetzt.
Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website (z. B. https://www.beispiel.de/robots.txt). Sie teilt Suchmaschinen-Crawlern mit, welche Bereiche Ihrer Website sie besuchen dürfen und welche nicht.
Wichtig: Die robots.txt steuert das Crawling, nicht die Indexierung. Eine blockierte Seite kann trotzdem im Index landen, wenn externe Links darauf verweisen.
# Einfache robots.txt
User-agent: *
Disallow: /admin/
Disallow: /warenkorb/
Allow: /
Sitemap: https://www.beispiel.de/sitemap.xml
Die Datei wird von Crawlern als erstes abgerufen, bevor sie eine Website durchsuchen. Fehlt sie oder ist sie fehlerhaft, crawlen Suchmaschinen grundsätzlich alles, was erreichbar ist.
Der User-agent legt fest, für welchen Crawler die folgenden Regeln gelten. Ein Sternchen gilt für alle Bots:
# Regeln für alle Crawler
User-agent: *
Disallow: /intern/
# Spezifische Regeln nur für Google
User-agent: Googlebot
Disallow: /tmp/
# Spezifische Regeln für Bing
User-agent: Bingbot
Disallow: /archiv/
Spezifische User-agent-Regeln haben Vorrang vor allgemeinen Regeln. Wenn Sie sowohl * als auch Googlebot definieren, folgt der Googlebot nur den für ihn spezifischen Anweisungen.
Mit Disallow sperren Sie Verzeichnisse oder Pfade, mit Allow geben Sie Ausnahmen innerhalb gesperrter Bereiche frei:
User-agent: *
# Gesamtes Admin-Verzeichnis sperren
Disallow: /admin/
# Aber die öffentliche Login-Seite erlauben
Allow: /admin/login/
# Alle URLs mit Parametern sperren
Disallow: /*?
# PDF-Dateien sperren
Disallow: /*.pdf$
Regeln werden von oben nach unten gelesen. Bei Konflikten gilt die spezifischere Regel (längerer Pfad).
Am Ende der robots.txt sollte immer ein Verweis auf Ihre XML Sitemap stehen:
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml
Der Sitemap-Verweis ist unabhängig vom User-agent und kann mehrfach vorkommen, falls Sie mehrere Sitemaps haben.
Einige Crawler wie Bingbot unterstützen die Crawl-delay-Direktive. Google ignoriert sie und nutzt stattdessen die Einstellungen in der Search Console:
User-agent: Bingbot
Crawl-delay: 10
User-agent: Googlebot
# Crawl-delay wird von Google nicht unterstützt
# Stattdessen: Search Console > Einstellungen > Crawling-Rate
Häufige Fehler in der robots.txt
Vorsicht: Ein falsches Zeichen kann Ihre gesamte Website aus dem Google-Index verschwinden lassen. Besonders gefährlich sind:
Disallow: /ohne weitere Allow-Regeln (sperrt alles), fehlende Leerzeichen nach dem Doppelpunkt und Tippfehler in Verzeichnisnamen. Testen Sie Änderungen immer zuerst in der Google Search Console.
Während die robots.txt das Crawling auf Verzeichnisebene steuert, bieten Meta-Robots-Tags Kontrolle auf Seitenebene. Sie werden im <head>-Bereich einer HTML-Seite platziert:
<!-- Seite nicht indexieren, Links nicht folgen -->
<meta name="robots" content="noindex, nofollow">
<!-- Seite indexieren, aber Links nicht folgen -->
<meta name="robots" content="index, nofollow">
<!-- Kein Snippet in Suchergebnissen zeigen -->
<meta name="robots" content="nosnippet">
<!-- Keine zwischengespeicherte Version anzeigen -->
<meta name="robots" content="noarchive">
<!-- Bilder auf dieser Seite nicht indexieren -->
<meta name="robots" content="noimageindex">
<!-- Kombination mehrerer Direktiven -->
<meta name="robots" content="noindex, noarchive, nosnippet">
| Direktive | Wirkung |
|---|---|
index | Seite darf indexiert werden (Standard) |
noindex | Seite soll NICHT indexiert werden |
follow | Links auf der Seite dürfen verfolgt werden (Standard) |
nofollow | Links sollen NICHT verfolgt werden |
noarchive | Keine Cached-Version in Suchergebnissen |
nosnippet | Kein Text-Snippet anzeigen |
noimageindex | Bilder nicht indexieren |
max-snippet:[n] | Maximale Snippet-Länge in Zeichen |
Sie können Meta-Robots auch nur für bestimmte Crawler setzen:
<!-- Nur für Google -->
<meta name="googlebot" content="noindex">
<!-- Nur für Bing -->
<meta name="bingbot" content="noindex">
Für Nicht-HTML-Dateien wie PDFs oder Bilder verwenden Sie den X-Robots-Tag als HTTP-Header:
HTTP/1.1 200 OK
X-Robots-Tag: noindex, nofollow
In der Apache-Konfiguration:
# PDFs von der Indexierung ausschließen
<FilesMatch "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</FilesMatch>
| Eigenschaft | robots.txt | Meta Robots | X-Robots-Tag |
|---|---|---|---|
| Steuerungsebene | Verzeichnis / Pfad | Einzelne Seite | Einzelne Ressource |
| Steuert Crawling | |||
| Steuert Indexierung | |||
| Für HTML-Seiten | |||
| Für PDFs/Bilder | |||
| Granularität | Grob (Pfad-basiert) | Fein (pro Seite) | Fein (pro Ressource) |
| Umsetzung | Textdatei im Root | HTML <head>-Tag | HTTP-Header |
| noindex möglich | |||
| nofollow möglich | |||
| Von Google beachtet |
Sperren Sie Bereiche, die keinen SEO-Wert haben und Crawl-Budget verschwenden:
?sort=, ?filter=, ?session=Diese Ressourcen müssen für Crawler zugänglich bleiben:
# robots.txt für www.beispiel.de
# Letzte Aktualisierung: 2026-03-27
# Allgemeine Regeln für alle Crawler
User-agent: *
# Backend und Admin sperren
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Disallow: /admin/
Disallow: /login/
# Interne Suche sperren
Disallow: /suche/
Disallow: /*?s=
# Warenkorb und Checkout sperren
Disallow: /warenkorb/
Disallow: /checkout/
Disallow: /mein-konto/
# Thin Content und Duplikate vermeiden
Disallow: /tag/
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?ref=
# Technische Verzeichnisse
Disallow: /tmp/
Disallow: /cache/
Disallow: /cgi-bin/
# CSS, JS und Bilder explizit erlauben
Allow: /wp-content/uploads/
Allow: /wp-content/themes/
Allow: /wp-content/plugins/
Allow: /assets/
# Sitemaps
Sitemap: https://www.beispiel.de/sitemap.xml
Sitemap: https://www.beispiel.de/sitemap-news.xml
Profi-Tipp
Kombinieren Sie robots.txt mit Meta-Robots-Tags für maximale Kontrolle. Die robots.txt steuert, was gecrawlt wird, und Meta-Robots steuern, was indexiert wird. Für Seiten, die aus dem Index verschwinden sollen, verwenden Sie immer
noindexper Meta-Tag - blockieren Sie diese Seiten aber NICHT per robots.txt, da Google sonst das noindex-Tag nicht lesen kann.
Alles mit Disallow: / sperren - Der häufigste und folgenschwerste Fehler. Ihre gesamte Website verschwindet aus dem Index. Oft passiert dies nach einem Relaunch, wenn die Staging-robots.txt in die Produktion übernommen wird.
CSS und JavaScript blockieren - Google muss Ihre Seite rendern können. Wenn Sie CSS/JS sperren, kann Google Ihre Seite nicht richtig bewerten und das Ranking leidet.
robots.txt zur Indexierungssteuerung nutzen - Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Eine per robots.txt blockierte Seite kann trotzdem im Index erscheinen. Nutzen Sie stattdessen noindex.
noindex UND robots.txt-Block kombinieren - Wenn Google eine Seite nicht crawlen kann, sieht es auch das noindex-Tag nicht. Die Seite bleibt möglicherweise im Index.
Wildcard-Regeln ohne Tests - Regeln mit * und $ können unbeabsichtigt wichtige Seiten blockieren. Testen Sie jede Regel in der Search Console.
Sitemap-Verweis vergessen - Der Sitemap-Verweis in der robots.txt ist eine zusätzliche Absicherung, dass Crawler Ihre Sitemap finden.
Veraltete robots.txt nach Relaunch - Nach einem Website-Relaunch ändern sich oft URL-Strukturen. Passen Sie die robots.txt entsprechend an.
Die richtige Konfiguration von robots.txt und Meta-Robots-Tags ist ein zentraler Bestandteil einer soliden technischen SEO-Strategie. Beide Werkzeuge ergänzen sich: Die robots.txt steuert effizient das Crawling ganzer Verzeichnisse, während Meta-Robots-Tags die Indexierung einzelner Seiten kontrollieren.
Nehmen Sie sich die Zeit, Ihre robots.txt regelmäßig zu prüfen und mit der Google Search Console zu testen. Fehler in diesem Bereich können gravierende Auswirkungen auf Ihre Sichtbarkeit haben.
Wir prüfen robots.txt- und Indexierungs-Setups regelmäßig für mittelständische Mandanten vor Ort, einer Beispielregion, Dessau-Roßlau und in der Region – im Rahmen unserer SEO-Analyse und OnPage-Optimierung. Wer lokal sichtbar werden will, kombiniert das mit Local-SEO der Beispielregion und SEO einer Beispielregion. Vertiefend zur technischen Seite finden Sie weitere Hinweise auf onpage-optimierung.de. Im Schwester-Beitrag auf einem Schwester-Standort zeigen wir die Variante mit dem .com-Profil; für Beispiele aus Sachsen lohnt der Blick auf einer Vergleichsregion.
Lesen Sie ergänzend unsere Beiträge XML-Sitemap optimieren und Crawl Budget steuern.
Ohne robots.txt crawlen Suchmaschinen alle erreichbaren Seiten Ihrer Website. Das ist für kleine Websites meist unproblematisch. Bei größeren Websites kann es jedoch dazu führen, dass Crawl-Budget für unwichtige Seiten verschwendet wird - etwa für interne Suchergebnisse, Filterseiten oder Admin-Bereiche.
Nein. Die robots.txt verhindert nur das Crawling, nicht die Indexierung. Wenn externe Links auf eine per robots.txt blockierte Seite verweisen, kann Google sie trotzdem indexieren - allerdings ohne den Inhalt zu kennen. Um Seiten aus dem Index zu entfernen, verwenden Sie das noindex Meta-Tag oder das Google URL Removal Tool in der Search Console.
Am zuverlässigsten testen Sie in der Google Search Console unter Einstellungen > robots.txt. Dort können Sie einzelne URLs eingeben und prüfen, ob sie blockiert oder erlaubt sind. Zusätzlich können Sie mit der URL-Prüfung sehen, ob Google eine bestimmte Seite crawlen und indexieren kann.
Die robots.txt gilt für alle Suchmaschinen-Crawler, die sich an das Robots Exclusion Protocol halten - also Google, Bing, Yahoo, Yandex und viele weitere. Allerdings halten sich nicht alle Bots daran. Malware-Bots oder Scraper ignorieren die robots.txt in der Regel. Für echten Zugriffsschutz benötigen Sie serverseitige Maßnahmen wie Passwortschutz oder IP-Blocking.
Prüfen Sie Ihre robots.txt mindestens vierteljährlich sowie nach jedem Website-Relaunch, nach strukturellen Änderungen an der URL-Architektur und nach der Einführung neuer Bereiche wie einem Blog oder Shop. Eine veraltete robots.txt kann versehentlich neue, wichtige Seiten blockieren oder irrelevante Bereiche offenlassen.
Wender Media unterstützt Sie bei der praktischen Umsetzung — von der technischen Konzeption bis zum Launch. Schreiben Sie uns, wir antworten innerhalb von 24 Stunden.
Jetzt Beratung anfragenKostenlos & unverbindlich — info@wendermedia.info
Keyword-Recherche systematisch durchführen: Seed-Keywords, Tools, Cluster-Bildung und Priorisierung nach Suchintention.
Duplicate Content erkennen und beheben: Canonical Tags, 301-Weiterleitungen, hreflang und Parameter-Handling.
Crawl-Budget optimieren: Welche Seiten Google crawlt, wie Sie unnötige URLs ausschließen und Indexierungssignale steuern.