- Was ist eine robots.txt Datei?
- Aufbau und Speicherort der robots.txt
- Was sollte eine robots.txt Datei beinhalten?
- Welche Verzeichnisse sollte man ausblenden?
- Übersicht nach Seitentyp
- Kategorien und Schlagwörter ausblenden oder indexieren?
- Worauf sollte man in Blogs, Online Shops und Firmenwebseiten achten?
- robots.txt für WordPress: typische Einstellungen
- Sitemap in der robots.txt verlinken
- Meta Tags: noindex, nofollow, dofollow richtig einordnen
- Was ist eine llms.txt Datei?
- Tipps und Tricks rund um die robots.txt
- FAQ zur robots.txt
- Glossar
Was ist eine robots.txt Datei?
Wenn du deine Webseite für Suchmaschinen optimieren willst, kommst du früher oder später an einem Punkt vorbei: robots.txt richtig einrichten.
Die robots.txt ist eine einfache Textdatei im Root deiner Domain, zum Beispiel unter:
https://www.deineseite.de/robots.txt
In dieser Datei hinterlegst du Regeln für Webcrawler wie Googlebot, Bingbot oder andere Bots. Du gibst damit an, welche Bereiche deiner Seite gecrawlt werden dürfen und welche ausgespart werden sollen.
Wichtig:
- Die robots.txt steuert das Crawling, also welche URLs ein Bot abrufen darf.
- Sie ist nicht direkt dafür verantwortlich, ob eine Seite im Index landet – dafür sind Meta Tags wie
noindexzuständig.
Die robots.txt ist also eine Art höfliche Hausordnung für Bots: „Hier darfst du rein, hier bitte nicht.“
Aufbau und Speicherort der robots.txt
Damit Suchmaschinen deine robots.txt finden, muss sie immer im Root der Domain liegen:
- Richtig:
https://www.beispiel.de/robots.txt - Falsch:
https://www.beispiel.de/ordner/robots.txt
Subdomains brauchen jeweils eine eigene robots.txt, wenn du sie separat steuern willst, zum Beispiel:
https://shop.beispiel.de/robots.txt
Ein einfaches Grundgerüst sieht so aus:
User-agent: *
Disallow:
Sitemap: https://www.beispiel.de/sitemap_index.xml
User-agent: *bedeutet: Die Regeln gelten für alle Crawler.Disallow:ohne Pfad heißt: nichts ist gesperrt, alles darf gecrawlt werden.- Mit
Sitemap:verlinkst du deine XML Sitemap, was für SEO sehr sinnvoll ist.
Ein praxisnahes Beispiel angelehnt an deine Notizen:
User-agent: *
Disallow:
Disallow: /sh/
Disallow: /page/
Disallow: /tag/
Disallow: /de/tag/
Disallow: /en/tag/
Disallow: /cookies/
Disallow: /tags/
Disallow: /wp-content/cache/wpo-minify/
Disallow: /wp-content/uploads/wpo-plugins-tables-list.json
Sitemap: https://www.cosci.de/sitemap_index.xml
Damit blendest du zum Beispiel Caches, Tagseiten und technische Dateien aus dem Crawling aus und gibst gleichzeitig deine Sitemap an.
Was sollte eine robots.txt Datei beinhalten?
Wenn du deine robots.txt richtig einrichten möchtest, solltest du sie so schlank und klar wie möglich halten. Typische Inhalte:
- Standard-Regeln für alle Crawler
- Optionale Regeln für bestimmte Crawler (z. B. KI Bots)
- Disallow-Regeln für technische und unwichtige Verzeichnisse
- Verweis auf eine oder mehrere Sitemaps
Eine gute robots.txt sollte:
- wichtige Inhalte niemals blockieren
- das Crawlbudget nicht mit sinnlosen URLs verschwenden
- klar erkennbar machen, wo die Hauptinhalte liegen
Welche Verzeichnisse sollte man ausblenden?
Nicht jede URL auf deiner Seite ist für Suchmaschinen spannend. Es gibt typische Kandidaten, die du in deiner robots.txt Anleitung berücksichtigen kannst.
Übersicht nach Seitentyp
| Seitentyp | Häufig sinnvoll zu sperren | Wichtige Bereiche, nicht sperren |
|---|---|---|
| Blog | interne Suche, Paginierung wie /page/, Tag-Archive | Beiträge, Kategorien, Medien |
| Online Shop | Warenkorb, Checkout, Kundenkonto, interne Suche | Produktseiten, Kategorien, Landingpages |
| Firmenwebseite | Adminbereich, Test-Ordner, interne Tools | Leistungsseiten, Kontakt, Blog, Portfolio |
| Allgemein | Cache-Verzeichnisse, technische JSON Dateien | CSS, JS, Bilder, Schriften |
Ein häufiger Fehler: Zu viel sperren.
Wenn du zum Beispiel ganze CSS- oder JavaScript Ordner blockierst, kann Google deine Seite nicht mehr richtig darstellen. Das kann sich negativ auf deine Rankings auswirken, weil die Seite „kaputt“ wirkt.
Kategorien und Schlagwörter ausblenden oder indexieren?
Gerade bei Blogs taucht oft die Frage auf: Soll ich Tags und Kategorien in der robots.txt sperren?
Grundgedanke:
- Kategorien sind meistens thematisch sinnvoll aufgebaut und können gute Landingpages sein.
- Schlagwörter (Tags) werden dagegen oft sehr inflationär verwendet und erzeugen viele dünne Seiten mit wenig Inhalt.
Möglicher Ansatz:
- Kategorien: in der Regel lieber indexieren lassen, sofern sinnvoll gepflegt.
- Schlagwörter: entweder bewusst pflegen und als Landingpages nutzen oder sie per Meta Tag
noindex, followaus dem Index nehmen.
Ich würde selten pauschal alle Kategorien oder Tags per robots.txt sperren. Besser ist oft:
- schwache Archive über
noindex, followaus dem Index nehmen - gleichzeitig aber intern weiter verlinken, damit der Crawler die Links werten kann
Worauf sollte man in Blogs, Online Shops und Firmenwebseiten achten?
Wenn du eine robots.txt für WordPress, Online Shops oder Firmenwebseiten einrichtest, kannst du dich grob an diesen Punkten orientieren:
- Wichtige Inhalte frei lassen
- Beiträge, Seiten, Produkte, Kategorien
- Technische Bereiche sperren
- Admin, Cache, Logfiles, bestimmte JSON Dateien
- Sitemap angeben
- Eine oder mehrere Sitemaps verlinken
- Staging- und Testsysteme absichern
- Idealerweise per Passwortschutz, nicht nur über robots.txt
robots.txt für WordPress: typische Einstellungen
Viele WordPress Installationen nutzen ab Werk etwas in dieser Art:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Das ist ein sinnvoller Startpunkt. Ergänzend kannst du, wie in deinen Notizen, bestimmte Verzeichnisse ausblenden, zum Beispiel:
/wp-content/cache/- technische Dateien im Uploads Ordner
- Tag-Pfade, wenn du sie nicht nutzen möchtest
Wichtig ist, dass du nicht aus Versehen komplette /wp-content/ Pfade sperrst, in denen wichtige CSS, JS oder Bilder liegen. Sonst sieht deine Seite für Crawler anders aus als für Besucher.
Sitemap in der robots.txt verlinken
Wenn du robots.txt richtig einrichten willst, gehört der Sitemap Eintrag fast immer dazu:
Sitemap: https://www.deineseite.de/sitemap_index.xml
Wenn du mehrere Sitemaps nutzt, kannst du diese auch alle auflisten. Viele SEO Plugins für WordPress erzeugen bereits eine Sitemap, zum Beispiel:
/sitemap_index.xml/post-sitemap.xml/page-sitemap.xml
Der Verweis in der robots.txt hilft Crawlern, die wichtigsten URLs schnell zu finden.
Meta Tags: noindex, nofollow, dofollow richtig einordnen
Neben der robots.txt gibt es Meta Tags, mit denen du das Verhalten von Suchmaschinen auf Seitenebene steuern kannst.
Typisch ist der Meta Tag:
<meta name="robots" content="noindex,follow">
Die wichtigsten Werte:
index– Seite darf indexiert werdennoindex– Seite soll nicht im Index erscheinenfollow– Links auf der Seite dürfen als Signal gewertet werdennofollow– Links sollen nicht als Signal für Rankings gewertet werden
„Dofollow“ ist kein offizieller Wert, sondern einfach der Normalfall, wenn du follow verwendest oder gar nichts angibst.
Praxisbeispiele:
- Blogbeitrag mit Mehrwert:
index,follow - interne Suche, schwache Filterseiten:
noindex,follow - gesponserte Links: zusätzlich
rel="sponsored"oderrel="nofollow"im Link
robots.txt und Meta Tags gehören zusammen:
- robots.txt steuert, ob eine URL gecrawlt werden darf.
- Der Meta Tag steuert, ob eine gecrawlte URL im Index erscheinen soll.
Was ist eine llms.txt Datei?
Mit dem Aufkommen von KI Crawlern taucht immer öfter die Frage auf, wie man Inhalte gegenüber KI Modellen steuert. Hier kommt das Konzept einer llms.txt ins Spiel.
Die Idee dahinter:
- Du legst eine Datei wie
/llms.txtim Root deiner Webseite ab. - In dieser Datei beschreibst du, wie KI Crawler deine Inhalte nutzen dürfen.
- Du kannst bestimmte Bereiche empfehlen, einschränken oder zur Nichtnutzung auffordern.
Während die robots.txt Crawler auf URL Ebene steuert, ist llms.txt eher eine Art Richtlinie und Kontextdatei für KI Modelle. Sie ist noch kein harter Webstandard, wird aber zunehmend als Ergänzung zur klassischen robots.txt diskutiert.
Zusätzlich kannst du bestimmte KI Crawler bereits in deiner robots.txt gezielt ansprechen, zum Beispiel:
User-agent: GPTBot
Disallow: /
User-agent: Google-Extended
Disallow: /
Damit signalisierst du, dass diese Bots deine Seite nicht crawlen sollen, etwa um die Nutzung im KI Training einzuschränken.
Tipps und Tricks rund um die robots.txt
Ein paar praktische Hinweise zum Abschluss:
- Weniger ist oft mehr
Halte die Datei übersichtlich. Ein paar gezielte Regeln sind besser als ein chaotisches Regelwerk. - Nicht als Sicherheitsfeature verwenden
Die robots.txt ist öffentlich einsehbar. Alles, was wirklich geheim ist, gehört hinter Authentifizierung oder Zugriffsschutz, nicht in die robots.txt. - Änderungen testen
Wenn du die robots.txt änderst, prüfe mit Online-Tools oder in der Search Console, ob die Regeln wie gewünscht greifen. - Staging-Umgebungen extra absichern
Staging Seiten sollten nicht nur eine robots.txt haben, sondern zusätzlich per Passwort geschützt sein. - Kombination nutzen
robots.txt richtig einrichten bedeutet immer: in Kombination mit Meta Tags, Canonical Tags, Sitemaps und sauberer interner Verlinkung denken, nicht isoliert.
FAQ zur robots.txt
Was passiert, wenn ich gar keine robots.txt habe?
Dann dürfen Crawler standardmäßig alles crawlen, was erreichbar ist. Das ist für viele kleinere Webseiten völlig in Ordnung, kann aber bei Shops und komplexen Projekten zu unnötigem Crawling führen.
Kann ich mit robots.txt Seiten komplett verstecken?
Nein. Die robots.txt ist nur eine Empfehlung an Crawler. Sie schützt nicht vor direktem Zugriff und verhindert nicht automatisch, dass URLs im Index auftauchen, wenn sie zum Beispiel von außen verlinkt werden.
Soll ich Bilder über robots.txt sperren?
In der Regel nicht. Bilder sind ein wichtiger Teil von SEO, zum Beispiel über die Bildersuche. Ausnahme: interne oder sensible Bilder, die nicht in der Öffentlichkeit landen sollen – die gehören eher in geschützte Bereiche.
Wie oft lesen Suchmaschinen meine robots.txt?
Crawling Bots holen sich die robots.txt regelmäßig neu. Änderungen werden daher meist relativ schnell berücksichtigt.
Kann ich mehrere Sitemaps in der robots.txt angeben?
Ja. Du kannst mehrere Sitemap: Einträge hinzufügen, etwa für Blog, Shop und Bilder.
Glossar
robots.txt
Textdatei im Root einer Domain, mit der du Webcrawlern sagst, welche Bereiche der Seite sie crawlen dürfen und welche nicht.
Crawler / Bot
Automatisiertes Programm, das Webseiten aufruft, Inhalte ausliest und für Suchmaschinen oder andere Dienste aufbereitet. Beispiele sind Googlebot oder Bingbot.
Crawlbudget
Bezeichnet grob, wie viele URLs einer Seite ein Crawler in einem bestimmten Zeitraum abruft. Je größer und komplizierter die Seite, desto wichtiger ist es, das Crawlbudget nicht mit unwichtigen URLs zu verschwenden.
Meta Tag noindex
Meta Tag im HTML Kopf einer Seite, der dem Crawler signalisiert, dass diese Seite nicht im Suchindex auftauchen soll.
Meta Tag nofollow
Meta Tag im HTML Kopf (oder Attribut am Link), der sagt, dass Links auf dieser Seite nicht als Ranking-Signal gewertet werden sollen.
Sitemap
Meist XML Datei, die eine Liste wichtiger URLs deiner Webseite enthält. Sie hilft Suchmaschinen, Inhalte schneller zu finden und besser zu verstehen.
llms.txt
Konzept für eine zusätzliche Datei im Root der Domain, in der du Richtlinien speziell für KI Crawler und Large Language Models hinterlegen kannst.
User-agent
Bezeichnung für den jeweiligen Bot oder Browser. In der robots.txt gibst du mit User-agent: an, für welchen Crawler eine Regel gilt.
Disallow
Direktive in der robots.txt, mit der du Pfade vom Crawling ausschließt.
Allow
Direktive in der robots.txt, mit der du Pfade explizit erlaubst, auch wenn ein übergeordneter Pfad eigentlich gesperrt ist.

