robots.txt und llms.txt richtig einrichten - Anleitung für Blogs, Online Shops und Firmenwebseiten

Was ist eine robots.txt Datei?
Aufbau und Speicherort der robots.txt
Was sollte eine robots.txt Datei beinhalten?
Welche Verzeichnisse sollte man ausblenden?
Übersicht nach Seitentyp
Kategorien und Schlagwörter ausblenden oder indexieren?
Worauf sollte man in Blogs, Online Shops und Firmenwebseiten achten?
robots.txt für WordPress: typische Einstellungen
Sitemap in der robots.txt verlinken
Meta Tags: noindex, nofollow, dofollow richtig einordnen
Was ist eine llms.txt Datei?
Tipps und Tricks rund um die robots.txt
FAQ zur robots.txt
Glossar

Was ist eine robots.txt Datei?

Wenn du deine Webseite für Suchmaschinen optimieren willst, kommst du früher oder später an einem Punkt vorbei: robots.txt richtig einrichten.

Die robots.txt ist eine einfache Textdatei im Root deiner Domain, zum Beispiel unter:

https://www.deineseite.de/robots.txt

In dieser Datei hinterlegst du Regeln für Webcrawler wie Googlebot, Bingbot oder andere Bots. Du gibst damit an, welche Bereiche deiner Seite gecrawlt werden dürfen und welche ausgespart werden sollen.

Wichtig:

Die robots.txt steuert das Crawling, also welche URLs ein Bot abrufen darf.
Sie ist nicht direkt dafür verantwortlich, ob eine Seite im Index landet – dafür sind Meta Tags wie noindex zuständig.

Die robots.txt ist also eine Art höfliche Hausordnung für Bots: „Hier darfst du rein, hier bitte nicht.“

Aufbau und Speicherort der robots.txt

Damit Suchmaschinen deine robots.txt finden, muss sie immer im Root der Domain liegen:

Richtig: https://www.beispiel.de/robots.txt
Falsch: https://www.beispiel.de/ordner/robots.txt

Subdomains brauchen jeweils eine eigene robots.txt, wenn du sie separat steuern willst, zum Beispiel:

https://shop.beispiel.de/robots.txt

Ein einfaches Grundgerüst sieht so aus:

User-agent: *
Disallow: 

Sitemap: https://www.beispiel.de/sitemap_index.xml

User-agent: * bedeutet: Die Regeln gelten für alle Crawler.
Disallow: ohne Pfad heißt: nichts ist gesperrt, alles darf gecrawlt werden.
Mit Sitemap: verlinkst du deine XML Sitemap, was für SEO sehr sinnvoll ist.

Ein praxisnahes Beispiel angelehnt an deine Notizen:

User-agent: *
Disallow: 
Disallow: /sh/
Disallow: /page/
Disallow: /tag/
Disallow: /de/tag/
Disallow: /en/tag/
Disallow: /cookies/
Disallow: /tags/
Disallow: /wp-content/cache/wpo-minify/
Disallow: /wp-content/uploads/wpo-plugins-tables-list.json

Sitemap: https://www.cosci.de/sitemap_index.xml

Damit blendest du zum Beispiel Caches, Tagseiten und technische Dateien aus dem Crawling aus und gibst gleichzeitig deine Sitemap an.

Was sollte eine robots.txt Datei beinhalten?

Wenn du deine robots.txt richtig einrichten möchtest, solltest du sie so schlank und klar wie möglich halten. Typische Inhalte:

Standard-Regeln für alle Crawler
Optionale Regeln für bestimmte Crawler (z. B. KI Bots)
Disallow-Regeln für technische und unwichtige Verzeichnisse
Verweis auf eine oder mehrere Sitemaps

Eine gute robots.txt sollte:

wichtige Inhalte niemals blockieren
das Crawlbudget nicht mit sinnlosen URLs verschwenden
klar erkennbar machen, wo die Hauptinhalte liegen

Welche Verzeichnisse sollte man ausblenden?

Nicht jede URL auf deiner Seite ist für Suchmaschinen spannend. Es gibt typische Kandidaten, die du in deiner robots.txt Anleitung berücksichtigen kannst.

Übersicht nach Seitentyp

Seitentyp	Häufig sinnvoll zu sperren	Wichtige Bereiche, nicht sperren
Blog	interne Suche, Paginierung wie `/page/`, Tag-Archive	Beiträge, Kategorien, Medien
Online Shop	Warenkorb, Checkout, Kundenkonto, interne Suche	Produktseiten, Kategorien, Landingpages
Firmenwebseite	Adminbereich, Test-Ordner, interne Tools	Leistungsseiten, Kontakt, Blog, Portfolio
Allgemein	Cache-Verzeichnisse, technische JSON Dateien	CSS, JS, Bilder, Schriften

Ein häufiger Fehler: Zu viel sperren.
Wenn du zum Beispiel ganze CSS- oder JavaScript Ordner blockierst, kann Google deine Seite nicht mehr richtig darstellen. Das kann sich negativ auf deine Rankings auswirken, weil die Seite „kaputt“ wirkt.

Kategorien und Schlagwörter ausblenden oder indexieren?

Gerade bei Blogs taucht oft die Frage auf: Soll ich Tags und Kategorien in der robots.txt sperren?

Grundgedanke:

Kategorien sind meistens thematisch sinnvoll aufgebaut und können gute Landingpages sein.
Schlagwörter (Tags) werden dagegen oft sehr inflationär verwendet und erzeugen viele dünne Seiten mit wenig Inhalt.

Möglicher Ansatz:

Kategorien: in der Regel lieber indexieren lassen, sofern sinnvoll gepflegt.
Schlagwörter: entweder bewusst pflegen und als Landingpages nutzen oder sie per Meta Tag noindex, follow aus dem Index nehmen.

Ich würde selten pauschal alle Kategorien oder Tags per robots.txt sperren. Besser ist oft:

schwache Archive über noindex, follow aus dem Index nehmen
gleichzeitig aber intern weiter verlinken, damit der Crawler die Links werten kann

Worauf sollte man in Blogs, Online Shops und Firmenwebseiten achten?

Wenn du eine robots.txt für WordPress, Online Shops oder Firmenwebseiten einrichtest, kannst du dich grob an diesen Punkten orientieren:

Wichtige Inhalte frei lassen
- Beiträge, Seiten, Produkte, Kategorien
Technische Bereiche sperren
- Admin, Cache, Logfiles, bestimmte JSON Dateien
Sitemap angeben
- Eine oder mehrere Sitemaps verlinken
Staging- und Testsysteme absichern
- Idealerweise per Passwortschutz, nicht nur über robots.txt

robots.txt für WordPress: typische Einstellungen

Viele WordPress Installationen nutzen ab Werk etwas in dieser Art:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Das ist ein sinnvoller Startpunkt. Ergänzend kannst du, wie in deinen Notizen, bestimmte Verzeichnisse ausblenden, zum Beispiel:

/wp-content/cache/
technische Dateien im Uploads Ordner
Tag-Pfade, wenn du sie nicht nutzen möchtest

Wichtig ist, dass du nicht aus Versehen komplette /wp-content/ Pfade sperrst, in denen wichtige CSS, JS oder Bilder liegen. Sonst sieht deine Seite für Crawler anders aus als für Besucher.

Sitemap in der robots.txt verlinken

Wenn du robots.txt richtig einrichten willst, gehört der Sitemap Eintrag fast immer dazu:

Sitemap: https://www.deineseite.de/sitemap_index.xml

Wenn du mehrere Sitemaps nutzt, kannst du diese auch alle auflisten. Viele SEO Plugins für WordPress erzeugen bereits eine Sitemap, zum Beispiel:

/sitemap_index.xml
/post-sitemap.xml
/page-sitemap.xml

Der Verweis in der robots.txt hilft Crawlern, die wichtigsten URLs schnell zu finden.

Meta Tags: noindex, nofollow, dofollow richtig einordnen

Neben der robots.txt gibt es Meta Tags, mit denen du das Verhalten von Suchmaschinen auf Seitenebene steuern kannst.

Typisch ist der Meta Tag:

<meta name="robots" content="noindex,follow">

Die wichtigsten Werte:

index – Seite darf indexiert werden
noindex – Seite soll nicht im Index erscheinen
follow – Links auf der Seite dürfen als Signal gewertet werden
nofollow – Links sollen nicht als Signal für Rankings gewertet werden

„Dofollow“ ist kein offizieller Wert, sondern einfach der Normalfall, wenn du follow verwendest oder gar nichts angibst.

Praxisbeispiele:

Blogbeitrag mit Mehrwert: index,follow
interne Suche, schwache Filterseiten: noindex,follow
gesponserte Links: zusätzlich rel="sponsored" oder rel="nofollow" im Link

robots.txt und Meta Tags gehören zusammen:

robots.txt steuert, ob eine URL gecrawlt werden darf.
Der Meta Tag steuert, ob eine gecrawlte URL im Index erscheinen soll.

Was ist eine llms.txt Datei?

Mit dem Aufkommen von KI Crawlern taucht immer öfter die Frage auf, wie man Inhalte gegenüber KI Modellen steuert. Hier kommt das Konzept einer llms.txt ins Spiel.

Die Idee dahinter:

Du legst eine Datei wie /llms.txt im Root deiner Webseite ab.
In dieser Datei beschreibst du, wie KI Crawler deine Inhalte nutzen dürfen.
Du kannst bestimmte Bereiche empfehlen, einschränken oder zur Nichtnutzung auffordern.

Während die robots.txt Crawler auf URL Ebene steuert, ist llms.txt eher eine Art Richtlinie und Kontextdatei für KI Modelle. Sie ist noch kein harter Webstandard, wird aber zunehmend als Ergänzung zur klassischen robots.txt diskutiert.

Zusätzlich kannst du bestimmte KI Crawler bereits in deiner robots.txt gezielt ansprechen, zum Beispiel:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Damit signalisierst du, dass diese Bots deine Seite nicht crawlen sollen, etwa um die Nutzung im KI Training einzuschränken.

Tipps und Tricks rund um die robots.txt

Ein paar praktische Hinweise zum Abschluss:

Weniger ist oft mehr
Halte die Datei übersichtlich. Ein paar gezielte Regeln sind besser als ein chaotisches Regelwerk.
Nicht als Sicherheitsfeature verwenden
Die robots.txt ist öffentlich einsehbar. Alles, was wirklich geheim ist, gehört hinter Authentifizierung oder Zugriffsschutz, nicht in die robots.txt.
Änderungen testen
Wenn du die robots.txt änderst, prüfe mit Online-Tools oder in der Search Console, ob die Regeln wie gewünscht greifen.
Staging-Umgebungen extra absichern
Staging Seiten sollten nicht nur eine robots.txt haben, sondern zusätzlich per Passwort geschützt sein.
Kombination nutzen
robots.txt richtig einrichten bedeutet immer: in Kombination mit Meta Tags, Canonical Tags, Sitemaps und sauberer interner Verlinkung denken, nicht isoliert.

FAQ zur robots.txt

Was passiert, wenn ich gar keine robots.txt habe?
Dann dürfen Crawler standardmäßig alles crawlen, was erreichbar ist. Das ist für viele kleinere Webseiten völlig in Ordnung, kann aber bei Shops und komplexen Projekten zu unnötigem Crawling führen.

Kann ich mit robots.txt Seiten komplett verstecken?
Nein. Die robots.txt ist nur eine Empfehlung an Crawler. Sie schützt nicht vor direktem Zugriff und verhindert nicht automatisch, dass URLs im Index auftauchen, wenn sie zum Beispiel von außen verlinkt werden.

Soll ich Bilder über robots.txt sperren?
In der Regel nicht. Bilder sind ein wichtiger Teil von SEO, zum Beispiel über die Bildersuche. Ausnahme: interne oder sensible Bilder, die nicht in der Öffentlichkeit landen sollen – die gehören eher in geschützte Bereiche.

Wie oft lesen Suchmaschinen meine robots.txt?
Crawling Bots holen sich die robots.txt regelmäßig neu. Änderungen werden daher meist relativ schnell berücksichtigt.

Kann ich mehrere Sitemaps in der robots.txt angeben?
Ja. Du kannst mehrere Sitemap: Einträge hinzufügen, etwa für Blog, Shop und Bilder.

Glossar

robots.txt
Textdatei im Root einer Domain, mit der du Webcrawlern sagst, welche Bereiche der Seite sie crawlen dürfen und welche nicht.

Crawler / Bot
Automatisiertes Programm, das Webseiten aufruft, Inhalte ausliest und für Suchmaschinen oder andere Dienste aufbereitet. Beispiele sind Googlebot oder Bingbot.

Crawlbudget
Bezeichnet grob, wie viele URLs einer Seite ein Crawler in einem bestimmten Zeitraum abruft. Je größer und komplizierter die Seite, desto wichtiger ist es, das Crawlbudget nicht mit unwichtigen URLs zu verschwenden.

Meta Tag noindex
Meta Tag im HTML Kopf einer Seite, der dem Crawler signalisiert, dass diese Seite nicht im Suchindex auftauchen soll.

Meta Tag nofollow
Meta Tag im HTML Kopf (oder Attribut am Link), der sagt, dass Links auf dieser Seite nicht als Ranking-Signal gewertet werden sollen.

Sitemap
Meist XML Datei, die eine Liste wichtiger URLs deiner Webseite enthält. Sie hilft Suchmaschinen, Inhalte schneller zu finden und besser zu verstehen.

llms.txt
Konzept für eine zusätzliche Datei im Root der Domain, in der du Richtlinien speziell für KI Crawler und Large Language Models hinterlegen kannst.

User-agent
Bezeichnung für den jeweiligen Bot oder Browser. In der robots.txt gibst du mit User-agent: an, für welchen Crawler eine Regel gilt.

Disallow
Direktive in der robots.txt, mit der du Pfade vom Crawling ausschließt.

Allow
Direktive in der robots.txt, mit der du Pfade explizit erlaubst, auch wenn ein übergeordneter Pfad eigentlich gesperrt ist.

robots.txt und llms.txt richtig einrichten: Praxisleitfaden für Blogs, Online Shops und Firmenwebseiten

Was ist eine robots.txt Datei?

Aufbau und Speicherort der robots.txt

Was sollte eine robots.txt Datei beinhalten?

Welche Verzeichnisse sollte man ausblenden?

Übersicht nach Seitentyp

Kategorien und Schlagwörter ausblenden oder indexieren?

Worauf sollte man in Blogs, Online Shops und Firmenwebseiten achten?

robots.txt für WordPress: typische Einstellungen

Sitemap in der robots.txt verlinken

Meta Tags: noindex, nofollow, dofollow richtig einordnen

Was ist eine llms.txt Datei?

Tipps und Tricks rund um die robots.txt

FAQ zur robots.txt

Glossar

Schreibe einen Kommentar Antwort abbrechen

Was ist eine robots.txt Datei?

Aufbau und Speicherort der robots.txt

Was sollte eine robots.txt Datei beinhalten?

Welche Verzeichnisse sollte man ausblenden?

Übersicht nach Seitentyp

Kategorien und Schlagwörter ausblenden oder indexieren?

Worauf sollte man in Blogs, Online Shops und Firmenwebseiten achten?

robots.txt für WordPress: typische Einstellungen

Sitemap in der robots.txt verlinken

Meta Tags: noindex, nofollow, dofollow richtig einordnen

Was ist eine llms.txt Datei?

Tipps und Tricks rund um die robots.txt

FAQ zur robots.txt

Glossar

Schreibe einen Kommentar Antwort abbrechen

Ähnliche Beiträge