robots.txt und llms.txt richtig einrichten: Praxisleitfaden für Blogs, Online Shops und Firmenwebseiten

Was ist eine robots.txt Datei?

Wenn du deine Webseite für Suchmaschinen optimieren willst, kommst du früher oder später an einem Punkt vorbei: robots.txt richtig einrichten.

Die robots.txt ist eine einfache Textdatei im Root deiner Domain, zum Beispiel unter:

  • https://www.deineseite.de/robots.txt

In dieser Datei hinterlegst du Regeln für Webcrawler wie Googlebot, Bingbot oder andere Bots. Du gibst damit an, welche Bereiche deiner Seite gecrawlt werden dürfen und welche ausgespart werden sollen.

Wichtig:

  • Die robots.txt steuert das Crawling, also welche URLs ein Bot abrufen darf.
  • Sie ist nicht direkt dafür verantwortlich, ob eine Seite im Index landet – dafür sind Meta Tags wie noindex zuständig.

Die robots.txt ist also eine Art höfliche Hausordnung für Bots: „Hier darfst du rein, hier bitte nicht.“

Aufbau und Speicherort der robots.txt

Damit Suchmaschinen deine robots.txt finden, muss sie immer im Root der Domain liegen:

  • Richtig: https://www.beispiel.de/robots.txt
  • Falsch: https://www.beispiel.de/ordner/robots.txt

Subdomains brauchen jeweils eine eigene robots.txt, wenn du sie separat steuern willst, zum Beispiel:

  • https://shop.beispiel.de/robots.txt

Ein einfaches Grundgerüst sieht so aus:

User-agent: *
Disallow: 

Sitemap: https://www.beispiel.de/sitemap_index.xml
  • User-agent: * bedeutet: Die Regeln gelten für alle Crawler.
  • Disallow: ohne Pfad heißt: nichts ist gesperrt, alles darf gecrawlt werden.
  • Mit Sitemap: verlinkst du deine XML Sitemap, was für SEO sehr sinnvoll ist.

Ein praxisnahes Beispiel angelehnt an deine Notizen:

User-agent: *
Disallow: 
Disallow: /sh/
Disallow: /page/
Disallow: /tag/
Disallow: /de/tag/
Disallow: /en/tag/
Disallow: /cookies/
Disallow: /tags/
Disallow: /wp-content/cache/wpo-minify/
Disallow: /wp-content/uploads/wpo-plugins-tables-list.json

Sitemap: https://www.cosci.de/sitemap_index.xml

Damit blendest du zum Beispiel Caches, Tagseiten und technische Dateien aus dem Crawling aus und gibst gleichzeitig deine Sitemap an.

Was sollte eine robots.txt Datei beinhalten?

Wenn du deine robots.txt richtig einrichten möchtest, solltest du sie so schlank und klar wie möglich halten. Typische Inhalte:

  • Standard-Regeln für alle Crawler
  • Optionale Regeln für bestimmte Crawler (z. B. KI Bots)
  • Disallow-Regeln für technische und unwichtige Verzeichnisse
  • Verweis auf eine oder mehrere Sitemaps

Eine gute robots.txt sollte:

  • wichtige Inhalte niemals blockieren
  • das Crawlbudget nicht mit sinnlosen URLs verschwenden
  • klar erkennbar machen, wo die Hauptinhalte liegen

Welche Verzeichnisse sollte man ausblenden?

Nicht jede URL auf deiner Seite ist für Suchmaschinen spannend. Es gibt typische Kandidaten, die du in deiner robots.txt Anleitung berücksichtigen kannst.

Übersicht nach Seitentyp

SeitentypHäufig sinnvoll zu sperrenWichtige Bereiche, nicht sperren
Bloginterne Suche, Paginierung wie /page/, Tag-ArchiveBeiträge, Kategorien, Medien
Online ShopWarenkorb, Checkout, Kundenkonto, interne SucheProduktseiten, Kategorien, Landingpages
FirmenwebseiteAdminbereich, Test-Ordner, interne ToolsLeistungsseiten, Kontakt, Blog, Portfolio
AllgemeinCache-Verzeichnisse, technische JSON DateienCSS, JS, Bilder, Schriften

Ein häufiger Fehler: Zu viel sperren.
Wenn du zum Beispiel ganze CSS- oder JavaScript Ordner blockierst, kann Google deine Seite nicht mehr richtig darstellen. Das kann sich negativ auf deine Rankings auswirken, weil die Seite „kaputt“ wirkt.

Kategorien und Schlagwörter ausblenden oder indexieren?

Gerade bei Blogs taucht oft die Frage auf: Soll ich Tags und Kategorien in der robots.txt sperren?

Grundgedanke:

  • Kategorien sind meistens thematisch sinnvoll aufgebaut und können gute Landingpages sein.
  • Schlagwörter (Tags) werden dagegen oft sehr inflationär verwendet und erzeugen viele dünne Seiten mit wenig Inhalt.

Möglicher Ansatz:

  • Kategorien: in der Regel lieber indexieren lassen, sofern sinnvoll gepflegt.
  • Schlagwörter: entweder bewusst pflegen und als Landingpages nutzen oder sie per Meta Tag noindex, follow aus dem Index nehmen.

Ich würde selten pauschal alle Kategorien oder Tags per robots.txt sperren. Besser ist oft:

  • schwache Archive über noindex, follow aus dem Index nehmen
  • gleichzeitig aber intern weiter verlinken, damit der Crawler die Links werten kann

Worauf sollte man in Blogs, Online Shops und Firmenwebseiten achten?

Wenn du eine robots.txt für WordPress, Online Shops oder Firmenwebseiten einrichtest, kannst du dich grob an diesen Punkten orientieren:

  1. Wichtige Inhalte frei lassen
    • Beiträge, Seiten, Produkte, Kategorien
  2. Technische Bereiche sperren
    • Admin, Cache, Logfiles, bestimmte JSON Dateien
  3. Sitemap angeben
    • Eine oder mehrere Sitemaps verlinken
  4. Staging- und Testsysteme absichern
    • Idealerweise per Passwortschutz, nicht nur über robots.txt

robots.txt für WordPress: typische Einstellungen

Viele WordPress Installationen nutzen ab Werk etwas in dieser Art:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Das ist ein sinnvoller Startpunkt. Ergänzend kannst du, wie in deinen Notizen, bestimmte Verzeichnisse ausblenden, zum Beispiel:

  • /wp-content/cache/
  • technische Dateien im Uploads Ordner
  • Tag-Pfade, wenn du sie nicht nutzen möchtest

Wichtig ist, dass du nicht aus Versehen komplette /wp-content/ Pfade sperrst, in denen wichtige CSS, JS oder Bilder liegen. Sonst sieht deine Seite für Crawler anders aus als für Besucher.

Sitemap in der robots.txt verlinken

Wenn du robots.txt richtig einrichten willst, gehört der Sitemap Eintrag fast immer dazu:

Sitemap: https://www.deineseite.de/sitemap_index.xml

Wenn du mehrere Sitemaps nutzt, kannst du diese auch alle auflisten. Viele SEO Plugins für WordPress erzeugen bereits eine Sitemap, zum Beispiel:

  • /sitemap_index.xml
  • /post-sitemap.xml
  • /page-sitemap.xml

Der Verweis in der robots.txt hilft Crawlern, die wichtigsten URLs schnell zu finden.

Meta Tags: noindex, nofollow, dofollow richtig einordnen

Neben der robots.txt gibt es Meta Tags, mit denen du das Verhalten von Suchmaschinen auf Seitenebene steuern kannst.

Typisch ist der Meta Tag:

<meta name="robots" content="noindex,follow">

Die wichtigsten Werte:

  • index – Seite darf indexiert werden
  • noindex – Seite soll nicht im Index erscheinen
  • follow – Links auf der Seite dürfen als Signal gewertet werden
  • nofollow – Links sollen nicht als Signal für Rankings gewertet werden

„Dofollow“ ist kein offizieller Wert, sondern einfach der Normalfall, wenn du follow verwendest oder gar nichts angibst.

Praxisbeispiele:

  • Blogbeitrag mit Mehrwert: index,follow
  • interne Suche, schwache Filterseiten: noindex,follow
  • gesponserte Links: zusätzlich rel="sponsored" oder rel="nofollow" im Link

robots.txt und Meta Tags gehören zusammen:

  • robots.txt steuert, ob eine URL gecrawlt werden darf.
  • Der Meta Tag steuert, ob eine gecrawlte URL im Index erscheinen soll.

Was ist eine llms.txt Datei?

Mit dem Aufkommen von KI Crawlern taucht immer öfter die Frage auf, wie man Inhalte gegenüber KI Modellen steuert. Hier kommt das Konzept einer llms.txt ins Spiel.

Die Idee dahinter:

  • Du legst eine Datei wie /llms.txt im Root deiner Webseite ab.
  • In dieser Datei beschreibst du, wie KI Crawler deine Inhalte nutzen dürfen.
  • Du kannst bestimmte Bereiche empfehlen, einschränken oder zur Nichtnutzung auffordern.

Während die robots.txt Crawler auf URL Ebene steuert, ist llms.txt eher eine Art Richtlinie und Kontextdatei für KI Modelle. Sie ist noch kein harter Webstandard, wird aber zunehmend als Ergänzung zur klassischen robots.txt diskutiert.

Zusätzlich kannst du bestimmte KI Crawler bereits in deiner robots.txt gezielt ansprechen, zum Beispiel:

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

Damit signalisierst du, dass diese Bots deine Seite nicht crawlen sollen, etwa um die Nutzung im KI Training einzuschränken.

Tipps und Tricks rund um die robots.txt

Ein paar praktische Hinweise zum Abschluss:

  1. Weniger ist oft mehr
    Halte die Datei übersichtlich. Ein paar gezielte Regeln sind besser als ein chaotisches Regelwerk.
  2. Nicht als Sicherheitsfeature verwenden
    Die robots.txt ist öffentlich einsehbar. Alles, was wirklich geheim ist, gehört hinter Authentifizierung oder Zugriffsschutz, nicht in die robots.txt.
  3. Änderungen testen
    Wenn du die robots.txt änderst, prüfe mit Online-Tools oder in der Search Console, ob die Regeln wie gewünscht greifen.
  4. Staging-Umgebungen extra absichern
    Staging Seiten sollten nicht nur eine robots.txt haben, sondern zusätzlich per Passwort geschützt sein.
  5. Kombination nutzen
    robots.txt richtig einrichten bedeutet immer: in Kombination mit Meta Tags, Canonical Tags, Sitemaps und sauberer interner Verlinkung denken, nicht isoliert.

FAQ zur robots.txt

Was passiert, wenn ich gar keine robots.txt habe?
Dann dürfen Crawler standardmäßig alles crawlen, was erreichbar ist. Das ist für viele kleinere Webseiten völlig in Ordnung, kann aber bei Shops und komplexen Projekten zu unnötigem Crawling führen.

Kann ich mit robots.txt Seiten komplett verstecken?
Nein. Die robots.txt ist nur eine Empfehlung an Crawler. Sie schützt nicht vor direktem Zugriff und verhindert nicht automatisch, dass URLs im Index auftauchen, wenn sie zum Beispiel von außen verlinkt werden.

Soll ich Bilder über robots.txt sperren?
In der Regel nicht. Bilder sind ein wichtiger Teil von SEO, zum Beispiel über die Bildersuche. Ausnahme: interne oder sensible Bilder, die nicht in der Öffentlichkeit landen sollen – die gehören eher in geschützte Bereiche.

Wie oft lesen Suchmaschinen meine robots.txt?
Crawling Bots holen sich die robots.txt regelmäßig neu. Änderungen werden daher meist relativ schnell berücksichtigt.

Kann ich mehrere Sitemaps in der robots.txt angeben?
Ja. Du kannst mehrere Sitemap: Einträge hinzufügen, etwa für Blog, Shop und Bilder.

Glossar

robots.txt
Textdatei im Root einer Domain, mit der du Webcrawlern sagst, welche Bereiche der Seite sie crawlen dürfen und welche nicht.

Crawler / Bot
Automatisiertes Programm, das Webseiten aufruft, Inhalte ausliest und für Suchmaschinen oder andere Dienste aufbereitet. Beispiele sind Googlebot oder Bingbot.

Crawlbudget
Bezeichnet grob, wie viele URLs einer Seite ein Crawler in einem bestimmten Zeitraum abruft. Je größer und komplizierter die Seite, desto wichtiger ist es, das Crawlbudget nicht mit unwichtigen URLs zu verschwenden.

Meta Tag noindex
Meta Tag im HTML Kopf einer Seite, der dem Crawler signalisiert, dass diese Seite nicht im Suchindex auftauchen soll.

Meta Tag nofollow
Meta Tag im HTML Kopf (oder Attribut am Link), der sagt, dass Links auf dieser Seite nicht als Ranking-Signal gewertet werden sollen.

Sitemap
Meist XML Datei, die eine Liste wichtiger URLs deiner Webseite enthält. Sie hilft Suchmaschinen, Inhalte schneller zu finden und besser zu verstehen.

llms.txt
Konzept für eine zusätzliche Datei im Root der Domain, in der du Richtlinien speziell für KI Crawler und Large Language Models hinterlegen kannst.

User-agent
Bezeichnung für den jeweiligen Bot oder Browser. In der robots.txt gibst du mit User-agent: an, für welchen Crawler eine Regel gilt.

Disallow
Direktive in der robots.txt, mit der du Pfade vom Crawling ausschließt.

Allow
Direktive in der robots.txt, mit der du Pfade explizit erlaubst, auch wenn ein übergeordneter Pfad eigentlich gesperrt ist.

Durchschnittliche Bewertung 0 / 5. Bewertungen: 0

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Nach oben scrollen