Giga Codes Web-Solutions
HowTo

Home | Neues Thema | Suche | Hilfe | Admin

» Foren Übersicht » HowTo » Thema: mit robots.txt das indizieren von Webseiten verhindern

Gesendet am 20/04/06 15:01:21
Autor: Giga Codes Support
Thema: mit robots.txt das indizieren von Webseiten verhindern
Beitrag:
» Bearbeiten

Ist es nicht erwünscht, das bestimmte Unterverzeichnisse oder Ihr gesamter Webauftritt in Suchmaschinen erscheint, so kann man versuchen dieses mit Hilfe der Datei "robots.txt" zu verhindern. Versuchen deshalb, da nicht jeder Robot (Suchmaschine) sich an diese Regel hält.

Sie müssen dazu eine Datei mit dem Namen "robots.txt" im root-Verzeichnis Ihres Webauftrittes ablegen.

Ist diese Datei nicht vorhanden oder ist diese leer, so ist es allen Robots erlaubt ihre Webseiten zu indizieren.

Die Datei enthält folgende Parameter:

"User-agent:"
"Disallow:"

Mit "User-agent:" wird der Robot angegeben, für den die folgenden "Disallow:" Zeilen gelten. Wildcard's wie "*" sind möglich. Eine leere robots.txt entspricht einer mit folgendem Inhalt:

User-agent: *
Disallow:

Hier wird allen Suchmaschinen (*) nichts verboten.

Möchte man dem robot von Google explizit ausschließen, so ist folgender Eintrag richtig:

User-agent: google
Disallow: /

Es reicht dabei aus, einen Teilstring des tatsächlichen User Agents des Robots anzugeben. Bei google ist es "googlebot", aber google reicht vollkommen aus.

Beispiel für eine robots.txt-Datei:

#meine robots.txt Datei
User-agent: lycra
Disallow: /
User-agent: *
Disallow: /test/
Disallow: /logfiles/

Das Zeichen "#" leidet einen Kommentar ein. Dieses wird von Suchmaschinen nicht gelesen. Hier wird dem robot "lycra" alles Verboten und allen anderen nur der Zutritt für die Verzeichnisse "test" und "logfiles" untersagt.

Nun sollten Sie also in der Lage sein Ihre eigene robots.txt Datei zu Basteln. Bitte beachten Sie noch einmal den Hinweis, das nicht alle Suchmaschinen sich an dieses halten - zum Glück aber fast alle.

Weitere Informationen finden Sie unter: http://www.robotstxt.org/wc/exclusion-admin.html

Zurück

Powered by SimpleForum