Die robots.txt
gibt es natürlich auch in WordPress. Diese Datei liegt bei einer WordPress Installation allerdings nicht, wie sonst üblich, im Hauptverzeichnis der Domain (http://ihre-domain.com/robots.txt). WordPress legt diese Datei virtuell an.
Was bringt die robots.txt?
Mit der Datei robots.txt können wir Suchmaschinen wie zB Google mitteilen, welche Ordner oder Dateien von unserer Domain durchsucht werden dürfen. Sollte eine sitemap.xml
vorhanden sein, was in Bezug auf die Suchmaschinen Optimierung ohnehin ratsam ist, können und sollten wir auch diese in die robots.txt eintragen.
Welche Möglichkeiten der Bearbeitung stehen uns zur Verfügung?
Bearbeiten kann man die robots.txt natürlich, wie bei normalen Webseiten ohne ein CMS wie WordPress im Hintergrund auch, manuell indem man eine robots.txt mit dem gewünschten Inhalt erstellt und diese in das Hauptverzeichnis der Domain zB per FTP hochladet. Hat man allerdings keinen direkten Zugriff auf dem Webserver, dann können wir die Datei mittels eines Plugins wie WP Robots Txt virtuell bearbeiten.
Ich würde ohnehin das Plugin vorziehen. Andere Plugins, wie zB Google XML Sitemap, haben über die virtuelle robots.txt die Möglichkeit, ihre Einträge zu machen. Bei einer selbst angelegten Datei müssen wir diese Einträge selbst hinzufügen. Das Plugin WP Robots Txt stellt uns für die Bearbeitung der virtuellen robots.txt unter den Einstellungen im WordPress Dashboard -> Lesen ein Textfeld zur Verfügung, in dem wir die gewünschten Einstellungen vornehmen können.
Für reine private Webseiten, welche nicht in den Index der Suchmaschinen aufgenommen werden soll, würde der Eintrage wie folgt aussehen.
User-agent: * Disallow: /
User-agent: *
heist in diesem Fall, dass unser Eintrag für alle Suchmaschinen gilt. Mit Disallow: /
verbieten wir das komplette durchsuchen unserer Webseite. Das Gegenteil realisieren wir, indem wir / weglassen.
User-agent: * Disallow:
Benutzerdefinierte Ordner oder Seiten, welche wir von den Suchmaschinen ausschließen wollen, fügen wir auf folgende weise hinzu.
User-agent: * Disallow: /ordner-1 Disallow: /hauptordener/unterordner Disallow: /seite-1 Disallow: /php-seite.php Disallow: /html-seite.html
Das Prinzip der robots.txt sollte jedem klar sein. Ohne jetzt den Arikel unnötig in die Länge zu ziehen verweise ich auf die Webseite www.robotsgenerator.com, auf wir einen empfohlenen Inhalt der robots.txt für WordPress finden können.
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /category Disallow: /tag Disallow: /author Disallow: /trackback Disallow: /*trackback Disallow: /*trackback* Disallow: /*/trackback Disallow: /*?* Disallow: /*.html/$ Disallow: /*feed* # Google Image User-agent: Googlebot-Image Disallow: Allow: /* # Google AdSense User-agent: Mediapartners-Google* Disallow: Allow: /* Sitemap: http://www.yoursite.com/sitemap.xml
Bei Verwendung des Plugins Google XML Sitemap lassen sie die Zeile Sitemap:… einfach weg, da diese in der virtuellen robots.txt direkt über das Plugin angelegt wird. Auch sonst können sie die Datei natürlich nach belieben bzw. nach ihren Bedürfnissen abändern.
Bitte beachten Sie, dass dieser Beitrag bereits vor über einem Jahr geschrieben wurde und unter umständen nicht mehr aktuell ist.