Abkürzung: WP:SMI

Diese Seite informiert über die Problematik der Indexierung von Wikipedia-Inhalten durch externe Suchmaschinen. Sie kann über verschiedene Schlüsselwörter oder Listen erlaubt oder verboten werden. Es ist jedoch nicht garantiert, dass sich alle Suchmaschinen an die Indexierungsvorschrift halten. Einige Wikipedia-Mirrors entfernen die Vorschrift oder werden erfasst, weil die Listen nur für die Seite wikipedia.org gelten. Es kann also vorkommen, dass einige in der Wikipedia versteckte Seiten auf Mirrors doch in den Ergebnislisten der Suchmaschinen erscheinen.

Namensräume

Bearbeiten

Um Nutzern den Zugang zu Inhalten der Wikipedia zu ermöglichen ist wichtig, dass Wikipedia-Artikel durch Suchmaschinen wie beispielsweise Google, Bing oder Baidu gefunden werden. Deshalb wird der Artikelnamensraum grundsätzlich für die Indexierungsbots bzw. Webcrawler sichtbar gemacht. Auch der Wikipedia-Namensraum ist – mit einigen Ausnahmen – für die Indexierung freigegeben. Die Namensräume Datei, Vorlage, Hilfe, MediaWiki, Kategorie, Portal und Modul werden vollständig von Suchmaschinen erfasst.

Grundsätzlich nicht indexiert werden alle Diskussionsnamensräume. Diese Regelung wurde im Meinungsbild zur Nichtindexierung von Diskussionsseiten durch Suchmaschinen beschlossen. Seit dem Meinungsbild zur Indexierung von Benutzerseiten sollen Suchmaschinen keine Inhalte aus dem Benutzernamensraum mehr in ihren Ergebnislisten führen.

Auch der Namensraum der Spezialseiten wird nicht einbezogen. Die Server-Programmierung blendet ihn komplett aus, zumal es keine statischen Inhalte sind, sondern extrem viele dynamisch generierte Kombinationen, die Suchmaschinen auch nicht sinnvoll speichern können. Genauso sind alle URL ausgeblendet, in denen /w/index.php? vorkommt; nur statische Seiten mit /wiki/ können überhaupt indexiert werden. Damit sollen auch alle früheren Seitenversionen nicht mehr auffindbar sein.

Die Konfiguration der Namensraum-Indexierung findet in der InitialiseSettings.php statt, die nur von Server-Administratoren bearbeitet werden kann.

Einzelne Seiten und Gruppen von Seiten (Unterseiten)

Bearbeiten

Das Einschränken der Erfassung einzelner Seiten aus Namensräumen, die allgemein zur Indexierung freigegeben sind, erfolgt über die Datei robots.txt, auf die nur Server-Administratoren Zugriff haben. Administratoren der deutschsprachigen Wikipedia können über die lokale Systemnachricht MediaWiki:Robots.txt zusätzlich Beschränkungen für Seiten eintragen. Die lokalen Beschränkungen werden am Ende der Serverdatei eingebunden.

Vor Suchmaschinen versteckt werden vor allem sensible Seiten mit Meta-Diskussionen, wie Löschanträge oder Benutzersperrverfahren, zusätzlich auch die Spezialseiten Spezial:Suche und Spezial:Zufällige Seite. In den entsprechenden Definitionen ist es möglich, eine Seite samt ihren Unterseiten nicht indexieren zu lassen. So werden unter anderem die Unterseiten der Schiedsgerichts- und Adminkandidaturen sowie die einzelnen Seiten der Adminwiederwahlen nicht indexiert. Eine genaue Übersicht von nicht indexierten Seiten findet sich in den verlinkten Seiten.

Für einzelne Benutzer ist es möglich, über den „Schalter__KEIN_INDEX__, __NICHT_INDEXIEREN__ oder __NOINDEX__ die Indexierung einzelner Seiten zu unterbinden, wenn dies nicht erwünscht ist. Umgekehrt kann per __INDEX__ oder __INDEXIEREN__ die Erfassung der Seite erzwungen werden, auch wenn sie auf einer der Nicht-Indexierungslisten steht. Im Artikelnamensraum zeigen die Befehle zur Unterbindung der Indexierung keine Wirkung.

Zusammenstellung der wirksamen Definitionen

Bearbeiten
Typ Wirkungsbereich Wer kann ändern Anmerkung
Beispiele
/robots.txt Alle Wiki-Projekte Server-Administratoren Seiten, deren Name mit bestimmter Zeichenkette beginnt.
$wgNamespaceRobotPolicies
InitialiseSettings.php
Komplette Namensräume
  • Benutzer:
  • Diskussionsseiten zu
    • Artikel
    • Benutzer:
    • Hilfe:
    • Vorlage:
    • Wikipedia:
    • Datei:
    • MediaWiki:
    • Kategorie:
    • Portal:
    • Modul:
MediaWiki:Robots.txt Gruppen von Seiten;
Einzelseiten
deWP-Administratoren Seiten, deren Name mit bestimmter Zeichenkette beginnt
__KEIN_INDEX__ / __NICHT_INDEXIEREN__
(auch engl. __NOINDEX__)
  • Einzelseiten
  • Seiten-Gruppen über Vorlage
Jeder Indexierung nicht gewünscht (Liste)
__INDEX__ / __INDEXIEREN__ Indexierung explizit gewünscht (Liste)

Anmerkungen:

  • Die robots.txt für alle Projekte war zunächst die einzige Möglichkeit, projektweit und gesichert die Indexierung für Gruppen von Seiten einzuschränken.
  • Weil jedes Mal ein Bugzilla-Antrag geschrieben werden musste, wurde 2010 mit MediaWiki:Robots.txt den Projekten die Möglichkeit gegeben, selbst nach lokalen Bedürfnissen Einschränkungen zu definieren.
  • Eintragungen in den beiden Typen von robots.txt lassen sich nicht mit __INDEX__ übersteuern, während dies bei den in $wgNamespaceRobotPolicies aufgelisteten Namensräumen möglich ist.

Anzeigestatus feststellen

Bearbeiten

Der insgesamt gültige Suchmaschinenstatus wird für jede geeignete Seite individuell angezeigt in den Seiteninformationen – verlinkt in der „Werkzeugbox“, üblicherweise in der linken Spalte.