Teile einer Seite aus dem Google-Index fernhalten

Drüben auf dem Liip-Blog fragt Chregu nach, wie Teile einer Webseite aus dem Google-Index ferngehalten werden sollen. Auf einer Community-Seite sollen/werden Usernamen angezeigt, die nicht über den Google-Index gefunden werden sollen. Der Rest der Seite aber schon. Als Vorschläge bietet Chregu die folgenden an:

i) Cloaking
ii) Usernamen als Bilder
iii) Usernamen via JavaScript (nach dem Pageload) reingeschrieben
iv) eine Mischung von ii und iii

Meine Gedanken.

1) Nur Google oder alle Suchmaschinen

Sollen die Usernamen aus allen Suchmaschinen-Indices ferngehalten werden? Wenn ja, so kommen nur die Bilder also ii) in Frage.

Dies, da sich weniger nette Crawler als Google mit unterschiedlichsten User Agents melden. Mit den Ziel deren Ausbeute so gross wie möglich zu halten, wird JavaScript zunehmen auch ausgeführt (so auch bei Google). Bei JavaScript könnte es damit auf ein “Wettrüsten” rauslaufen. Ausserdem kenne ich (noch) keine öffentliche / freundlichen Suchmaschine, die OCR macht und blinde Nutzer haben JavaScript NICHT deaktiviert.

2) Cloaking

Cloaking — die Auslieferung einer unterschiedlichen Seite in Abhängigkeit des User Agents — ist grundsätzlich möglich und wir (wurde? Urban?) auch von search.ch genutzt. Für Google ist das eine mögliche Lösung und wird dort auch toleriert (auch wenn in der Tendenz “bad practice”). Aber für alle Suchmaschinen ist dies nicht 100% zuverlässig (da teilweise mit dem User Agent gespielt wird).

3) googleoff/googleon Tags

Ich kenne da noch ein paar Tags die es erlauben, Seiteninhalte von der Indexierung durch eine Google Search Appliance auszuschliessen. Dies werden aber auch von Google public (ohne Garantie der Dauerhaftigkeit) unterstützt. Die folgenden Tags (als HTML Kommentar eingepackt) erlauben es, Seitenteile von der Indexierung auszuschliessen.

3a) index Tag

Der mit googleon/off: index eingeschlossene Text wird nicht indexiert. In dem Fall landen Liip und Agile im Index, Chregu aber nicht.

 Liip <!--googleoff: index--> Chregu <!--googleon: index--> Agile

3b) anchor Tag

Der durch googleon/off: anchor eingeschlossene Textanker wird der Zielseite nicht als Suchbegriff angerechnet. Der Link auf http://blog.namics.com würde bei einer Suche nicht mit Liip assoziert.

 <!--googleoff: anchor--> <a href=http://blog.namics.com> Liip </a> <!--googleon: anchor-->

3c) snippet Tag

Der googleon/off: snippet eingeschlossene Text wird nicht zur Erzeugung des Trefferzitats genutzt.

 <!--googleoff: snippet--> Ich bin nicht zitatwürdig <!--googleon: snippet-->

3d) all Tag

Und googleon/off: all schliesst alle der drei oben genannten Ausschlüsse index, anchor und snippet ein.

 <!--googleoff: all--> Ich nicht <!--googleon: all>

Einen schönen Abend, viel Spass beim Ausschliessen ;-) und die Diskussion wegen dem Zugang für Menschen mit Behinderungen braucht ein bisschen mehr Zeit.

Update
- In einem Kommentar des Liip-Blogs hat es einen Link auf die Yahoo-Variante der Content-Kennzeichnung mit Class-Attributen.
- Zudem der (für freundliche Spider funktionierende) Vorschlag von Hannes, die Namen als iFrames undeiner für Suchmaschinen “gesperrten” Domäne einzubinden.

6 Gedanken zu “Teile einer Seite aus dem Google-Index fernhalten

  1. Danke für die sehr ausführliche Antwort, den Google Tags Teil kannt ich definitiv noch nicht. Eine Bemerkung zum JavaScript Teil: Ich habe den ausführbaren Teil des Javascripts in eine externe JS Datei getan, welche mit robots.txt von Google (und Konsorten) ferngehalten wird. Alle “lieben” Suchmaschinen sollten das also schon sein lassen und den JavaScript Teil nicht ausführen. Drum ist der Ansatz für mich schon immer auch noch ziemlich sicher.

  2. Hallo Jürg,

    Danke für diesen interessanten Artikel. Das SE mittlerweile auch JS ausführen war mir so neu. Hast du da weiterführende Informationen auf die du dich beziehst?

    @Chregu
    Es ist also möglich JS Dateien per robots.txt vor Ausführung zu schützen?

  3. Felix: Offiziell gibt’s dazu natürlich kein Statement (robots.txt um JS files auszuschliessen), aber wenn die Searchengines nach den Regeln spielen, sollte das ja der Fall sein und bei meinem Test war das der Fall.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>