Namics Weblog
Namics Weblog.
Persönliche Stimmen und Meinungen von Mitarbeiterinnen und Mitarbeitern.
namics @ www.flickr.com

Links

  • Sharepoint Weblog
  • about:Namics
  • Accessibility & Barrierefreiheit
  • Namics Website

AKTUELLE ARTIKEL

  • Rapid Development am (im) schnellen Zug
  • IAConference - oder eine spannende Reise
  • Clevere Wettbewerbsanalyse der Webdienstleister als Kommunikationsinstrument
  • die ICT Dauer-Party der Ü-30er
  • Twitter für Firmen? Die Antwort für namics.
  • Vom Massenprodukt zur Profianwendung [Vortrag]
  • Yahoo! bringt den Google Analytics Rivalen in Stellung
  • Next Generation Web Analytics [Vortrag]
  • Rapid Development [Vortrag]
  • Top 10 Internet-Trends 2009 [Vortrag]

Kategorien

  • Blogging
  • Business
  • CEO-Post
  • Collaboration
  • Conversion Rate Optimization
  • Design
  • Fehlermeldungen
  • Gesellschaft
  • Information Retrieval
  • Lotusphere
  • Mobile
  • Online Marketing
  • Orbit-iEX
  • Project Management
  • SEO+SEM
  • Technologie
  • Vorträge
  • Web Analytics

Archive

  • Mai 2009
  • April 2009
  • März 2009
  • Februar 2009
  • Januar 2009
  • Dezember 2008
  • November 2008
  • Oktober 2008
  • September 2008
  • August 2008
  • Juli 2008
  • Juni 2008
  • Mai 2008
  • April 2008
  • März 2008
  • Februar 2008
  • Januar 2008
  • Dezember 2007
  • November 2007
  • Oktober 2007
  • September 2007
  • August 2007
  • Juli 2007
  • Juni 2007
  • Mai 2007
  • April 2007
  • März 2007
  • Februar 2007
  • Januar 2007
  • Dezember 2006
  • November 2006
  • Oktober 2006
  • September 2006
  • August 2006
  • Juli 2006
  • Juni 2006
  • Mai 2006
  • April 2006
  • März 2006
  • Februar 2006
  • Januar 2006
  • Dezember 2005
  • November 2005
  • Oktober 2005
  • September 2005
  • August 2005
  • Juli 2005
  • Juni 2005
  • Mai 2005
  • April 2005
  • März 2005
  • Februar 2005
  • Januar 2005
  • September 2004
  • August 2004
  • Juli 2004
  • Juni 2004
  • Mai 2004
  • April 2004
  • Februar 2004
  • Februar 2003

XML und Mumbo Jumbo

  • namics ag
  • namics ag
  • namics ag
  • Atom Feed
  • RSS 2.0 Feed
  • Creative Commons License
    Dieses Weblog untersteht der Creative Commons Lizenz
  • Powered by Movable Type 3.35
« Die Digitale Marketing Spirale - von Marketing mit Bannern, SEO und Communities | Übersicht | Geld will verdient sein! »
27
Aug
Wie kommen Seiten nicht in Google rein?
gepostet von Jürg Stuker am 27.08.2008 um 11:03

Alle reden davon, wie ein Betreiber möglichst viele Seiten in den Google-Index rein bekommen und dort möglichst oben auf der Trefferliste positioniert sind. So auch bei uns, es heisst Suchmaschinenmarketing (SEO + SEM).

Heute mal das Gegenteil: Wie stelle ich sicher, dass meine Seiten nicht im Google-Index landen. So einfach wie es ist, sich selbst aus Google auszuschliessen, so sehr frage ich mich, weshalb Verleger klagen dass Google Inhalte klaue (sie können diese selbst sperren).

FAQ1: Meine Seiten kommen nicht in den Index, denn niemand kennt die Adresse. Meist falsch, da beispielsweise der Google Toolbar Seiten zurückmeldet und somit durchaus auch "unbekannte" URL gecrawled und indexiert werden.

FAQ2: Ist so was wichtig? Machen wir mal das folgende Spiel. Ich vermute bei jemandem Entwicklungssysteme oder will mich mal umschauen...

i) Suche in Google nach der Hauptdomäne bsp. mit der Query site:swisscom.com

ii) Nun beginnne ich Schritt für Schritt die Domänen auszuschliessen, die ich nicht sehen will mit -site. So lautet die zweite Query site:swisscom.com -site:www.swisscom.com und schon sehe ich interessante Kandidaten.. schauen sie selbst.

Also zurück zur Frage was ich für Möglichkeiten habe, dass Seiten nicht bei Google in Index landen.

> > Gruppe 1: Die Site / Seiten sollen öffentlich zugänglich sein

1) robots.txt Datei. Im Wurzelverzeichnis des Webserver kann ich mit der Datei robots.txt auf Stufe Verzeichnis festlegen, was der Suchmaschinencrawler besuchen soll. Der Grundsyntax (www.robotstxt.org) ist schon sehr lange stabil und lässt auch eine Differenzierung nach Suchmaschinen (User Agents) zu. Gewisse Suchmaschinen interpretieren auch einen erweiterten Syntax. Crawler die sich an die Regeln halten (alle "grossen") erkennt man u.a. auch daran, dass sie die Datei zu Beginn einer Session anfordern (erzeugt einen Eintrag im Access-Log). Soll auf diesem Blog beispielsweise von keinem Crawler das Verzeichnis /mt/ nicht besucht werden, alle anderen aber schon, so lautet die Datei so:

User-Agent: *
Disallow: /mt/
Allow: /

Hier noch die Anleitungen bei Google, Yahoo und bei Microsoft.

2) META tags. Diese Tags gilt es auf Seitenbasis einzufügen und sie erlauben damit eine feinere Steuerung. Auch hier gibt es wieder einen von allen interpretierten Grundsyntax (www.robotstxt.org) sowie suchmaschinenspezifische Erweiterungen. In der Grundversion gibt es zwei Angaben i) soll die vorliegende Seite indexiert werden oder nicht (INDEX / NOINDEX) und ii) soll den Links in der Seite gefolgt werden (FOLLOW / NOFOLLOW). Somit sehen die Tags in etwas so aus:

<META name="robots" content="noindex, follow" />
<META name="robots" content="index, nofollow" />
<META name="robots" content="noindex, nofollow" />

3) X-Robots-Tag Header. Bei diesem Ansatz lieferte die angeforderte Seite in der HTTP Response den genannten Header. De Ansatz wurde von Google bekannt gemacht und unterstützt ihren erweiterten Befehlssatz. Zumindest Yahoo unterstützt den header auch. Die Befehle sind sehr ähnlich wie bei robots.txt also

X-Robots-Tag: noindex, follow
X-Robots-Tag: index, nofollow
X-Robots-Tag: noindex, nofollow

Grundsätzlich ist zu allen drei Ansätzen zu sagen, dass es effizienter ist den Crawler mit robots.txt grossflächig auszuschliessen, damit nicht alle Seiten ausgeliefert werden um festzustellen, ob diese indexiert werden sollen. Auf der anderen Seite ist META oder der Header zuverlässiger.

> > Gruppe 2: Die Site / Seiten ist nur für eine Gruppe von Leuten zugänglich (z.B. Entwicklungssysteme)

Auch ein häufiger Fall ist es, dass ich ein System vor dem Live-Gang für eine Testgruppe zugänglich machen möchte. Die Ansätze oben sind grundsätzlich möglich, aber zu unzuverlässig und auch aufwändig bei der Umstellung vor dem Livegang. Das allerbeste hier ist also ein Passwort und zwar sehr früh. Also nicht erst auf einer Formularseite (sonst wird diese indexiert) aber bereits mit einer HTTP Basic Authentication (also einem Login Windows des Browsers).


TRACKBACK

TrackBack URL for this entry:
http://blog.namics.com/mt/mt-tb.cgi/1194

KOMMENTAR SCHREIBEN

Name:

E-Mail Adresse:

URL:

Bitte das Ergebnis von 1 + 2 als Ziffer (Spamschutz):