Wie werden Resultate von Suchmaschinen besser?

Was macht eine Suchmaschine wie Google den ganzen Tag (von ganz weit weg)?

1) Daten, die später durchsuchbar sind im Internet sammeln: Das so genannte Crawling oder Spidering.
2) Diese Daten in eine technische Form bringen, damit der Zugriff auf Stichworte rasch und effizient erfolgen kann: Indexierung.
3) Benutzeranfragen gegen den in 2) erstellten Index auswerten d.h. die zum Suchbegriff zutreffenden Dokumente (Webseiten) finden.
4) Die in 3) gefundenen Treffer in eine Reihenfolge bringen (welches Dokument ist zuoberst wenn der Nutzer Läufer eingibt).

i-0f6a16cfb95b1b3bbcd2adb7e9dd7fd9-was_macht_suchmaschine.gif

So richtig schwierig ist nur die 4. Aufgabe doch kurz eine Bemerkung zu 1. Auch wenn die 8 Mia. Seiten, welche Google anbietet nach abschliessend viel aussieht, wird nur das sogenannte „Surface Web“ d.h. Seiten die ohne Passworte technisch einfach zugänglich sind (z.B. nicht durch Formulare vor Suchmaschinen versteckt). Der Rest des Internets ist das sogenannte „Deep Web“ und hier setzt ein erster öffentlicher Dienst an: Yahoo Subscriptions. Damit werden durch Passworte geschützte Quellen gefunden (z.B. Financial Times) die ich dann nur mit einem entsprechenden Login konsumieren kann.

Und nun zur schwierigen Aufgabe, zum Ranking. Die Rangierung der Trefferliste hängt immer von Kontext des einzelnen Benutzers ab. So sucht ein Schachfan beim Begriff „schwarzer Läufer“ etwas anderes als ein Nutzer, der die Person sucht, welche 1936 den 100 Meter-Lauf in Berlin gewann (Jesse Owens). Das Wort Läufer hat übrigens noch ein paar Dutzend Bedeutung…

Zwei aktuelle Ansätze mit dem Ziel das Ranking dem Nutzer anzupassen, respektive die Qualität der Grunddaten zu verbessern (Suchmaschinen-Spam zu eliminieren).

Bei Google Personalized Search (Beta) werden vergangene Suchanfragen des einzelnen Users und die in der trefferliste geklickten Links (Relevanzfeedback) gespeichert und bei zukünftigen Suchanfragen berücksichtigt. So werden spezifische Nutzerthemen stärker gewichtet. Mehr Informationen dazu bei Google.

Spannender ist Yahoo My Web (Beta), eine „Social Search Engine„. Darin habe ich eine Bookmarkmanager in welchem ich meinen Browser-Bookmarks Tags vergeben und gleichzeitig ein Netzwerk mit mir bekannten Personen, welche auch so eine Liste führen, aufbauen kann. Somit kann Yahoo nun in „meinen“ Seiten suchen, meine Seiten als Grundlage für meine Bedürfnisse bei einer Suchanfrage analysieren, meine Tags bei der Suche mitauswerten, meinen Freundeskreis in die Suche einbeziehen etc.

Es bleibt spannend.

Köder für Crawler

Immer wieder Google… Neu können Anbieter von Webangeboten Google in einer XML-Sitemap mitteilen, welche Seiten gecrawlt werden sollen: Google Sitemap. Der Bereich der technischen Suchmaschinen-Optimierung (v.a. bei generierten Inhalten mit „?“ und „&“ in der URL) ist somit weitgehen vereinfacht. Wurde aber nun Cloaking nicht grad ein bisschen einfacher?

Die Inhalte (Tags) sind sehr einfach: Wie häufig besucht werden soll (changefreq), das Änderungsdatum (lastmod), die URL und eine Priorität im Set (priority). Hier ein Beispiel einer solchen Sitemap:

i-1e78ba28bd19d166913663caf6e1214c-google_sitemap_example.gif

Und nun ans programmieren (oder zum Generator von Google in Python).

SEO auf Japanisch

Japanisch ist mit fast 10% die dritthäufigste Sprache auf dem Internet. Ein guter Grund auch hier in Suchmaschinen gefunden zu werden. Drei Gedanken, weshalb wir dabei möglicherweise Hilfe brauchen…

1) Japanisch wir ohne Leerzeichen geschrieben und (Internet-)Suchmaschinen können deshalb die einzelne Worte nicht extrahieren. So schreibt sich „Words are not separated by spaces in Japanese sentences“ wie folgt:
i-f8cfd74a016575a3b5bcba472545c25e-000011-1.gif

2) Der selbe Inhalt lässt sich in verschiedenen Stimmungen schreiben. Was das folgenden heisst weiss ich nicht mehr, aber nach Motoko fünf mal dasselbe in einer anderen Stimmung:
i-084c004bd88538a569fa50dd9885faad-000011-2.gif

3) Und nun gibt es das, was oben beschrieben ist, mit vier verschiedenen Zeichensätzen: Kanji, Hiragana, Katakana, & Romaji. Also nochmals dasselbe Wort in verschiedenen Zeichensätzen:
i-f2f31300fb5fa094eb85c8a3c5327e67-000011-3.gif

Der Rest (Double Byte Characters, Mobile Devices etc) ist eays. Und nun mal los mit der Optimierung!

Und hier: [pdf, 158KB] SEO/SEM for Japanese Market.

So kommen Sie in die Suchmaschinen (IEX 2004)

Eine umfassender Leitfaden mit Beispielen, wie Ihr Webangebot in den Suchmaschinen besser platziert ist. Fokus dabei ist (generische) Suchmaschinenoptimierung, doch es erfolgt auch ein kurzer Blick ins (bezahlte) Suchmaschinenmarketing.

Gegliedert in die folgenden Schritte:

– Definition Rahmenbedinungen
– Auswahl Suchdienst
– Ausnahme Suchdienst
– Auswahl Suchbegriffe
– Top Positionen
– Attraktivigtät der Treffer
– und ein Exkurs: Wie funktioniert eine (Volltext-)Suchmaschine.

Und hier die Präsi: [pdf, 1.6 MB] So kommen Sie in die Suchmaschinen

PS: Damals noch nicht existent aber wichtig heute ist Google Sitemaps.