Ansätze für eine bessere Relevanzgewichtung (und Vortrag: Wie funktioniert eigentlich eine Suchmaschine?)

Bei meinem Post über den Begriff der Relevanz, versprach ich die Verbesserungsmöglichkeiten für Suchmaschinen noch genauer zu beschreiben. Gleichzeitig habe ich einen Vortrag vorbereitet, den ich heute in Winterthur halten werden: „Wie funktioniert eigentlich eine Suchmaschine?“. Neben Erklärungen die Checklisten für Suchmaschinen-Optimierung auf dem neustem Stand [pdf, 2,2MB]

Das folgende Bild dient zur Übersicht über die Generationen von Ansätzen. Wichtig ist der weinrot herhorgehobene Teil in jedem Block.

i-83b9402973c01037ad729016a0473e3d-einfluss_auf_relevanz-thumb.png

>> 1. On Page
– Allererste Generation. Gibt es bei einer Internetsuche kaum noch; Zumindest nicht ohne Kombination mit anderen Ansätzen.
– Suchmaschine extrahiert (nur) den Inhalt der Zielseite und gewichtet die Textkomponenten nach Auffälligkeit: Begriff im Domänennamen, URL und im HTML Page Titel sehr hoch, H1 hoch, H2 bisschen weniger hoch etc. Je weiter oben auf der Seite desto höher das Gewicht als unten etc.
– Typischer Algorithmus: Tf-idf (Termfrequenz über inverse Dokumentfrequenz)
– Sehr anfällig auf Manipulationen der Zielseiten („weisser Text auf weissen Grund“)

>> 2. Off Page (Reputation)
– Die war mal das Alleinstellungsmerkmal von Google. Die Verlinkung einer Seite macht eine Aussage über deren Wichtigkeit und der Linkkontext (Anchor, den den Link umgebenden Text oder der im im DOM-Tree nächsten Text) wird der Zielseite zugerechnet.
– Jede Seite hat einen Gesamtwert (normiert auf maximal 100), welcher an alle abgehenden Links verteilt wird.
– Entspricht dem Reputationssystem von wissenschaftlichen Papers (je öfters zitiert, desto wichtiger) aber auch einem Random Surfer (wenn eine Site häufiger und/oder von häufig besuchten Sites verlinkt ist, so kommt ein zufälliger Surfer auch häufiger vorbei).
– typischer Algorithmus: PageRank von Google oder HITS.
– Qualität der Resultate und die Stabilität gegenüber Beeinflussung ist vom „jungen“ Google bekannt.

>> 3. Mehr vom Suchenden wissen
– Ab hier wird versucht, den Suchenden bei der Beantwortung einzubeziehen. Ziel sein subjektives Informationsbedürfnis herauszufinden.
– Nach der Query wird nachgefragt. Z.B. suche ich nach „Bank“, so könnte das System fragen, ob die etwas für den Garten suche oder ein Finanzinstitut. Ein sehr schönes Beispiel sind die „disambiguations“-Seiten bei Wikipedia. Z.B. wenn ich nach Läufer suche.
– Das selbe Ziel verfolgt die Entitätenerkennung. D.h. das Suchsystem vermutet einen semantischen Umstand erkannt zu haben und zeigt Direkttreffer an, die der Suchende einfach auswählen kann – auch eine Art der Nachfrage. Beispiele die Yahoo Shortcuts oder Google Web Search Features.
– Andere Ansätze mit Spracherkennung (Linguistik) u.a. sind im Einsatz.

>> 4. Mehr über den Suchenden wissen
– Das ist zur Zeit im Trend. Suchmaschinen sammeln Query-, Klick- und Surf-Daten und ordnen diese Usern zu. Und zwar „big time“.
Google Desktop bietet an, gar den Index meiner Festplatte zu Google zu schicken und Yahoo kauft Dienste wie http://del.icio.us/ um an mehr gute Daten zu kommen. Yahoo 360 speichert den Inhalt meiner Seiten die ich als Bookmarks abgelegt habe (zur Analyse) und kennt auch Leute, die ich als Freude verbunden habe und deren Links/Websites.
– Hier hängt das die ganze Identiy-Diskusson hinten dran
– Klar sichtbar ist, dass Google immer weiter weg geht von 2. und immer mehr Popularität (auf Basis der konsolidierten gesammelten Daten) macht. D.h. nicht die Verlinkung aber die realen Anzahl der Besuche einer Site ergeben deren Wichtigkeit. Also weniger Arbeit für Suchmaschinenoptimierer und mehr gute und auch regelmässig frische Inhalte bitte.

>> 5. Nicht abgebildet, da noch weiter weg sind Microformats resp. Systems der Bottom-Up Klassifizierung, welche Inhalte semantisch ergänzen. Beispielswiese über Tags. Wichtig aber aus meiner Sicht eigentlich Teil von 1.

6 Gedanken zu “Ansätze für eine bessere Relevanzgewichtung (und Vortrag: Wie funktioniert eigentlich eine Suchmaschine?)

  1. Toll, dass wieder vermehrt über Suchmaschinen und wie sie funktionieren sollten nachgedacht wird. Spätestens in 3 Jahren sehen die heutigen Dienste wie Dinosaurier aus. Und ich denke nicht, dass die Innovation von Google, Microsoft oder Yahoo kommt. Ist es nicht erschrekend, wie wenig Google mit seinen 3000 Ingenieuren an Innovation herausbringt? Die besseren Dienste sind alle nicht hausintern sondern zugekaufte Firmen oder in der Freizeit von Google-Mitarbeitern gemacht.

  2. Zu Thema Microformats: ich gebe Dir recht, dass es eher zum Teil 1 gehört, nichtsdestotrotz dnke ich, ist es ein interessanter Schritt um die darauf aufbauenden Schritte zu ermöglichen, bzw. deren Resultate noch zu verbessern.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>