namics Weblog
namics Weblog.
Persönliche Stimmen und Meinungen von Mitarbeiterinnen und Mitarbeitern.
namics @ www.flickr.com

Links

  • Sharepoint Weblog
  • about:namics
  • namics Website

AKTUELLE ARTIKEL

  • Firmenpolitik oder Sabotage
  • Erfolgsfaktoren für Intranet-Wikis in Unternehmen (Vortrag)
  • Zwei Fragen zu Online Kommunikation
  • Ich kann nicht mehr alles lesen, aber cool sieht es aus
  • Vortrag: Das Wiki wird erwachsen
  • Bei mehr als 1GB/Sekunde vorher melden: Die Wolkenfront ist da
  • Bildersuche nach Farbe (auf Basis von Flickr)
  • Vortrag auf dem ECM World Summit
  • Gleichberechtigte Sichten im Intranet
  • Pragmatisches User Centered Design bei bahn.de

Kategorien

  • Accessibility
  • Blogging
  • Business
  • CEO-Post
  • Collaboration
  • Design
  • Fehlermeldungen
  • Gesellschaft
  • Information Retrieval
  • Lotusphere
  • Mobile
  • Online Marketing
  • Orbit-iEX
  • Project Management
  • SEO+SEM
  • Technologie
  • Vorträge
  • Web Analytics

Archive

  • November 2008
  • Oktober 2008
  • September 2008
  • August 2008
  • Juli 2008
  • Juni 2008
  • Mai 2008
  • April 2008
  • März 2008
  • Februar 2008
  • Januar 2008
  • Dezember 2007
  • November 2007
  • Oktober 2007
  • September 2007
  • August 2007
  • Juli 2007
  • Juni 2007
  • Mai 2007
  • April 2007
  • März 2007
  • Februar 2007
  • Januar 2007
  • Dezember 2006
  • November 2006
  • Oktober 2006
  • September 2006
  • August 2006
  • Juli 2006
  • Juni 2006
  • Mai 2006
  • April 2006
  • März 2006
  • Februar 2006
  • Januar 2006
  • Dezember 2005
  • November 2005
  • Oktober 2005
  • September 2005
  • August 2005
  • Juli 2005
  • Juni 2005
  • Mai 2005
  • April 2005
  • März 2005
  • Februar 2005
  • Januar 2005
  • September 2004
  • August 2004
  • Juli 2004
  • Juni 2004
  • Mai 2004
  • April 2004
  • Februar 2004
  • Februar 2003

XML und Mumbo Jumbo

  • namics ag
  • namics ag
  • namics ag
  • Atom Feed
  • RSS 2.0 Feed
  • Creative Commons License
    Dieses Weblog untersteht der Creative Commons Lizenz
  • Powered by Movable Type 3.35
« Matt Kaputts | Übersicht | Spannende Telefonbucheinträge »
15
Mär
Ansätze für eine bessere Relevanzgewichtung (und Vortrag: Wie funktioniert eigentlich eine Suchmaschine?)
gepostet von Jürg Stuker am 15.03.2006 um 02:01

Bei meinem Post über den Begriff der Relevanz, versprach ich die Verbesserungsmöglichkeiten für Suchmaschinen noch genauer zu beschreiben. Gleichzeitig habe ich einen Vortrag vorbereitet, den ich heute in Winterthur halten werden: "Wie funktioniert eigentlich eine Suchmaschine?". Neben Erklärungen die Checklisten für Suchmaschinen-Optimierung auf dem neustem Stand [pdf, 2,2MB]

Das folgende Bild dient zur Übersicht über die Generationen von Ansätzen. Wichtig ist der weinrot herhorgehobene Teil in jedem Block.

vier Abbildungen Sucher gegenüber der Kollektion und bei jeder ist ein Teil rot hervorgehoben. Erkärungen folgen unten.

>> 1. On Page
- Allererste Generation. Gibt es bei einer Internetsuche kaum noch; Zumindest nicht ohne Kombination mit anderen Ansätzen.
- Suchmaschine extrahiert (nur) den Inhalt der Zielseite und gewichtet die Textkomponenten nach Auffälligkeit: Begriff im Domänennamen, URL und im HTML Page Titel sehr hoch, H1 hoch, H2 bisschen weniger hoch etc. Je weiter oben auf der Seite desto höher das Gewicht als unten etc.
- Typischer Algorithmus: Tf-idf (Termfrequenz über inverse Dokumentfrequenz)
- Sehr anfällig auf Manipulationen der Zielseiten ("weisser Text auf weissen Grund")

>> 2. Off Page (Reputation)
- Die war mal das Alleinstellungsmerkmal von Google. Die Verlinkung einer Seite macht eine Aussage über deren Wichtigkeit und der Linkkontext (Anchor, den den Link umgebenden Text oder der im im DOM-Tree nächsten Text) wird der Zielseite zugerechnet.
- Jede Seite hat einen Gesamtwert (normiert auf maximal 100), welcher an alle abgehenden Links verteilt wird.
- Entspricht dem Reputationssystem von wissenschaftlichen Papers (je öfters zitiert, desto wichtiger) aber auch einem Random Surfer (wenn eine Site häufiger und/oder von häufig besuchten Sites verlinkt ist, so kommt ein zufälliger Surfer auch häufiger vorbei).
- typischer Algorithmus: PageRank von Google oder HITS.
- Qualität der Resultate und die Stabilität gegenüber Beeinflussung ist vom "jungen" Google bekannt.

>> 3. Mehr vom Suchenden wissen
- Ab hier wird versucht, den Suchenden bei der Beantwortung einzubeziehen. Ziel sein subjektives Informationsbedürfnis herauszufinden.
- Nach der Query wird nachgefragt. Z.B. suche ich nach "Bank", so könnte das System fragen, ob die etwas für den Garten suche oder ein Finanzinstitut. Ein sehr schönes Beispiel sind die "disambiguations"-Seiten bei Wikipedia. Z.B. wenn ich nach Läufer suche.
- Das selbe Ziel verfolgt die Entitätenerkennung. D.h. das Suchsystem vermutet einen semantischen Umstand erkannt zu haben und zeigt Direkttreffer an, die der Suchende einfach auswählen kann - auch eine Art der Nachfrage. Beispiele die Yahoo Shortcuts oder Google Web Search Features.
- Andere Ansätze mit Spracherkennung (Linguistik) u.a. sind im Einsatz.

>> 4. Mehr über den Suchenden wissen
- Das ist zur Zeit im Trend. Suchmaschinen sammeln Query-, Klick- und Surf-Daten und ordnen diese Usern zu. Und zwar "big time".
- Google Desktop bietet an, gar den Index meiner Festplatte zu Google zu schicken und Yahoo kauft Dienste wie http://del.icio.us/ um an mehr gute Daten zu kommen. Yahoo 360 speichert den Inhalt meiner Seiten die ich als Bookmarks abgelegt habe (zur Analyse) und kennt auch Leute, die ich als Freude verbunden habe und deren Links/Websites.
- Hier hängt das die ganze Identiy-Diskusson hinten dran
- Klar sichtbar ist, dass Google immer weiter weg geht von 2. und immer mehr Popularität (auf Basis der konsolidierten gesammelten Daten) macht. D.h. nicht die Verlinkung aber die realen Anzahl der Besuche einer Site ergeben deren Wichtigkeit. Also weniger Arbeit für Suchmaschinenoptimierer und mehr gute und auch regelmässig frische Inhalte bitte.

>> 5. Nicht abgebildet, da noch weiter weg sind Microformats resp. Systems der Bottom-Up Klassifizierung, welche Inhalte semantisch ergänzen. Beispielswiese über Tags. Wichtig aber aus meiner Sicht eigentlich Teil von 1.


TRACKBACK

TrackBack URL for this entry:
http://blog.namics.com/mt/mt-tb.cgi/419

Listed below are links to weblogs that reference Ansätze für eine bessere Relevanzgewichtung (und Vortrag: Wie funktioniert eigentlich eine Suchmaschine?):

Suchmaschinen-Trends
Jürg Stuker von der Namics hat mal wieder einen interessanten Eintrag im Blog der Namics gepostet. Im aktuellen Artikel zeigt er eine informative Übersicht zum Thema «Ansätze für eine bessere Relevanzgewichtung» und «Wie funktioniert eigentlich... [Read More]
trackback von superdeluxe weblog am 15.03.06 19:58
Suchmaschinen-Trends
Jürg Stuker von der Namics hat mal wieder einen interessanten Eintrag im Blog der Namics gepostet. Im aktuellen Artikel zeigt er eine informative Übersicht zum Thema «Ansätze für eine bessere Relevanzgewichtung» und «Wie funktioniert eigentlich... [Read More]
trackback von superdeluxe weblog am 15.03.06 19:58

KOMMENTARE

gibt es nochmals einen vortrag. kann man sich anmelden?

gepostet von dominik am 15.03.06 18:50

Zur Zeit ist nich vorgesehen den Vortrag nochmals zu halten... wenn Du 20 Leute zusammen hast, komme ich aber gerne überall hin und halte ihn nochmals.

gepostet von Jürg Stuker am 15.03.06 22:20

wow, 20 sind viel. wie wäre es mit firmen-intern und einem gratis cafe+gipfeli?

gepostet von dominik am 16.03.06 09:57

Wenn ich gleich mal in der Nähe bin auch gerne mir Kaffee und Gipfeli.

gepostet von Jürg Stuker am 16.03.06 10:59

Toll, dass wieder vermehrt über Suchmaschinen und wie sie funktionieren sollten nachgedacht wird. Spätestens in 3 Jahren sehen die heutigen Dienste wie Dinosaurier aus. Und ich denke nicht, dass die Innovation von Google, Microsoft oder Yahoo kommt. Ist es nicht erschrekend, wie wenig Google mit seinen 3000 Ingenieuren an Innovation herausbringt? Die besseren Dienste sind alle nicht hausintern sondern zugekaufte Firmen oder in der Freizeit von Google-Mitarbeitern gemacht.

gepostet von Reto Hartinger am 17.03.06 10:29

Zu Thema Microformats: ich gebe Dir recht, dass es eher zum Teil 1 gehört, nichtsdestotrotz dnke ich, ist es ein interessanter Schritt um die darauf aufbauenden Schritte zu ermöglichen, bzw. deren Resultate noch zu verbessern.

gepostet von David am 03.04.06 22:40

KOMMENTAR SCHREIBEN

Name:

E-Mail Adresse:

URL:

Bitte das Ergebnis von 1 + 2 als Ziffer (Spamschutz):