Persönliche Stimmen und Meinungen von Mitarbeiterinnen und Mitarbeitern.

Beiträge der Kategorie Information Retrieval

10 Nov

Enterprise Search auf den WiMa-Tagen

"Enterprise Search - oder: Wer küsst den Frosch? heisst mein Vortrag an den 5. Stuttgarter Wissensmanagement-Tagen über die von uns unterstützte Enterprise Search-Studie. Aber was hat Enterprise Search mit Wissensmanagement zu tun?

Sehr viel. Eines der zentralen Ziele von Wissensmanagement im Unternehmensumfeld ist ja, vorhandenes Wissen zugänglich zu machen. Bei der Bewältigung unserer Aufgaben sehen wir uns jedoch mit einer wachsenden Flut von Informationen konfrontiert. Während wir uns daran gewöhnt haben, das Internet mit Hilfe von Websuchmaschinen recht effizient nach Informationen zu durchsuchen, ist das Auffinden unternehmensinterner Daten oft wesentlich schwieriger. Abhilfe schafft eine Enterprise Search. Alles weitere im Handout.

Und wer küsst nun den Frosch? Darauf gibt es 2 verschiedene Antworten:
1. Hoffentlich ganz viele Unternehmen, die ihr internes Wissen und die Wissensträger besser nutzen wollen
2. Nein, es ist kein Grimm-Märchen, sondern Kätchen im Gedicht "Die beiden Schwestern" von Wilhelm Busch. Und zwar wird diese nach dem dritten Kuss reich belohnt:

[...] Beim dritten [Kuss] gibt es ein Getöse,
Als ob man die Kanonen löse.

Ein hohes Schloß steigt aus dem Moor,
Ein schöner Prinz steht vor dem Tor.
Er spricht: "Lieb Kätchen, du allein
Sollst meine Herzprinzessin sein!"
Nun ist das Kätchen hochbeglückt,
Kriegt Kleider schön mit Gold gestickt
Und trinkt mit ihrem Prinzgemahl
Aus einem goldenen Pokal.


Das mit Web 2.0 betitelte, grundlegend gewandelte Internet kommt - nicht nur bei Namics - in den Unternehmen an. Enterprise 2.0 steht für den Einsatz von Social Software in Unternehmen. Dabei bilden sich derzeit Kollaborationsportale heraus, durch die sich die Zusammenarbeit der Mitarbeitenden mehr und mehr in das Intranet verlagert. Inhalte und Dokumente werden kollaborativ bearbeitet, ein zunehmender Teil der internen Diskussion wird über Blogs oder Wikis abgewickelt. Dort entsteht Wissen, und es wird - mindestens de facto - auch dort dokumentiert.

Ein Ergebnis der von uns unterstützen Studie zu Enterprise Search war, dass gerade ältere oder „fremde" Projekte sehr schwer zu finden sind. Dies ist nicht weiter verwunderlich und verweist auf einen wesentlichen Umstand: Wissen ist nicht anonym, sondern hängt meistens an bestimmten Personen. Für eine Enterprise-Search-Lösung ist es daher nicht hinreichend, ein Kollaborations-Intranet als Quelle zu integrieren; Vielmehr muss der „soziale" Aspekt der Wissensproduktion und die neuartigen Kommunikationsprozesse konzeptionell mit einbezogen werden. Das nenne ich Social Search.

Die vier von Jürg Stuker in einem länger zurück liegenden Blogpost beschrieben Ansätze zur Relevanzgewichtung müssen deshalb um einen weiteren ergänzt werden: 5. Mehr über die soziale Dimension eines Dokuments wissen.

Ansaetze zur Relevanzgewichtung

Welche Informationen sind damit konkret gemeint? Drei praktische Ansatzpunkte:

Soziale Nähe: Dokumente aller Art haben meistens einen Inhaltsverantwortlichen, der in einem Organisationsgefüge eine bestimmte Position und Funktion innehat. Dasselbe gilt für den Suchenden. Sind sowohl die Position desjenigen, der die Suchanfrage stellt, wie auch die des Autors dem Suchsystem bekannt, kann für die Relevanzberechnung eines Dokuments die soziale Nähe herangezogen werden. Hat der Autor dieselbe oder eine ähnliche Funktion inne, gehört er zur selben oder einer ähnlichen Benutzergruppe etc. Kurz, je näher bzw. ähnlicher sich Suchender und Autor sind, desto höher ist die Wahrscheinlichkeit, dass das Dokument für den Suchenden ebenfalls relevant ist.

Bewertung von Dokumenten: Kollaborationsplattformen erlauben den Benutzern, Seiten oder Dokumente zu bewerten, um so den persönlichen Nutzen und damit die subjektive Relevanz zum Ausdruck zu bringen. Dokumente, die öfters und/oder besser bewertet werden, können dann als relevanter eingeschätzt werden. Eine vereinfachte Variante besteht in der Auswertung der Anzahl Bookmarks, die auf ein bestimmtes Dokument gesetzt wurden. In beiden Fällen gilt: Je öfters eine Seite bzw. ein Dokument gut bewertet bzw. als Favorit abgelegt wurde, desto höher ist die Wahrscheinlichkeit, dass das Dokument eine hohe Relevanz hat.

Social Tagging von Dokumenten: Eine Facette vom Web/Enterprise 2.0 ist die Verschlagwortung von Inhalten, Bildern etc. mit benutzerdefinierten „Tags", das sogenannte Social Tagging. Dabei wird auf vorgegebene Schlagwortlisten (Taxonomien) verzichtet und stattdessen frei verschlagwortet; Für die Normierung verlässt man sich auf die User selbst. Diese Tags müssen bei der Relevanzberechnung adäquat einbezogen werden.

Die gewonnenen Informationen können auf dreierlei Weise verwendet werden:


  • Erstens können diese Daten direkt in die Relevanzberechnung für die Anfrage eines bestimmten Benutzers mit einfliessen.

  • Zweitens können die einzelnen Trefferzitate mit den gewonnen „sozialen" Daten angereichert werden, um dem Benutzer die Beurteilung der Relevanz eines Treffers zu vereinfachen. Angezeigt werden bspw. Name des Autors, allenfalls seine Organisationseinheit, vergebene Tags sowie Bewertung des Dokuments. Über den Autorennamen kann der Benutzer ferner auf weitere Dokumente desselben Autors gelangen.

  • Drittens können die verschiedenen gewonnenen „sozialen" Metadaten im Rahmen einer Facettensuche zur Einschränkung der Suchergebnisse verwendet werden. Die Facetten sind dann bspw. Autor, Funktion, Organisationseinheit, Labels bzw. Tags und weitere verfügbare Metainformationen.


P.S.: Über die oben erwähnte Studie und Enterprise Search spreche ich am Dienstag, den 10.11.09 an den Wissensmanagementtagen in Stuttgart.

31 Jul

Wie Panda Bären helfen Interessantes zu entdecken

Das Problem kennt jeder, der schon mal für eine Präsentation ein besonderes Bild gesucht hat. Zuerstmal zu Google mit der Suche nach einem Stichwort – wer mehr Bildqualität braucht sucht vielleicht bei iStockphoto...

Das Resultat sind Panda Bären. Viele. Aber leider setzen sich in beiden Fällen die Stereotypen (z.B. die Bilder mit den meisten Downloads) an die obersten Positionen.

Möglicherweise liegt es daran, dass ich Designer bin – jedenfalls würde ich in meiner Präsentation (und erst recht einem Layout) ungern den zigmal verwendeten «Default»-Panda nehmen.

Und jetzt wird’s mühsam und zeitraubend: man blättert also alle 493 Treffer durch und hofft auf den interessanten, aber bisher wenig verwendeten Panda. Oder gibt auf und schnappt sich doch den «yööö-wie-härzig» Top-Treffer.

An der Stelle zu Ling Ling und Hsing Hsing, die Pixelfreund als mystisch debile Flickr Pandas beschrieben hat. Das Prinzip der Bären wird auf code.flickr erklärt:

Ling Ling and Hsing Hsing both return photos they are currently interested in, both have slightly different tastes in photos depending on their mood…

Die Personifizierung der unterschiedlichen Rankings von Suchtreffern oder das Entdecken von Fotos finde ich ein geniales Prinzip. Dass die Kriterien der «Stimmung» wie ein Mysterium unklar bleiben macht es im Fall von Flickr sicher spannender – muss aber nicht sein.

Eine praktische Anwendung der Personifizierung könnte die gestrige Diskussion der UX Chuchi über Sinn und Alternativen zur Liste Projekte entdecken lösen.

Wir waren wohl mehrheitlich der Meinung, dass die technische Art der Sortierung und Auflistung mit der Anzeige von Ratings, Anzahl Besuche/Mitglieder etc. wenig zum entdecken einlädt. Der Vorschlag einer redaktionellen Aufbereitung und Bewertung von Projekte widerspricht jedoch der Philosophie von Amazee sich aus der Bewertung der Projekte herauszuhalten – und so mussten wir diesen Punkt ergebnislos übergehen.

Meine Idee auf Basis der mystischen Flickr Pandas

Drei bis vier fiktive Personen (wenn es besser funktioniert auch gerne Kuscheltiere ;-)) suchen die nach Ihren jeweiligen Kriterien interessantesten Projekte heraus.

Auf diese Art könnte Amazee ohne redaktionelle Aufbereitung und weiterhin - halbwegs - neutral die interessanten Projekte rauspicken und die Kriterien dazu etwas bedeckt halten.

Statt der stereotypen Liste von Resultaten (vgl. meine Bildersuche) durch Sortierung nach «Zuletzt aktualisiert», «Anzahl Spender» oder «Zuletzt erstellt» etc. und dies wiederum technisch einzuschränken auf eine ausgewählte Kategorie wie z.B. «Soziales & Gemeinnütziges» könnten interessante Projekte nach oben kommen obwohl sie zwar vor längerer Zeit erstellt und trotzdem keine Besucher haben – einfach, weil sie beispielsweise thematisch sehr aktuell sind.

Bei Flickr sieht das so aus

16 Jul

Unzufrieden mit der Suche auf Ihrem Internet-Auftritt? Google Mini hilft!

Ich ertappe mich oft, wie ich bei einer Website-Suche das Vorurteil hege, ohnehin nicht auf die gewünschten Informationen zu stossen - und daher die öffentliche Google Websuche verwende. Wahrscheinlich bin ich nicht der Einzige, der sich an Google gewöhnt hat und daher erwartet, dass jede Suche so zu funktionieren hat. Diese Annahme bestätigt sich denn auch in von uns durchgeführten Usability Tests und Analytics-Daten: Immer mehr User suchen bestimmte Inhalte auf einer Seite über die angebotene Suchfunktion. Häufig finden sie aber die gewünschten Inhalte nicht, da die eingesetzten Suchmaschinen schlicht und einfach entweder nichts taugen oder schlecht konfiguriert sind. Die Lösung? Google Mini ;)

Was kann denn eine Google Mini?

google-mini.jpg

Die Google Mini ist ein 19 Zoll Hard- und Softwarebundle und bietet neben einer ausgereiften und vertrauten Volltextsuche einige weitere wirklich gute Funktionen:


  • Dank dem XML Suchinterface kann die Google Suche in beliebige bestehende Webseiten integriert werden, auch parallel in mehreren (beliebige Anzahl Kollektionen).

  • Mit Keymatches (eigenständig definierbare Treffer zu bestimmten Suchbegriffen) kann den Suchenden geholfen werden, die richtigen und wichtigen Informationen schnell zu finden. Beispiel: gibt jemand einen Produktenamen ein, erscheint der Keymatch dazu oberhalb der restlichen Treffer und ist optisch hervorgehoben.

  • Die Google Mini durchsucht mehr als 200 Dateiformate und bietet eine Textvariante des jeweiligen Inhalts an.

  • Eine Suchanwendung kann mittels Onebox Modulen ausgebaut werden. So können z.B. bei einem Treffer zu einer Produktseite detaillierte Informationen zu diesem Produkt bereits in der Resultatliste angezeigt werden. Beispiele zu Onebox Modulen auf der öffentlichen Google Suche: Lokale Wetterprognosen oder Treffer aus dem Branchenverzeichnis von Google.

  • Sofern notwendig kann die Google Mini in bestehende Sicherheitslösungen integriert werden.

  • Was kostet eine Google Mini?

    Eine Google Mini gibt es ab circa CHF 4'000.- inklusive Lizenz und Wartung für 2 Jahre, also für CHF 2'000.- pro Jahr. Der Aufwand für eine Integration in eine Webseite beläuft sich auf circa CHF 15'000-30'000. Darin eingeschlossen sind Design von Suchmaske und Resultateliste, Implementierung, initiale Konfiguration sowie Inbetriebnahme der Google Mini.

    Bei Interesse oder spezifischen Fragen einfach Kontakt aufnehmen, oder unten kommentieren. Gerne stelle ich die Google Mini (oder auch die grössere Google Search Appliance) auch im Live-Einsatz vor.

    Übrigens, Namics ist bereits seit 2005 zertifizierte Google Enterprise Professional Partnerin und in der Schweiz damit bislang alleine. Und natürlich machen wir Google Mini / Google Search Appliance Projekte auch in Deutschland :)

    logo_gep.gif

    08 Jul

    Evaluation der Suchinfrastruktur

    Nach der Präsentation der Studienergebnisse zu Enterprise Search haben wir uns überlegt, wie wir interessierten Unternehmen den Einstieg ins Thema vereinfachen können. Erster Ansatzpunkt sollte ja immer die Optimierung der Suche sein (sofern eine besteht). Wir bieten daher gratis eine Evaluation der Suchinfrastruktur an. Dazu brauchen wir Zugang zum Intranet (am besten vor Ort) und Informationen zu den wichtigsten User Szenarios. Im Anschluss nehmen wir die Analyse bzw. Evaluation der bestehenden Suchinfrastruktur vor, und zwar im Hinblick auf technische Qualität der Suche, Benutzerfreundlichkeit und Relevanz der Suchergebnisse. Die erarbeiteten Optimierungsvorschläge werden präsentiert und besprochen. Dasselbe ist möglich auch für die Sitesuche (im Internet). Sie können sich direkt an mich wenden oder einfach Mail an info@namics.com. Wir sind gespannt.

    23 Jun

    Enterprise Search: Wie steht’s um die Unternehmens-interne Suche?

    Heute morgen werden die wichtigsten Ergebnisse der Studie „Enterprise Search – Katalysator für den internen Informations- und Wissensfluss“ im Hotel Schweizerhof in Zürich präsentiert. Worum geht's?

    Während man die Site-Suche der Website eines Unternehmens ja gut von aussen bewerten kann, ist die Qualität einer Intranet- oder ausgewachsenen Enterprise Search naturgemäss von aussen nicht zu beurteilen und daher auch für uns oft nicht zugänglich. Da kam das Angebot von Sieber & Partners gerade recht, zusammen mit Eurospiderund Rolotec eine Studie zu Enterprise Search zu unterstützen. Zwar ist Suche fast immer Teil von Intranetprojekten, aber eine weiter gehende, zusätzliche Quellen und Systeme integrierende Enterprise Search ist oft schwer durchzusetzen, welche das Intranet als Portal zum Unternehmenswissen stärken könnte.

    Wir wollten also wissen, wie es in Schweizer Unternehmen (und Verwaltungen) um das Thema Enterprise Search steht. Um es vorweg zu nehmen: Nicht allzu gut, aber es besteht Grund zur Hoffnung.

    Die aktuelle Situation in den per Online-Fragebogen befragten 233 Unternehmen ist von recht heftigen Widersprüchlichkeiten geprägt:
    - Die befragten Unternehmensvertreter verbringen durchschnittlich 18% ihrer Arbeitszeit mit Suchen. Gefragt sind Suchlösungen, die eine Reihe von Quellsystemen abdecken. Über die Hälfte der befragten Unternehmen muss sich jedoch mit einfachen bis mässigen Lösungen zufrieden geben. Nur 12% verfügen über eine eigentliche Enterprise-Search-Lösung.
    - Die durch mangelhafte oder fehlende Suchmöglichkeiten hervorgerufenen Probleme wie Zeitverlust, Doppelarbeit und Qualitätseinbussen werden von Befragten bestätigt. Dennoch wird die Thematik in den Unternehmen nicht näher untersucht. 69% der befragten Unternehmen wissen nicht, wieviel Zeit ihre Mitarbeiter mit Suche verbringen; ca. die Hälfte weiss weder, wie stark vorhandene Suchfunktionen genutzt werden, noch ob sie relevante Suchantworten liefern.
    Suche-in-Unternehmen.jpg
    Sehr interessant waren für mich zwei sehr spezifische Ergebnisse der Befragung. So hat sich gezeigt: Je mächtiger die realisierte Lösung, desto geringer der Suchaufwand und desto lohnender werden die Investitionen eingeschätzt und zwar in finanzieller sowie nicht-finanzieller Hinsicht. Dass sich Investitionen in eine Entreprise-Search-Lösung lohnt, wird in der Studie auch anhand einer Modellrechnung aufgezeigt. Insgesamt bestätigen die Studienergebnisse unserer Erfahrungen in diesem Bereich.

    Wie wird es in Sachen Enterprise Search in den Unternehmen nun weitergehen? Zwar wirkt offenbar die Höhe der Investitionen immer noch als grösstes Hemmnis auf dem Weg zu leistungsfähigen Lösungen, dochfür drei Viertel der Studienteilnehmer ist das Fazit zum Thema Enterprise-Search positiv; 44 % geben an, das Potential erkannt zu haben, 61% gedenken in Enterprise-Search-Lösungen zu investieren. Die Aussagen der befragten Studienteilnehmer bieten daher Grund zur Annahme, dass in den nächsten Jahren zahlreiche Enterprise-Search-Projekte gestartet werden.

    Interessierte Unternehmen und Verwaltungen können die Studie „Enterprise Search – Katalysator für den internen Informations- und Wissensfluss" bei uns bestellen entweder direkt bei mir oder: info@namics.com.

    15 Apr

    Wolfram|Alpha: „ It is fact oriented and it computes things“

    Wolfram Alpha ist keine Suchmaschine, sieht aber auf den allerersten Blick aber so aus. Die Firma (und der Mensch: Stephan Wolfram) hinter der Mathematik-Software Mathematica bringt (nach Aussage von Stephen Wolfram) 33 Jahre Erfahrung mit. Und in einigen Wochen wollen sie mit http://www.wolframalpha.com/ eine öffentlichen „Antwortmaschine“ aufschalten.

    Wolfram|Alpha ist keine Anwendung, welche vorhandene Websites auffindbar macht, aber eine Anwendung, welche quantitative Daten im Internet sammelt und diese entlang von Anfragen zu Antworten verrechnet – Alles was Zahlen drin hat ist spannend. Geschrieben ist die Anwendung zur Zeit mit rund 5 Mio. Zeilen Mathematica Code. Also wenig erstaunlich, das mathematische Anfragen mit einer spannenden Antwort zurückkommen. Das kann der Online Integrator von Mathematica heute teilweise zwar auch schon.

    Screenshot 1 Wolfram Alpha

    Spannender wird es, wenn sie die eruierten Quelldaten graphisch erklären lassen, wie beispielsweise das Verhältnis des Aktienkurses von Apple und Microsoft, ausgedrückt mit der Query „MSFT Apple“

    Screenshot 2 Wolfram Alpha


    Ich hätte noch Dutzende von Beispielen und alle sind ziemlich erstaunlich. Sowohl die Qualität der Kollektion von Daten (die Quellen sind auf den Antwortseiten angezeigt), wie auch die Erkennung der Entitäten (die wahrscheinlichste wird gewählt, der User kann aber ändern) und die Verrechnung gepaart mit verschiedensten graphischen Darstellungen sind eindrücklich. Hier die Query „life expectancy age 45 ireland“

    Screenshot 2 Wolfram Alpha

    Und hier noch eines der Paradebeispiele nämlich eine Query mit Grösse, Gewicht und Alter (5’8’’ lbs age 40).

    Screenshot 4 Wolfram Alpha

    Kein Google-Killer, aber spannend wir die „im nächsten Monat“ lancierte „Maschine“ auf jeden Fall. Vorläiufig werden jedoch nur englischsprachige Anfragen bearbeitet. Man darf gepannt sein: http://www.wolframalpha.com/

    03 Apr

    Kundendialog ohne Anwesenheit: Ihre Suchmaschine (Vortrag)

    Am Mittwoch war ich am Internet Briefing@Bern zugegen, um über das Thema “Kundendialog ohne Anwesenheit: Ihre Suchmaschine” zu sprechen. Im Folgenden eine Kurzfassung der Tonspur:

    In einem kurzen Intro habe ich aufgezeigt, dass der Dialog mit dem Kunden selbst an einem an sich einfachen Anwendungsfall – nämlich dem Suchen einer News bzw. Medienmitteilung – scheitern kann, nämlich dann, wenn Benutzer Suchbegriffe eingibt, mit denen das gesuchte Dokument nicht aufgefunden werden kann (weil einer der gewählten Begriffe im Dokument nicht vorkommt).

    Unter der Prämisse, dass ca. 50 % der Benutzer direkt die Suchfunktion einer Website ansteuern, statt über die Navigation zu gehen, kommt der Suchfunktion nicht nur eine wesentliche Rolle beim Erreichen der Kommunikationsziele der Website zu, sondern sie ist durch den Dialogcharakter (der User fragt – die Suche antwortet) auch geeignet, eine Menge Informationen über die Benutzer einer Website zu geben.

    Doch was kann getan werden, um die Suche zu verbessern? Aus unserer Sicht kann man auf 4 Ebenen ansetzen: Am Betrieb, der Implementierung, der Konzeption und schliesslich der Technologieauswahl.

    Meist vernächlässigt und dabei hoch interessant ist der Betrieb. Hier geht es darum, herauszufinden, was mit welchen Begriffen und welchem Erfolg gesucht wird. Mit verschiedenen Kennzahlen wie Auswählhäufigkeit, Abfragen mit 0 Treffern oder Suchabbrüchen kann die Suche optimiert und die Verbesserung nachvollzogen werden.

    Erst wenn die Verbesserungsmöglichkeiten im Rahmen des Betrieb ausgereizt sind, oder Schwächen in Implementierung bereits bekannt sind, sollte man sicherstellen, dass die Qualität des Suchindex, des Anfrage- und Dokumentenvergleichs, der Benutzerführung sowie der Suchergebnisse auch tatsächlich gegeben ist.

    Für bestimmte Anwendungsfälle muss allerdings ganz andere Art von Suchapplikation konzipiert werden: Für geographische Suchen (Filialen etc.) eignen sich kartenbasierte Suchapplikationen; Für die Suche nach Produkten eine separate Produktsuchen oder sogenannte Facettensuche, bei der eine Volltextsuche mit Filtermöglichkeiten nach Kategorien verbunden wird. Ein gutes Beispiel dafür und auch den Trend zur Suche als primärem Zugang ist www.vacando.ch.

    Erst am Schluss steht die Auswahl einer geeigneten Technologie.

    Für diejenigen, die die Tonspur gehört haben, aber gerne auch die Präsentation noch gesehen hätten (leider hat sich unterwegs nämlich der Beamer verabschiedet - Chapeau für die Geduld der Besucher) sowie für alle, die sich für's Thema interessieren hier die Präsentation: “Kundendialog ohne Anwesenheit: Ihre Suchmaschine”

    18 Nov

    Bildersuche nach Farbe (auf Basis von Flickr)

    Ich schreibe immer wieder mal über Informationssuche (Information Retrieval) und lande allzu häufig beim Sucheingabefeld als primäres Navigationselement und eine rafifnierten Trefferliste als Lösung aller Herausforderungen.

    Hier mal etwas ganz anderes. Technisch simpel aber von Anwendungsfall her sehr, sehr gut gemacht. Eine Bildersuche nach Farb(kombinationen): http://labs.ideeinc.com/multicolr

    1) Ich wähle bis zu zehn Farben auf einem definierten Farbraum
    2) Das System zeigt mir Flickr-Bilder welches die gewählte(n) Farbe(n) enthalten

    Die ganennte Anwendung Multicolr Search Lab mit einem Trefferset nach Auswahl von Gor und Blau

    Sehr cool! Hier geht es zu Multicolr Search Lab

    (Danke Felix für den Tipp)

    05 Nov

    Virtual Google Search Appliance

    Ziemlich cool: Eine Google Search Appliance mit einem Dokumentlimit von 50'000 für Entwicklungs- und Testzwecke) lauffähig als VMware Image: Google Search Appliance virtual edition.

    Interessant ist, dass die Grösse der Anwendung und damit auch die Systemanforderungen dadurch transparenter werden. Nutze ich die Appliance, so brauche ich mich nicht um HW zu kümmern, stecke das Ding aber ein und los. Das Image des virtuellen Servers hingegen ist (entpackt) rund 40GB gross und benötigt zur Laufzeit mindestens 3 GB RAM plus CPU u.s.w

    Den Ansatz die Technologie damit breiter zu verteilen finde ich sehr lobenswert und für uns als Implementor (und Google Partner) macht es das Leben einfacher.

    Und hier gehts los mit der Google Search Appliance virtual edition:

    virtual gsa get started

    03 Nov

    Der Kleber der von der Konkurrenz kommt

    Yahoo bietet im indischen Markt mit Glue eine stratifizierte Trefferliste im Portallayout. Mit dem Ziel, die Relevanz der Ergebnisse in der Summe zu verbessern, werden unterschiedliche Kollektionen gleichzeitig, aber visuell getrennt angezeigt. Dazu kommen noch "Related Pages" in der Kopfzeile und angepasste Trefferzitate.

    Zu dem Strati (stratus = Schicht) gehört die Yahoo Volltext-Trefferliste, Wikipedia, die Yahoo Bildersuche, die Yahoo News-Einträge, Yahoo Answers, eBay, YouTube-Videos und die Google Volltextsuche (siehe Pfeil). Noch erstaunlich, dass Yahoo mit zwei Bereichen Ergebnisse von der Konkurrenz zeigt und denen somit Reichweite erzielt. Zumindest bei der Volltextsuche müsste man meinen, dass sie eine gleiche Qualität bei sich selbst vermuten.

    Trefferliste von Yahoo in Indien bei der Suche nach car buy

    Der Ansatz der Stratifizierung ist schon lange bekannt. A9 (Udi Manber, Amazon) hatte das bereits 2004 mal im grossen Stil probiert und Google versucht mit Abschnitten in der Trefferliste sowie OneBox-Modulen dasselbe zu erreichen, visuell aber weniger deutlich.

    Zusätzlich zu Search Monkey zeigt sich Yahoo also sehr experimentierfreudig. Konkurrenz tut gut.

    29 Mai

    Can enterprise search profit from rugby? [presentation]

    Gestern durfte ich am FASTforward Summit 2008 als Keynote direkt nach dem CTO von Fast, Bjørn Olstad sprechen. Im Programm hiess es trotz der langfristig zuvor abgestimten Agenda "Analyst on user and search". Nun ja ich bin kein Analyst aber Dienstleister und Search heisst bein mir auch eher "Find" oder um ganz korrekt zu sein "Information Retrieval". Und weil alles auf Englisch war, wechsle ich nun auch.

    Enterprise information retrieval is complex, that we are tempted to tackle the project using a very structured approach... But contrary to many other ventures, the problem domain is tricky and the somewhat moving. Searchers learn while searching, results can be presented differently or some users know the collections and others don't. The presentation proposes an agile approach based on Scrum to project success.

    In my eyes, an agile approach is very well fitted to a retrieval project, because many parameters change in the course of the project by definition. This includes domain knowledge of searchers but also the data accessed.

    Here you find the presentation: Can enterprise search profit from rugby? [pdf, 868KB]

    News nicht von heute, sondern von gestern, aber noch länger relevant: Microsoft und Fast geben bekannt, dass Microsoft den Suchspezialisten Fast Search [dort könnte man sich vielleicht schon mal angewöhnen, etwas mehr im Bereich externe Kommunikation zu machen, die Akquisition durch Microsoft ist gut versteckt bloss auf der „Stock Exchange Announcements“ Seite erwähnt] kauft.

    Die Details, direkt ab Quelle, resp. von der Käuferseite liegen hier.

    Was heisst das nun? Der Produke Line Up im Enterprise Search Bereich bei Microsoft ist somit komplett. Lokal auf dem PC die Desktop Suche, für „normale / Standard“-Suchbedürfnisse der Search Server 2008 in 2 Varianten: einmal als Freebie zum ausprobieren und/oder für wirklich kleinere Einsätze und einmal fully blown als „normale/bezahlte“ Software, und, wie wir seit gestern wissen für High-End Einsätze die Fast Produktelinie. Die sich schon Einiges an Reputation und Markt erworben hat. Das sage nicht ich, sondern die üblichen Auguren, Gartner und Forrester.

    Das Ganze natürlich mit etwas Verzögerung: Search Server Release geplant im 1. Quartal 2008, Integration der Fast-Produkte im Lauf des Jahres [meine Schätzung], kann man davon ausgehen, dass der Enterprise Search Setup von Microsoft auf Ende 2008 richtig komplett sein wird. Womit sich das Bild im Enterprise Search Game wieder massiv verändert hat.

    Ich bin gespannt auf die Reaktion aus Mountain View.

    Lustige Begebenheit am Rande der Bekanntgabe der Fast-Akquisition: Microsoft Exec Jeff Raikes war sonntags etwas schusslig unterwegs: Er verschickte am Sonntag einen Media Alert an die geneigte Presse, in dem er „wichtige Neuigkeiten“ für Montagmorgen ankündigte; und zog den Alert schnell wieder zurück [aber nicht schnell genug, um ihn den Journalisten wirklich vorzuenthalten]. Was natürlich die Neugier massiv vergrösserte und die schreibende [US-]Zunft zu Spekulationen [„Geht Raikes?“] motivierte. Alles Nonsens, die Ankündigung am Montag war dann eben die Akquisition von Fast. Nachzulesen, nachzuvollziehen hier.

    28 Nov

    Microsoft und Google auf die Bühe: Enterprise Search im Vergleich

    In bisschen mehr als einer Stunde ist es soweit. Im Rahmen der namics Fachtagung Enterprise Search-Systeme im Vergleich zeigen zwei technische Vertreter von Google (Joachim Glaubrecht) und von Microsoft (René Knöfel) Ihre Suchsysteme für den Firmeneinsatz live, ohne Powerpoint und ohne doppelten Boden.

    Idee ist es, die Produkte nebeneinander zu erleben und diese echt anzufassen und nicht Prospekte lesen zu müssen, die alles versprechend und dann... Einleitung macht Markus Tressl von namics mit einem Überblick über die typischen Herausforderungen der und Tipps für die Unternehmenssuche. Den Abschluss macht Marco Hassler von namics mit der Vorstellung des Evaluationsmethodik von namics mit dem Ziel das geeignetstes Suchsystem für einen konkreten Einsatz zu finden.

    Und hier schon mal die Präsentationen (wobei es den spannendste Teil nur live zu erleben gibt):
    > Einführung Unternehmensweite Suche [pdf, 1,6MB]
    > Die Fragen an die Hersteller Microsoft nd Google [pdf, 520KB]
    > Einführung einer unternehmensweiten Suche [pdf, 1,3MB]

    19 Nov

    Wer ist oben (am Beispiel des Rankings von Yahoo)?

    Die Position der Treffer in der organischen Rangliste einer Suchmaschine ist nicht nur ein sehr schwieriges Problem (und nur in Näherung zu lösen), aber auch ein sehr emotionales Thema von Wissenden und Halbwissenden (häufig emotional) "diskutiert".

    Oder noch einfacher die Frage: Welche Einfluss hat mein Google Page Rank (genau) auf meine Ranglistenposition. Die Antwort wird zur Zeit, da Google grad wieder mal als Blogposts getarnte Werbung bestraft, besonders emotional diskutiert. Die Antwort heisst meist: Es werden über hundert Faktoren berücksichtigt...

    Erstaunlich offen war Dr. Jan Pedersen (Chief Scientist for the Search and Marketplace Division of Yahoo!) an einem Vortrag an der Uni Berkeley. Dort erklärte er 14 nach Wichtigkeit rangierte Faktoren zur Berechnung des Rangs in der Trefferliste bei Yahoo inkl. eine Entscheidungsbaum mit einigen Gewichtungsfaktoren (ermittelt über maschinelles Lernen). PageRank (bei Yahoo heisst das Analog Eigenrank) ist dabei "nur" an Stelle 7.

    Die Faktoren (nach Wichtigkeit):

    > A0 - A4: anchor text score per term. In wie vielen eingehenden Links (Anker) findet sich der Suchterm resp. die Suchterme 1-4.
    > W0 - W4: term weights. Wie häufig/selten ist der Suchterm in der gesamten Kollektion.
    > L0 - L4: first occurrence location (encodes hostname and title match). Wie weit oben ist der Suchterm im Dokument inkl. Domänenname/URL und HTML Seitentitel.
    > SP: spam index: logistic regression of 85 spam filter variables (against relevance scores). Wie wahrscheinlich ist es, dass es sich beim Dokument um Spam handelt?
    > F0 - F4: term occurrence frequency within document. Termhäufigkeit im Dokument.
    > DCLN: document length (tokens). Anzahl ausgewertete Suchterme (Tokens) im Dokument.
    > ER: Eigenrank. Popularitätsindex, berechnet über externe Verlinkung (PageRank-Analog).
    > HB: Extra-host unique inlink count. Anzahl unterschiedliche Hosts mit Inlinks.
    > ERHB: ER*HB
    > A0W0 etc.: A0*W0
    > QA: Site factor – logistic regression of 5 site link and url count ratios
    > SPN: Proximity. Qualität der Nachbarschaft des Dokumentes bzgl. verlinkender Sites.
    > FF: family friendly rating. Yahoo Rating bezgl. Familientauglichkeit des Dokumentes.
    > UD: url depth. Klickpfadlänge der kürzestens Pfades ab Home innerhalb der Site.

    Und hier noch der Entscheidungsbaum:

    yahoo-ranking-entscheidungsbaum.png

    In kurz: Qualität des Inhaltes (Terme), Platzierung im Dokument die sog. Auffälligkeit und die Qualität der Verlinkung sind massiv wichtig. Oder in kurz: Guter Inhalt wird gut gewichtet.

    Danke Jan Pedersen für diesen Einblick!

    08 Nov

    Bei der Enterprise Suche wurde es grad spannend

    Microsoft hat immer davon gesprochen, jetzt haben sie wirklich was Gutes auf den Tisch gelegt. Hut ab: Microsoft Search Server 2008.

    Ein als eigenes Produkt verpacktes Enterprise Search Produkt, welches technisch auf Sharepoint (WSS und .Net) basiert, sich aber standalone installieren lässt. Bevor ich nun 1'000 Sachen erzähle ein paar die ich ziemlich cool finde:

    - Das leistungsfähige Basisprodukt ist gratis ("hard to compete")
    - Alle drei Varianten des Produktes haben KEIN Dokumentenlimit
    - Externe Suchsysteme lassen sich über das OpenSearch API von A9 einbinden
    - plus all die netten Konverter von Microsoft
    - Später (Anfang Jahr) Kommen dann noch Konnektoren dazu

    So auf den ersten Blick sieht bereits die Gratisversion sehr gut aus und MS behautet das Ding sein (auf einer Windows-Kiste) in 30 Minuten "up and running".

    Screenshot aus der Demo von Microsfot Search Server Express 2008

    Ich auf jeden Fall installiere das Ding ziemlich plötzlich!

    06 Nov

    Enterprise Search: Microsoft versus Google [Umfrage]

    Am Mittwoch, 28. November 2007 zwischen 14 - 17.30 Uhr organisieren wir einen 1:1 Vergleich der Suchtechnologie für Firmen von Microsoft (die heute S2 offiziell angekündigt haben) und Google. Dafür könnten wir von beiden Firmen je einen Techie (No Marketing-Brup) gewinnen, der bereit ist die Lösungen live zu zeigen und so zu vergleichen.

    >> Wer kommen will, kann hier hier anmelden: Google und Microsoft: Enterprise Search-Systeme im Vergleich

    microsoft versus google

    Ich schreiben diesen Post um Fragen zu sammeln, die beide Hersteller zeigen (besser als beantworten sollen). Also wichtige Aspekte, welche das eine oder andere Produkt für einen Unternehmenseinsatz differenzieren.

    Also bitte los mit den Fragen... ich habe 6 Slots zur Verfügung.

    30 Okt

    Ist die neue Suchfunktion besser als die alte?

    Es gibt verschiedene Search Analytics Kennzahlen, von denen ich schon über einige berichtet habe. Interessant ist das Beispiel von Jan Pedersen von Yahoo, welches er im Rahmen der Vorlesung "Search Engines: Technology, Society, and Business" organisiert von Marti Hearst an der UC Berkeley gezeigt hat.

    Yahoo nimmt die Suchsessions, bei denen mindestens ein Link auf der Trefferliste geklickt wird. IN der Menge rechnen sie den durchschnittlichen Rang (1 zuoberst, 12 der zweite Treffer auf der zweiten Suchtrefferseite) des zuletzt des letzten in der Session geklickte Resultates der Trefferliste. Je kleiner die Zahl, desto besser die Rangierung. Und so sah die Graphik nach einem grossen grossen Update (um 04-07) aus. In der Erklärung spricht Pedersen [Podcast, mp3] jedoch von inversem Rang (1/Rang), doch das würde weder die absolute Zahl noch das negative Vorzeichen erklären...

    Graphik des inversen Trefferranges des letzten Klicks auf Yahoo über Zeit

    Bei mit im Post zu der Rangliste war das die Kennzahl Nummer 3... nur leider hat mir die schöne, öffentliche Graphik gefehlt. Danke Jan! Da der Titel des Charts Metric 11 heisst, hätte ich die restlichen auch noch gerne ;-)

    10 Okt

    Die Google Enterprise Suche GSA wird sozial

    goog-ent-appliance.jpg

    Google stellt in den nächsten Tagen ein Update für seine Enterprise Search Lösung zur Verfügung, welche mit spannenden Neuerungen aufwarten wird. Zum ersten Mal wird die GSA dann 'offen' sein, so dass suchende Benutzer selbst in Funktionalitäten eingreifen können.

    Für die heute schon vorhandenen KeyMatch Ergebnisse (bei google.com bekannt als Sponsored Links) steht neu ein Pflege- bzw. Update-Interface zur Verfügung, über welches neu die Benutzer ihre eigenen KeyMatches für sich und die Kollegen pflegen können.

    Damit dies im schlimmsten Fall nicht ausufert, kann durch den GSA Administrator diese Funktionalität beschränkt oder sogar ganz abgestellt werden.

    goog-ent-keymatch.jpg

    Weiter wird der Release 5 der GSA Software Konnektoren für einige Enterprise Content Management Systeme mitbringen, bereits bekannt sind Konnektoren für Microsoft Sharepoint und Documentum. Mit Hilfe von Konnektoren ist man nicht auf die Crawling-Fähigkeit der Datenquelle angewiesen, vielmehr wird mittels 'Hook' bei Änderungen an CMS Inhalten der Inhalt direkt via XML-API an die Search Appliance geschickt und so eine ad-hoc Indizierung ermöglicht.

    goog-ent-search-as-type.jpg

    Rein visuell das attraktivste neue Feature wird eine Google Suggest ähnliche Funktion für die Search-Box der GSA sein. Dabei wird mit type-ahead Technologie schon während der Eingabe ein Preview auf das Suchergebnis geliefert. Eine Best Practice kann man bereits heute schon bei der apple.com Suche sehen.

    Je nachdem wieviel Aufwand man in die Implementierung einer solchen Lösung steckt, ist die Google Enterprise Suche nicht nur eine Volltextsuche, sondern kann vielmehr zu einer unternehmensweiten Universal Search ausgebaut werden in welcher nicht nur Text-Links die SERP beherrschen, sondern beispielsweise auch Bilder oder Videos angezeigt werden, wie heute schon bei manchen Suchen auf google.com sichtbar ist.

    24 Sep

    Eine gute Suche als kritischer Erfolgsfaktor [Vortrag]

    Morgen an den X.DAYS in Interlaken spreche ich zum Thema: Eine gute Suche als kritischer Erfolgsfaktor.

    Im Kern geht es (so wie in meinen Artikel in der aktuellen Handelszeitung bereits ausgeführt, leider hinter einer "Paywall" und somit nicht verlinkbar -- an den Verlag: Das wäre genau das Wichtige im Internet und bitte keine PopUps ;-) darum, dass es bei der Suche (Suchfunktion, Volltextsuche) nicht wirklich um Technik geht, aber um die gute Konzeption der Useranforderungen und einen exzellenten Betrieb mit dauernden Verbesserungen.

    Zudem ist eine Internetsuche von einer Intranetsuche grundsätzlich zu unterscheiden. Das Argument "So wie google" zählt also nicht. Die wichtigen Unterschiede zwischen Internet (public search) und Intranet sind: Linkstruktur / Verlinkung, Berechtigungssteuerung / Sicherheitsanforderungen, Präzisionsbedarf (jede[r] will gefunden werden), zahlreiche Anwendungen und Desktop Daten. Zudem illustriert der Vortrag die wichtigsten Herausforderungen jeder Suche (wie die Subjektivität der Relevanz) und einige Lösungsmöglichkeiten.

    Wichtige Quellen im Vortrag sind
    - die Übersicht zu Search Analytics
    - die Schweizer Studie zur Evaluation der Suchfunktion von Schweizer Unternehmens-Websites
    - Gary Marchionini: From Finding to Understanding [pdf, 1,4MB]
    - MOSS Faceted Search WebPart auf Codeplex
    - unser Whitepaper zur Evaluation von Suchtechnolgie

    Und wie immer gibt es die Präsentation hier auf dem Weblog früher, so wissen auch alle, ob sich das Kommen wohl lohnt.

    >> Download: Eine gute Suche als kritischer Erfolgsfaktor [pdf, 5,7MB]

    10 Sep

    Search Analytics - Übersicht

    Das wichtigste bei einer Suche ist die Überwachung des Betriebs und die dauernde Optimierung. Der Prozess dazu heisst Search Analytics. Dieser Post ist eine Zusammenfassung bereits publizierter Artikel und dient der Verlinkung.

    - Kennzahlen um die Query (Teil 1)
    - Kennzahlen um die Trefferliste (Teil 2)
    - Kennzahlen um den Index (Teil 3)

    Mehr Informationen zum Thema Analyse im Internet findet sich im Archiv: Web Analytics sowie zum Thema Informationssuche im Archiv: Information Retrieval. Angebote dazu finden sich auf auf der Homepage von namics zur Web Analytics und zu Information Retrieval.


    PS: Ich schreibe grad meinen Vortrag "Eine gute Suche als kritischer Erfolgsfaktor" am 25. September an den xdays in Interlaken und möchte die drei oben genannten Post verlinken.

    24 Jul

    Und die Diskussion beginnt (Autonomy vs Google)

    Auf dem Google Blog schreibt Matthew Glotzbach (Product Management Director, Google Enterprise) über ein Whitepaper von Autonomy, welches von Google handelt. Titel: Don't believe everything you read.

    Darin wiederlegt er Falschaussagen die Autonomy über die Google Search Appliance macht. Und Glotzbach hat recht... Wir haben die Technologie bei Kunden schon sehr oft eingesetzt und im besten Fall bezieht sich das Paper von Autonomy auf die erste Version der Google Mini. Die ist aber schon fast 1,5 Jahre aus dem Dienst.

    Interessant ist der Ansatz von Google die Diskussion öffentlich zu machen. Mal sehen wie es weitergeht....

    PS: Leider hat der Google Weblog keine Kommentarfunktion

    PPS: Noch neckisch als zertifizierter Partner von Google haben wir Zugriff auf Google Dokumente über Autonomy... ob dort wohl alles stimmt... ich muss mal nachlesen.

    12 Jul

    Look at the Data (not at the Shirt)

    Im Rahmen des Google Developer Day sprach Peter Norvig über "Theorizing from Data".

    Dabei geht es im Kern um einen alten Streit zwischen Linguisten und Statistiker, der Norvig sehr elegant zu Gunsten der Statistiker entscheidet: "If you don't have the data, you don't do progress".

    Nach einer Einführung, weshalb der bei Google arbeitet ("because that's where the data is"), zitiert er ein Paper von Banko und Brill, in welchem sie empirisch zeigen, dass der beim einem Trainigsset von 1 Mio. Dokumenten der schlechteste Algorithmus zur Disambiguierung von Worten den besten (immer bei 1 Mio.) schlägt, sobald dieser mit 10 Mio. trainiert ist. Der Einfluss der Daten ist also wichtiger als der Unterschied der Berechnung.

    Nun beginnt er mit Beispielen, welche auf einem englischen Korpus von Google basieren den sie aus dem Web Crawl für das LDC erstellt haben. Darin finden sich 95 Mio. Sätze mit 13 Mio. unterschiedlichen Worten (inkl. Zahlen, Eigennamen und Tippfehlern). Damit macht Google beispielsweise Query Refinment. Hier beim Term "flicker" (mit e) und einiges mehr.

    Trefferliste von Google mit einen Teil der den Queryterm von flicker zu flickr anpasst

    Norvig beginnt nun in seinem Trainingsset mit "unsupervised machine reading" Konzepte zu clustern (z.B. company, industry, business). Dann sucht der nach Relationen (z.B. {Konzept} complained to {Konzept} about) und schlussendlich abgeleitete Muster X complained to Y about Z == x filed a complained about Z with/to Y == a complaint to X about Z u.s.w. Wohlgemerkt ohne linguistisches Wissen aber nur über Statistik. Und immer wieder Seitenhiebe gegen die Lingusten mit empirischen Erkenntnissen die halt einfach richtig sind ;-) So beispielsweise führt er Stemming ad absurdum, indem er zeigt, dass eine Konkatenierung nach 4 Zeichen ein bessere Resultat bringt (dabei wollten sie nur Platz sparen ;-)

    Und kaum dreht man sich um, zeigt Norvig statistische Übersetzungen die, zumindest in der ausgewählten Beispielen, sehr gute Resultate bringen. Dies Dank der schieren Menge an Trainingsdaten. Für alle, die ein bisschen Spass an Statistik (und oder Liguistik) haben ein brillianter Vortrag. Und hier noch ein Bild wegen der Bemerkung wegen dem Hemd.

    Bild von Peter Norvig während dem Vortrag mit einem unglaublich blumigen Hemd

    PS: Für Leute die sich schon immer fragten, wie ich YouTube Video runterladen kann. Hier ein Dienst und ein benötigter FLV-Player.

    11 Jul

    Fremde E-Mails lesen

    Natürlich aus rein wissenschaftlichem Interesse. Im Rahmen der Enron Untersuchung in den USA wurden von der Federal Energy Regulatory Commission 619'446 E-Mail Nachrichten von 158 Usern (meist Kadermitarbeiter) öffentlich publiziert. Diesen Korpus gibt es bei der Carnegie Mellon Universität zum Download und ist ein guter Grund, seine privaten E-Mails nicht übers Geschäft zu "pflegen"... oder suchen sie mal nach "marry me" drin ;-)

    Spannend sind die verfügbaren Auswertungen darauf so auch unterschiedliche statistische Klassifizierung oder gleich eine interaktive Navigation.

    Screenshot des Viewers von Jeffry Heer

    Sehr nett natürlich die Möglichkeit die Daten selbst als Testdatenset (z. B. auch für DBMS-Test) zu nutzen (ohne "wissenschaftliche" Papers generieren zu müssen).

    Danke an Martin für den spannenden Tipp.

    05 Jul

    Praxisstudie: Evaluation der Suchfunktion deutscher Unternehmens-Websites

    Wie ist die Suche von öffentlichen Websites? Diese Frage haben wir und bereits so oft gestellt, dass wir zusammen mit Partnern eine Methodik zur Evaluation und damit zum Vergleich von Suchfunktionen entwickelt haben. Erstmals angewendet wurde diese bei einer Erhebung von 54 Websites in der Schweiz vor rund einem halben Jahr.

    Heute präsentieren wir (Universität Hildesheim, Zürcher Hochschule Winterthur, Europsider und namics) eine Erhebung von Unternehmens Websites in Deutschland.

    Ziel der Studie ist es die vom Nutzer wahrgenommene Qualität einer Website-Suche zu erfassen und nicht die unterliegenden technischen Parameter oder Systeme. Die Zusammenfassung der Ergebnisse der durchgeführten Einzeltests ermöglicht eine qualitative Beurteilung des Gesamtfeldes und damit auch Aussagen über die Positionierung von Ergebnissen relativ zum Gesamtfeld. Daraus kann abgeleitet werden, in welchen Bereichen akuter Handlungsbedarf besteht und wie gross das Potential für Verbesserungen ist. Zudem dokumentieren die 74 Testkriterien (und deren Testverfahren) wie eine gute Suche heute funktionieren muss.

    Hier der Präsentationen (ein ausführlicher Text wird später noch publiziert):

    > Einführung: Evaluierung von Information Retrieval Systemen. Prof. Dr. Christa Womser-Hacker, Universität Hildesheim [pdf, 470KB]

    > Einfürhung. Dr. Martin Braschler, Zürcher Hochschule Winterthur [pdf, 470KB]

    > Hauptkriterien: Anfragen und Dokumente vergleichen und Suchergebnisse. Dr. Peter Schäuble, Eurospider [pdf, 570KB]

    > Hauptkriterien: Suchindex und Bernutzerinteraktion. Jürg Stuker, namics [pdf, 3.4MB]

    > Zusammenfassung der Ergebnisse. PD Dr. Thomas Mandl, Universiät Hildesheim [pdf, 440KB]

    20 Jun

    Search Analytics - Kennzahlen um den Index (Teil 3)

    Letzter Teil einer Serie über Kennzahlen der Suche. Ziel ist es, die Qualität der (Volltext)suche zu messen und somit faktenbasiert zu verbessern. Also keine emotionalen Diskussionen darüber, wie die Trefferliste rangiert (...das ist sowieso subjektiv...), aber eine Messung. Die Serie ist Teil der Der online Erfolgsmessung: Web Analytics und unserer Arbeiten zur Informationssuche allgemein: Information Retrieval. Die zwei Posts bis jetzt:

    > Kennzahlen um die Trefferliste
    > Kennzahlen um die Query

    Und nun der Index. Der Index ist die (technische) Datenstruktur, welche die auffindbaren Elemente enthält. Wichtige Aspekte sind dessen Vollständigkeit (sind alle gewünschten Elemente darin verfügbar?), die Aktualität (ist der Index synchron mit den originären Datenquellen?) und dessen Mächtigkeit (welche Funktionen bietet der Index an wie beispielsweise die Suche nach Phrasen oder die Evaluation von Wortabständen?). Aber bei der Suchanalyse bitte nur das messen, was wirklich auch angepackt d.h. verändert wird. Daher schlage ich nur eine Kennzahlen vor:

    1) Anzahl suchbare Elemente.

    zu 1) Sie wissen wie viele Seiten ihr Angebot hat. Stimmt diese Zahl mit dem Suchindex überein? Einfach, aber einige Fragen gilt es zu klären so wie: Gibt es unterschiedliche Ansichten des selben Inhaltes beispielsweise eine Druckansicht jeder Seite? In die Suche gehört nur eine der Repräsentationen (da es sich bei der anderen faktisch um ein Duplikat handelt). Oder: Wie werden Seiten gehandhabt, welche mehrere binäre Dokumente "drauf haben" (insb. PDF)? Normalerweise gibt es pro PDF einen Indexeintrag (konvertiert nach HTML , mit einer eigenen URL) und zudem noch einen Eintrag für die Verteilerseite selbst, da dort hoffentlich auch ein paar nützliche Informationen untergebracht sind.

    Wenn die Kennzahl plötzlich sinkt? Es mag einen echten Grund geben, so beispielsweise wurden Seiten der Präsenz deaktiviert und gehören somit raus aus dem Index. Häufiger sind aber Berechtigungsprobleme weil plötzlich etwas in der Konfiguration geändert wurde oder andere technische Probleme wie die Erreichbarkeit einer der Quellen o.ä. Oder auch sehr beliebt Template-/HTML-Änderungen nach denen der Crawler die Links nicht mehr erkennt (JavaScript und Flash lässt grüssen).

    Wenn die Kennzahl plötzlich steigt? Klar: Sie haben neue Inhalte publiziert ;-) Auch beliebt sind sogenannte "Crawler-Traps" d.h. der Crawler indexiert denselben Inhalt mehrfach oder gar endlos. Grund sind meist technische Änderungen insb. an der ULR (z.B. Session IDs) oder an der Serverkonfiguration.

    Somit wünsche ich Ihnen alle Verbesserungen bei Ihrer Suche. Es lohnt sich die Zahlen anzukucken!

    14 Jun

    Worttrennung und Editierabstand = Unterhaltung

    Wissenschaftlich fundiert und auch einfach erklärt, doch deutlich spannender ist der Unterhaltungswert. Rechtschreibeprüfungen nutzen unter anderem die Worttrennung (Decompounding) und der Editierabstand (Levenstein distance) um ähnliche Schreibweisen als Korrekturvorschläge zu machen.

    Im folgenden Beispiel (Microsoft Word 2003 mit Schweizer(deutsches) Wörterbuch hält der Algorithmus alles vor und nach dem Bindestrich fest und "spielt" mit dem Wort Meta, welches das Wörterbuch offensichtlich nicht kennt. Und was kommt das raus?

    Bilder der genannten Korrekturvorschläge des Wortes HTML-Meta-Tags bei Microsfot Word

    HTML-Mega-Tags: Muss was grössere sein?
    HTML-Beta-Tags: Davon gibt es im Web 2.0 viele!!
    HTML-Mett-Tags: Kenn ich nicht, kenne nur Mettwurst
    HTML-Eta-Tags: Hmm sind das die aus dem Baskenland oder auch Grenchen?

    Danke Reto für Hinweis und den Kommentar.

    25 Mai

    Search Analytics - Kennzahlen um die Trefferliste (Teil 2)

    Nach einem ersten Teil "Search Analytics - Kennzahlen um die Query", hier der zweite Streich. Ziel ist es weiterhin die Effektivität der Suche ("Suchmaschine") faktenbasiert zu verbessern. Also nicht ein Zaub(d)erer, der mit viel warmer Luft erklärt was zu tun ist, niemand ihm folgen kann und nach der Änderung immer noch alle unglücklich sind aber: Zahlen. Das ganze ist ein Teil von Web Analytics: Der Erfolgsmessung im Internet. Erlauben Sie zuerst die folgende Erklärung.

    Graphik mit vier Ellipsen die je einen Zustand zeigen und Pfeile, welche Zustandsübergänge visualisieren. Die Erklärung dazu im Text.

    Die Ellipsen zeigen typische Zustände ("Seiten") einer Suchanwendung. Das Suchfeld (mit sehr wenigen Optionen beispielsweise auf jeder Seite rechts oben), die erweitere Suchmaske (mit allen Optionen), die Trefferliste (gerne auch mit SERP = Search Engine Result Page abgekürzt) und das Zieldokument (das in der Trefferliste verlinkte Ziel).

    Alle Übergänge sind im Rahmen der Navigation möglich. So zum Beispiel gebe ich im Suchfeld einen Begriff ein und lande (nach dem Klick auf dem "Suchen"-Button über Pfeil 1 auf der Trefferliste. Dort blättere ich eine Seite, da ich in den Zitaten das Gesuchte nicht zu finden meine (über Pfeil 2) und schlussendlich wähle ich einen Eintrag der zweiten Trefferliste und lande über Pfeil 3 auf dem Zieldokument. Viele andere Wege sind möglich: Von der Trefferliste zurück zum Suchfeld, vom Zieldokument zurück zur Trefferliste etc. Und nun zu den Zahlen:

    1. Auswahlhäufigkeit (Selection Ration)
    2. Suchabbruch (Search Abandonment)
    3. durchschnittliche Ranglistenposition gelickter Treffer
    4. in der Trefferliste geklickte URLs
    5. aufrufende Seite

    Auch hier wieder gehören die Werte wieder zyklisch ausgewertet etc.


    zu 1) Die Auswahlhäufigkeit ist die Anzahl der Suchanfragen, bei denen User in der Trefferliste auf mindestens einen Treffer klicken geteilt durch die Anzahl der Suchanfragen. Führt ein User eine Suche aus und klickt auf einen Treffer der Trefferliste, so steht die (statistische) Chance gut, dass er fündig wurde. Das Verhältnis ist 1. Bei einem kleineren Verhältnis führt der User mehrere Suchanfragen aus, klickt aber weniger Treffer. Dies ist ein Hinweis, dass das Gesuchte nicht im Index ist (gar nicht auf der Trefferliste erscheint), die Rangierung schlecht ist oder das Trefferzitat eines relevanten Eintrags nicht zu einem Klick verleitet. Und ist die Auswahlhäufigkeit grösser Eins, so wählt der User zu wenig Suchanfragen sehr viele Kandidaten für einen Treffer, kommt aber immer wieder zur Suche zurück, da das gewählte Zieldokument sein Informationsbedürfnis nicht befriedigt hat.

    zu 2) Der Suchabbruch ist der Fall, bei dem User nach einer Suche auf null Treffer klicken. Die Kennzahl das Verhältnis der Abbrüche zur Anzahl Suchanfragen. Um dies festzustellen, muss ein geeignetes Zeitintervall festgelegt werden, wie lange ein einzelner Suchprozess (Session) maximal dauern darf. Bspw. 5 Minuten. Eine gute Kennzahl ist möglichst tief.

    zu 3) Die durchschnittliche Ranglistenpposition ist eine Aussage zur Rankingqualität aus Usersicht und erlaubt, je nachdem ob die Trefferliste immer gleich lang ist resp. die Anzahl Einträge pro Rangliste im Tracking bekannt sind, auch die Berechnung wie häufig zwischen Ranglisten geblättert wird. In der oberen Graphik ist dies der Übergang 2 und eine tiefe Kennzahl nahe bei 1 (der gelickte Treffer ist immer auf Rang 1) ist optimal.

    zu 4) Die in der Rangliste geklickte URLs ist keine Kennzahl, dennoch eine wertvolle Aussage. Sozusagen eine BottomUp-Sicht darauf, welche Zielseiten regelmässig über die Suche gefunden werden. Diese Seiten sind Kandidaten für eine höher Gewichtung in der Informationsarchitektur ("ab auf die Hompage"), aber auch Kandidaten für hervorgehobene Top Treffer in der Rangliste. Achten Sie hier auf die Saisonalität der Suchanfragen.

    zu 5) Auch keine Kennzahl. Die Seiten, aber welcher die Trefferliste aufgerufen wurde (der Referrer). Haben Sie beispielsweise auf jeder Seite oben rechts ein Suchfeld, so kann der Ursprung der Suchanfrage ganz unterschiedlich sein. Stellen Sie beispielsweise fest, dass regelmässig im Bereich der Pressemitteilungen gesucht wird (die per Zufall leider alle als PDF angebiten werden). Diese Erkenntnis ist auch Grundlage für Gewichtung von Inhalten und für spezialisierte Suchfunktionen.

    Soweit so gut. Für Frage und Bemerkungen bin ich gerne zu haben und es folgt noch ein dritter Teil über Kennzahlen um den Suchindex.

    03 Mai

    Search Analytics – Kennzahlen um die Query (Teil 1)

    Die Suche („Suchmaschine“) ist nie gut genug und die Möglichkeiten der Anpassungen, Einstellungen, Optimierungen und Änderungen sind zahlreich. Doch wie stelle ich als Betreiber fest, ob die Veränderung auch eine Verbesserung war?

    Genau wie bei der Usability gibt es KEINE Formel, aber schlussendlich entscheiden auch bei der Suche Menschen mit ihrem spezifischen Vorwissen, ihrem Kontext etc. mittels Test über die Qualität resp. die Effektivität. Einiges habe ich dazu im Umfeld der (subjektive) Relevanz bereits darüber geschrieben.

    Hier eine weitere wichtige, quantitative Betrachtung als Serie: Search Analytics. Die Anwendung der Webanalyse auf die Suchfunktion: Zwischen Suche und User findet ein Dialog statt: Erfolgreich oder erfolglos, doch das Ganze lässt sich gut auswerten und somit auch verbessern. Wie immer bei der Analyse sind die richtigen Kennzahlen (KPIs = Key Performance Indicators) wichtig. Hier ein erstes Set: Alles um die Query

    Ja, Querylänge, Anzahl Worte in der Query etc. sind spannend. Aber Hand auf’s Herz: Was machen Sie damit? User verändern... kaum. Das es sich vor allem lohnt Sachen zu interpretieren auch welche zu Aktionen führen meine erste Auswahl:


    1. Queries so wie eingegeben
    2. Queries normalisiert
    3. Queries mit 0 Treffern in der Suche
    4. Queries mit 0 Klicks in der Trefferliste


    Alle Werte sollen zyklisch ausgewertet werden (z.B: pro Monat). Dies, da es deutliche Saisonunterschiede aber auch Trends und neue Informationsbedürfnisse gibt. Nützlich zur Übersicht sind Tabellenspalten nach Queryanzahl rangiert mit Trendangaben wie bei einer Hitparade Top 20 und neu, rauf, runter, alter Rang.


    zu 1) Die Top-Queries sind Anhaltspunkt für zusätzliche Inhalte, Änderung der Anordnung auf der Website oder auch zusätzliche Funktionen der Suche. So beispielsweise die Erkennung von Produktnamen in der Suche und eine spezielle Präsentation in der Trefferliste bspw. mit einem Bild und einem Direktlink zur Dokumentation. Als Beispiel die Verteilung der Queries eines Intranets. Stichprobe 12'859 Queries (ohne leere Anfrage), 5066 davon unterschiedlich. Die Graphik zeigt nur 50% aller Queries, die Y-Achse ist logarithmisch und zwischen zwei X-Achsen liegen 200 Werte.

    Kurvendiagram zeigt einen Longteil mit Suchbegriffen
    (häufigste Query 149x pro Monat, bei Rang 200 (4% aller Queries) fällt die Häufigkeit auf 8 identische pro Monat resp. 2 pro Woche)


    zu 2) Diese Liste liefert v.a. bei neu implementierten Systemen Hinweise auf technische Verbesserungen. Korrekterweise sind die folgende Queries identisch zu behandeln: Juerg, jürg, JÜRG, jUeRg oder auch Ségolène, segolene etc.

    zu 3) Sehr wichtig! Es suchen mehrere Leute regelmässig nach Inhalten, welche die Site nicht anbietet, welche die Site zwar anbietet aber die Suche nicht erschliesst, oder welche die Site anbietet aber untern anderen Begriffen gefunden werden. Diese Liste ist Ausgangslage für Synonyme, Metadaten oder auch neuen Content.

    zu 4) Am wichtigsten! Gibt es regelmässige Anfragen, welche (innerhalb einer Suchsession) zu keinem Klick auf der (populierten) Trefferliste führen, so lohnt es sich auf jeden Fall diesen nachzugehen... Die Verbesserungsansätze können zahlreich sein, meist ist es aber ein Problem der Ranglistenposition (Ranking) oder bei der Qualität der Trefferzitate in der Rangliste. Und hier noch eine Graphik darüber, wie viele Leute in der Rangliste klicken. Quelle ist ein Intranet (in welchem wegen der Suchaktivitäten systematisch häufig geblättert wird als bei einer Websuche). Wieder die 12'859 Queries innerhalb eines Monats.

    Kuchendiagram mit Prozentwerten der Blättervorgängen
    (90% aller User blättern nicht [schauen max. 10 Treffer an], 6% blättern auf die zweite Seite [20 Treffer] und noch 2% auf die dritte [30 Treffer])

    30 Nov

    Die Gesamtresultate im Überblick und unsere Empfehlungen [Präsentation]

    Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". Vierter Teil, präsentiert von Martin Braschler.

    Den statistischen Teil schreibe ich nicht mit, der liest sich besser in der Studie. Spannender sind sicher die Tipps und die subjektiven Rückmeldungen der Tester (ausserhalb des Tests). Zum mitnehmen: Test zeigt Luft nach oben und die Probleme sind lösbar.

    Jetzt: "Soft Questions" der Tester. Zwei Formen: Gesamteindruck (Schulnoten) und Spassfaktor (machte keinen Spass / ok / machte Spass). Durchschnittsnote Gesamteindruck 4.84 -- gespentisch gleich wie die systematisch erhobenen Werte. Ein paar subjektive Feedback (mehr in der Präsentation): Der gefällt mir: "die Darstellung der Treffer ist kriminell". Spassfaktor im Schnitt 0.82 (knapp OK).

    Und jetzt die Empfehlungen!

    - Mehr Gewicht auf Vollständigkeit und Aktualität des Suchindex (kein passivens Crawlen). Die Suche ist nur so gut wie die Datenbasis.
    - Bessere Pflege der Metadaten. Nicht (zu) viel tun aber Sachen wie korrektes Datum oder korrekter Titel.
    - Orientierung an bewährten Standards für Benutzerinteraktion (Nutzer haben google gelernt ;-)
    - Ausbau der Qualität des Vergleichs zwischen Anfragen und Dokumenten (Flexionen, Komposita oder Mehrsprachigkeit)
    - Trefferliste nicht nur aus Dokumenten- sondern auch aus Nutzersicht aufbereiten
    - Der Suchfunktion die Bedeutung geben, die sie verdient (ist das ein Tipp?)


    >> Präsentation: Gesamtresultat [pdf, 89kb]

    Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". Dritter Teil, präsentiert von Peter Schäuble.

    Gleich vorab ein wichtiger Hinweis von Peter, dass die Beispiele (das galt auch für den Teil bezüglich der zwei anderen Kriterien) weder ganz gute Sites noch ganz schlechte Sites sind. Die Beispiele dienen der Illustration und sind niemals die Schlechteste oder die Beste in der Kategorie.

    Die Kategorie "Anfragen und Dokumente vergleichen" umfasst die folgenden Subkriterien (hier der Graphik)
    - Anfrageausführung
    - Ausdrucksstärke der Abfragesprache
    - Metadatenqualität

    Als Beispiel wählt Peter einen Artikel im Tagi über eine Studie des BFS, die er mit einer sehr langen Anfrage (der ganze Einleitungstext) erfolgreich findet. Gegenbeispiel ist Swiss mit einer langen Anfrage bezüglich Jetlag. Interessant ist vor allem der sehr textlastige, verschachtelte Text der Suchfunktion auf den Nulltreffer (vgl. Präsentation Seite 6). Er erzählt hier die Geschichte von www.google.com, welche die Tippfehlerkorrektur früher in einem längeren Text versteckt hatte. Er seit der Kürzung erhalten sie viele Klicks darauf.

    Bei der Ausdrucksstärke zwei gute Beispiele. Eines davon eine Phrasensuche bei Novarits mit einem Stoppwort drin. Dieselbe Suche muss gleich als ungenügende Beispiel herhalten nämlich bei einer Suche nach Vasella, wobei bei einem Treffer Titel und Inhalt nicht zusammenpassen. Grundsätzlich ist die Metadatenqualität bei den getesteten Seite schlecht.

    Nun zum Kriterium der Suchergebnisse mit den folgenden Subkriterien (hier der Graphik)
    - Navigationsanfragen: Schnell eine Subwebsite finden (Einsteigspunkt)
    - Informationsanfragen: Möglichst viele relevante Aspekte zu einem Thema
    - Faktenanfrage: Ein Fakutm (z.B. Telefonnummer) löst mein Problem.

    Diese Aufteilung stammt von Andrei Broder, welcher diese Gruppierung aufgrund von Altavista Query Traffic etablierte.

    Interessant ist, dass alle Subkriterien eine sehr grosse Streuung haben. Danach Beispiele zur Erläuterung. Zudem der Hinweis dass die Anzahl Anfragen an ein einzelne Website im Rahmen des Testes -- aufgrund des Aufwandes -- als eher klein zu beurteilen sein.

    Nun bringt Peter das Beispiel der FCB-Fans in Zürich (von denen die Zürcher in seine Worten "heimgesucht" wurden). Der Vergleich hier ist Zwischen google und der Suche auch www.bs.ch. Suchbegriff ist FCB. Das Resultat ist erfrischend unterschiedlich... es könnte am Kommunikationskonzept von www.bs.ch liegen ;-)

    Bei der Diskussion schon erste Tipps. Beispielsweise dass häufig nach Personennamen gesucht wird und dies gut mit einem speziellen Treffer (Personenportraits) behandelt werden kann.

    Aha: In kleineren Kollektionen ist es schwieriger die richtigen Treffer zu finden als in einer grossen (sprich: horizontale Websuche). Die Quelle dazu ist Hawking und Robertson.

    >> Hier die Präsentation: Hauptkriterien: Anfragen und Dokumente vergleichen und Suchergebnisse [pdf, 1.2MB]

    30 Nov

    Hauptkriterien: Benutzerinteraktionen und Suchindex [Präsentation]

    Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". So, es geht los. Jürg Stuker live zu „bloggen“ ist sicher kein einfaches Unterfangen (Herr Schönholzer hat max. 180 Anschläge/Minute), aber ein Versuch ist es wert.

    Jürg versucht mit der Präsentation die Studienresultate mit Beispielen zu erklären. Dies ist insbesondere für Menschen mit etwas weniger statistischem Basiswissen gedacht. Also, Studie am besten im Verbund mit der Präsentation „geniessen“.

    [Suchindex]
    Suchindex: Eine Anwendung (Suchapplikation) kann nur so gut sein, wie die Datenbasis (Suchindex), ganz einfach zu verstehen, wenn ein Dokument im Suchindex fehlt, kann es auch nicht gefunden werden.
    Folgende Subkriterien wurden getestet:
    Vollständigkeit
    „Sind alle möglichen Treffer der Suchtrefferliste im Index vorhanden?“
    Diese Aufgabe ist lösbar, da dies im eigenen Einflussbereich liegt.
    Häufige Probleme liegen bei PDF-Dokumenten: Erschliessung und Textextraktion
    Aktualität (create, delete, update)
    Aufällig ist, dass regelmässig geänderte Inhalte (News) häufig nicht indexiert wurden.
    Anfrage- / Dokukmenterschliessung, z.B. Tokensierung: Segmentierung von Text in linguistische Einheiten, z.B. F/A-18 (Kampfflugzeug, für die Nicht-Steuerzahler).
    Obwohl diese Aufgabe nicht allzu einfach zu meistern ist, wurde Sie von einer Mehrzahl der Studienteilnehmer sehr gut erfüllt. Die Schweizer scheinen dank ihrer Mehrsprachigkeit eine gewisse Affinität zu haben, dies ist jedoch eher eine Hypothese.

    [Benutzerinteraktion]

    Die folgenden Subkriterien wurden unter dem Hauptkriterium „Benutzerinteraktion“ untersucht:
    Was sieht der Nutzer von der Suchfunktion?
    Präsentation der Trefferliste
    Im Bereich der visuellen Darstellung haben die Nutzer durch die Benutzung der externen Suchdienste gewisse Darstellungsformen „erlernt“. Mit internen Suchdiensten, sollten die Nutzer nicht umerzogen werden.
    Häufig werden Metadaten (Dokumentengrösse, -datum etc.) in der Trefferliste nicht angezeigt.
    Trefferlisten in Pop-Up Fenstern sind nicht Nutzergerecht.
    Nutzerführung
    Meistens fehlt eine aktive Benutzerführung, z.B. Tipfehlerkorrekturen….meinten Sie Tippfehlerkorrekturen.
    Kleiner, feiner Hinweis: Der Suchbegriff sollte im Suchfeld stehen bleiben, ansonsten weiss der Nutzer bei einer weiteren Suche, oder einer Eingrenzung, nicht mehr wonach er gesucht hatte und ob er sich gar vertippt hat.
    Das Ziel wäre, den Nutzer aktiv bei seinen Bemühungen zu unterstützen.
    Performance
    Die Such-Performance der untersuchten Sites korreliert in einigen Fällen mit dem Abschneiden in der Studie.

    So, das wars.
    Die Beispiel im Powerpoint „erhellen“ die eine oder andere die Aussage der Studie ungemein, also Powerpoint anschauen:

    >> Hier die Präsentation: Hauptkriterien: Suchindex und Benutzerinteraktion [pdf, 2.6MB]

    30 Nov

    Einführung in die Studie, Testanordnung und -durchführung [Präsentation]

    Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". Erster Teil, präsentiert von Martin Braschler.

    Bezüglich der Motivation bezieht sich Martin auf den, aus seiner Sicht, übernützten Begriff der "Informationsflut". Die Suche ist in diesem Kontext unabdingbar. Suche ist ein Kundendialog: Die Website als Kommunikationsinstrument. Nutzer wollen relevante Information schnell und transparent finden. Neu ist aber, dass nur ein mittelbarer Kontakt mit dem Nutzer besteht und der Dialog ohne ihre Anwesenheit stattfindet.

    Wichtig bei der Studie war es entlang von Bedürfnissen zu evaluieren und NICHT eine Prüfung der Applikation ("Featurelisten").

    Ausgangslage der Argumentation ist ein Blick auf Internet-Suchdienste mit einem massiven (dauernd wachsenden) Angebot an Inhalt (5 Exabytes pro Jahr gemäss Lyman & Varian). Die "eigene" Suchfunktion auf einer Unternehmenswebsite ist eine andere Datenbasis und ein anderer Anwendungsfall. Dies illustriert an der folgenden Tabelle:

    ir-stude2006_tabelle-mb.gif

    Nun ein ausführlicher Teil über das Retrievalproblem. Insb. der Subjektivität eines guten Treffers. Wichtige Einflussfaktoren auf den Suchprozess und die Nützlichkeit eines Treffers sind:

    - Nutzer suchen auf fremden Daten
    - Informationsbedürfnisse sind vage
    - Interpretation variiert von Nutzer zu Nutzer
    - Dieselbe Information kann unterschiedlich dargestellt werden
    - Relevanz ist subjektiv (abhängig von: Vor-/Hintergrundwissen, Reihenfolge des Auffindens, wandelnde Informationsbedürfnisse, persönliche Präferenzen und Vollständigkeit der Antwort)

    Danach folgen eine Erklärung der Evaluation sowie methodische Bemerkungen und eine Liste der getesteten Webseiten.

    Für Liebhaber der Statistik hat es in der Präsi zudem eine Erklärung von Boxcharts...

    >> Hier die Präsentation: Einleitung [pdf, 65kb]

    30 Nov

    Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites

    Wie gut ist die Qualität der Suchfunktionen (Site-Search) von Unternehmens-Websites in der Schweiz und welche Einflussfaktoren sind aus Nutzersicht wichtig? Um diese Frage zu beantworten, haben wir zusammen mit den Partnern Eurospider, Hochschule für Technik und Wirtschaft (HTW) Chur und der Zürcher Hochschule Winterthur eine Evaluations-Methodik entwickelt und, in einem ersten Schritt, die Suchfunktionen von 54 Schweizer Unternehmen und Behörden einer Evaluation unterzogen.

    Wichtig war uns im Rahmen des Evaluationsrasters, welches 74 Einzeltests umfasst, konsequent auf wissenschaftlich fundierte Nutzerbedürfnisse zu fokussieren und keinen „Funktionenvergleich“ zu veranstalten. Zudem wurde die Suchfunktion in ihrer Rolle als wichtiges Kommunkatonsinstrument beleuchtet. Die Haupttestkriterien sowie die statistischen Resultate zeigt die Graphik unten.

    ir-studie-2006-resultate.gif

    Die einzelnen Vorträge finden sich hier:
    - Einführung in die Studie, Testanordnung und -durchführung
    - Hauptkriterien: Benutzerinteraktionen und Suchindex
    - Hauptkriterien: Anfragen und Dokumente vergleichen sowie Suchergebnisse
    - Die Gesamtresultate im Überblick und unsere Empfehlungen

    Und hier zur Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites [pdf, 266KB]

    Google, Microsoft und Yahoo sind gemeinsam eine Partnerschaft eingegangen und unterstützen nun alle das von Google ins Leben gerufene Sitemap Format.
    Mit dem Sitemap-XML ist es möglich, den Crawlern der Suchmaschinen einen kompletten Index der eigenen Site zu übermitteln. So können beispielsweise auch URLs in den Index aufgenommen werden, welche nicht direkt per Link erreichbar sind.

    Google führt dies schon seit längerem in den eigenen Webmaster Tools durch. Hier können Benutzer die eigene Sitemap zur Verfügung stellen.

    Der Sitemap Format-Standard steht von allen drei beteiligten Unternehmen unter der Attribution-ShareAlike Creative Commons License offen bereit. Ausserdem wurde eine neue Website unter sitemaps.org gelaunced, welche neben der Protokoll-Spezifikation auch einen Bereich mit FAQ enthält.

    Ich finde es noch erstaunlich von Google, dass sie nun Teile ihrer Technologie ihren grössten Konkurrenten zur Verfügung stellen. Es scheint doch etwas an der Aussage dran zu sein, dass es Google sich auf die Fahnen geschrieben hat das Internet überall besser machen zu wollen.

    02 Nov

    Google Co-op

    Googles neuester Service Co-op. Ich habe nun die Möglichkeit meine Suche mittels einer Liste von URLs zu konfigurieren. Dies geht mit dem "Google Marker" sehr einfach und schnell.

    Maximal 5000 URLs die den Suchraum definieren und ein Refinement in dem man gewisse Advanced Search Features von Google wiederverwenden kann.

    Für welche Anwendungsfälle kann diese Customer Search Engine eingesetzt werden?
    Ich habe eine Thematische Website und möchte dem User über den eigenen Inhalt auch noch Inhalte anderer Websites (Partnersites, etc.) in meinem Suchresultat zur Verfügung stellen. Ich binde also die costomized Google Suchbox plus das Resultat in meine Website ein. Als no-profit Unternehmung bekomme ich die Resultate von Google auch ohne Werbung.

    Oder ich weiss auf welchen Websites ich welche Thematisch gleichen Informationen finde und kann nun die Seiten zusammenfassen eine Suche konfigurieren und diese auch anderen Usern zugänglich machen. zB. Kleininseratemarkt Schweiz
    Es ist nun möglich, dass ich als Initiator auch andere Spezialisten dazu einlade die Suche zu verbessern, in dem ich diesen die Berechtigung gebe den Suchraum zu erweitern oder auch detaillierter zu definieren.

    Rund um diese Suche kann ich jetzt auch erweitert Werbung zulassen und somit vielleicht dann auch Geld verdienen. Google auf jedenfall erhält sehr gute Informationen welche Sites thematisch zusammen gehören und welche ausgeschlossen sind. Um diese Information zu verarbeiten gibts sicher einen passenden Algorithmus.

    Alles in allem ein spannende Idee.

    26 Okt

    Suchfunktionen im Web [Fachtagung]

    Eine gemeinsame Fachtagung welche wir zusammen mit der Firma Zeix durchführen.

    In sechs Vorträgen illustrieren und erklären wir die wichtigsten Aspekte der Informationssuche im Internet und im Intranet. Information Retrieval und nicht Volltextsuche! Ein guter Überblick welcher die verschiedensten Aspekte abdeckt: Von User-Bedürfnissen, Suchstrategien, User Interfaces über technische Aspekte bis zu einer ausführlichen Betrachtung der Daten. Der Fokus dabei immer der Zusammenspiel aller Akteure und Quick Wins.

    Graphische Darstellung der Akteure: User, User Interface, IR-Applikation und Daten

    Hier die Slots mit den Präsentationen

    1. Warum Suche nicht (immer) einfach ist: Von Motivationen, Suchstrategien und der Informationsflut [pdf, 2,4 MB].

    2a. Einfach, erweitert und die anderen: So stellen Sie Ihren Usern die richtigen Fragen [pdf, 2,8 MB].

    2b. Warum Technik nicht alles ist: Ein wenig zur Technologie von Suchen und Finden [pdf, 3,3 MB].

    3. Die treffende Auswahl anbieten: Wie nach oben kommt, was oben steht.
    a. Fokus Internet [pdf, 2,5 MB].
    b. Fokus Intranet [pdf, 2 MB].

    4. Der Weg zur optimalen Suche: Wie Sie Ihr Projekt «Suche» schnell zum Erfolg führen [pdf, 1,9 MB].


    Danke für Feedback!

    >> Da die Tagung schon ausgebucht ist, bieten wir am Dienstag, 5. Dezember eine Wiederholung. Anmeldung als Kommentar auf diesen Post...

    28 Sep

    Faceted Search: Nicht immer ist die Frage bekannt

    Auch wenn Volltextsuchmaschinen omnipräsent sind, ist das berühmte Eingabefeld mit dem Knopf daneben nicht immer die richtige Lösung. Deshalb heisst die Disziplin auch "Information Retrieval" und nicht "Search". Ein sehr gutes Beispiel (es gibt einige andere Suchstrategien) ist Faceted Search als Navigationssuche gegenüber einer Direktsuche.

    Grundgedanke dabei ist es, dem User eine Navigation durch mehrdimensionale Kriterien zu erlauben, welche die zu durchsuchende Kollektion beschrieben. Eine Erweiterung der klassischen Parameter-Denke, wo ich mit Drop-Down-Felder zu Beginn einschränken muss. Während der Navigation reduziert sich die Treffermenge und kann mit einer -- dann präziseren, weil eingeschränkten -- Volltextsuche verbunden werden. Technische sind viele Aspekte interessant insb. aber die Möglichkeiten der Metadatenerzeugung / Verschlagwortung. Häufig durch Social Tagging oder statistische resp. sprachverarbeitende Algorithmen.

    Am besten ein Beispiel (mit dem FLAMENCO-System [FLexible information Access using MEtadata in Novel COmbinations] der UC Berkeley School of Information). Zwar mit wenig Daten, aber sehr gut verständlich, die Suche der Nobelpreisgewinner. Der Screen unten zeigt mein Treffer nach einer Einschränkung Jahr -> Kategorie -> Land (andere Wege sind möglich).

    Trefferliste der geschilderten Nobelpreissuche

    Spiele Sie rum, die Logik und auch der Charme der Erkundung lässt sich schnell erkennen. Marchionini erklärte einen solchen Ansatz mal sehr passend mit dem Titel: "Form Finding to Understanding". Eine Beispiel mit mehr Daten ist eine Bildsammlung der UC Berkeley im Architekturbereich.

    Ein alternatives Userinterface mit viel JavaScript (aka Ajax) findet sich auf mSpace mit klassischer Musik.

    Suchbrowser auf mSpace auf Claude Debussy eingeschränkt.

    Interessant und nutzbringend ist Faceted Search insb. auch bei Produktkatalogen so beispielsweise bei Tower Record (links aussen) oder auch bei www.otto.de. Dasselbe Prinzip nutzt auch die Metasuche Clusty und viele andere Anwendungen...

    Mehr Gehirnnahrung? Bei Flamenco resp. Marti Hearst gibt es einige Publikationen. Zudem befasst sich die ganze Ausgabe Communications of the ACM, 49 (4), April 2006 damit (ich habe alle Artikel bei mir).

    17 Aug

    Wie mache ich Text zu Information?

    Die Jungs und Mädels sind schlau und sie haben auch extrem viel Daten um statische valide Aussagen machen zu können.

    Google macht (machte?) einfachen Textvergleich. Mein Suchbegriff wird 1:1 mit den Inhalten der Seiten auf der Trefferlisten verglichen. So kommen also Informationswissenschafter und kritisieren (berechtigt) die Grenzen dieses simplen Vorgehens (welches Google in Perfektion beherrscht). Nachdem ich heute über Google Music Trends (s.unten) gelesen habe, fallen mir ein paar Sachen dazu ein.

    Ziel beim Finden ist es das aktuelle (subjektive) Informationsbedürfnis des Suchenden rauszufinden. Dazu gibt es verschiedenen Wege einer ist: Nachfragen. Ein einfaches Beispiel. Ich suche auf Wikipedia nach Läufer und treffe auf die folgenden Seite.

    Eine Übersichtsseite mit zahlreichen verschiedenen Auslegungen des Begriffes Läufer

    Durch einen weiteren Klick weiss Wikipedia wonach ich suche. So was heisst Disambiguierung oder Suchassistenz. Und was hat das mit Google zu tun?

    Suchen Sie auf www.google.ch nach "zürich bern"

    Treffer Zürich Bern mit einem Onebox Modul zum SBB Fahrplan

    Bei google.com gibt es zahlreiche sogenannte One Box Module (nicht alle dokumentiert). Beispielsweise:
    - Suche nach "goog" (Börsenkurs über Symbol)
    - "flight zrh nyc" (Flugplan pber Keyword)
    - "weather boston" (Wetterprognose über Keyword)
    - "9101150134711320079261" (UPS Tracking über Checksumme)
    - "movies 94040" (Kinoprogramm in der PLZ 9404 über Keyword)
    - "movie: superman" (Filminformationen über Keyword)

    U.s.w. hier ein paar mehr bei Google, Bei Yahoo heisst diese Funktion Shortcuts und kann auch von der Community mitgestaltet werden: Yahoo Open Shortcuts.

    Die letzen Beispiele lassen klar erkennen wie diese entstanden sind. So auch der Läufer bei Wikipedia, aber Google will alles algorithmisch lösen? Ein Beispiel (und somit bin ich beim Thema): Google Music Trends. Hier weiss Google nicht nur wer (statistisch gesehen) welche Musik wie häufig hört aber auch, dass gewisse Texte Titel von Musikstücken sind, zu welchem Album sie gehören und welchem Stil diese zugeordnet werden können.

    Screenshot von Google Music Trends mit den aktuellen Jazz-Titeln

    Wie geht das? Ein Blick in die Hilfe und dort steht:

    How do I participate in Music Trends? The first step is to download and install Google Talk, if you haven't done so already. You can then opt in to Music Trends from Google Talk's Settings menu (learn more). After that, anytime you share your music status using iTunes ® , Winamp, Windows Media ® Player, or Yahoo Music Engine ™ , you'll be voting on Google Music Trends.

    Hier sieht man das mächtige Zusammenspiel. Ich machen einen Chat-Client und denke aber von Anfang an dran, welche Daten ich sammeln kann, damit ich für meine Kernanwendung Statistik-Daten habe. Ziemlich gut (aber auch eine bedrohliche Perspektive auch Datenschutzsicht).

    31 Jul

    Die Wahrheit hinter PageRank

    Er wurde von Larry Page erfunden... 2002 war die Lösung am 1. April sehr nah (PigeonRank)... es heisst die Formel für ihn besteht aus über 100 Variablen... und doch könnte es so einfach sein...:

    function getPagerank(url) {

    // start off with a random low PR

    pagerank = randomNumber(0, 3);

    if ( pageHostedOn(url, 'google.com') ) {
    pagerank++;
    }
    else if ( pageHostedOn(url, 'microsoft.com') ) {
    pagerank--;
    }

    if ( pageValidates(url) ) {
    pagerank *= .5;
    }

    tag_value['b'] = 1;
    tag_value['h2'] = 2;
    tag_value['h1'] = 3;
    tag_value['strong'] = -1; // W3C sux!
    pagerank = calculateTagsPr(tag_value, pagerank);

    // Sergey said good news sites have
    // lots of nested tables
    tablesOnPage = getTagCount('table');
    if (tablesOnPage >= 50) {
    pagerank += 2;
    }

    if (pagerank >= 5) {
    pagerank = 4; // helps selling AdWords
    }

    if ( linksFrom('mattcutts.com', url) >= 4 ) {
    // I link to "clean" sites only
    // - Matt, Feb 2006
    pagerank += 2;
    }

    pagerank += countBacklinks(url) / 10000;

    blacklist1 = getList('government.cn/censored.txt');
    blacklist2 = getList('c:\larry-page-hatelist.txt');
    if ( inArray(blacklist1, url) ||
    inArray(blacklist2, url) ) {
    pagerank = 0;
    }

    d = dashesInUrl(url);
    pagerank = (d >= 3) ? pagerank -1 : pagerank + 1;

    if ( inString(url, "how to build a bomb") ) {
    // added on request. 2004-12-01.
    recipient = "peter@homelandsecurity.gov";
    subject = "You might wanna check this...";
    sendMailTo(recipient, subject, url);

    // page might still be relevant
    pagerank++;
    }

    if ( month() == "June" || month() == "October" ) {
    // makes people talk about
    // PR updates, good publicity
    pagerank -= randomNumber(1,3);
    }

    if ( linkCol(url) == WHITE &&
    pageCol(url) == WHITE ) {
    // spammer!! Googleaxe it!!
    pagerank = 0;
    }

    if (url == "http://www.nytimes.com") {
    // just testing, pls remove tomorrow
    // - Frank, June 2003
    pagerank = 10;
    }

    return pagerank;
    }

    Gefunden via Google Blogoscoped.

    13 Jul

    Wortfrequenzen mal spielerisch: RhymeZone

    Bei einem On Page Anstatz bei der Informationssuche sind (relative) Worthäufigkeiten immer ein zentrales Element der Gewichtung. Nun könnten wir Statistik pauken... unterhaltsamer zur Illustration ist aber RhymeZone.

    So gibt es beispielweise Shakespeare-Phrasen in Worte zerlegt und nach Häufigkeit resp. Worfolge sortiert. Cool (und auch ein schönes Lernstück).

    Die Auswahl aller Shakespeare-Phrasen welche mit to be so behinnen

    28 Jun

    blog.namics.com ist männlich!

    Ich greife hiermit nochmal Jürg's Post über die MSN Online Werbung auf. In den Microsoft adCenter Labs hat es ein Tool, mit welchem man demographische Daten einer URL oder eines Suchquery abfragen kann.

    Demnach ist unser Weblog eindeutig männlich (69%), das Alter unserer Besucher liegt zwischen 18 und 24 Jahren.

    blog-namics-com_male.png

    www.namics.com dagegen ist wohl doch eher für alle: 53% männlich, 47% weiblich, das Alter aber auch hier 18-24 Jahre. Und wenn es nach MSN geht ist Google doch tatsächlich für Mädels: 100%!

    Ich lass das jetzt so mal unkommentiert stehen...

    30 Mai

    Total viel unternehmen... aber noch nicht in der Schweiz

    Eventful will sich daran machen unser kurzes Leben zum Event zu machen - "life is short... make it eventful"
    Selbstverständlich Web 2.0 mässig mit "beta" Label, Groups und natürlich offener API

    Jedes Event lässt sich dann zu diversen Online/Offline Kalenders exportieren z.B. den Google Calendar

    Ein spannendes - und meines Erachtens einzigartiges Feature - ist jedoch der Demand Tab:
    Hier kann man sich einen Event in seiner Region wünschen (z.B. Steve Burns - Cincinnati metro area ) und alle können dafür "voten". Eventfull will bei genügend grosser Nachfrage das Ganzen dann in die Wege leiten... zumindest es versuchen.

    Vielleicht ja auch was für guide.local.ch (momentan noch "under heavy construction") - dann würd ich mir mal wieder die Appenzeller Space Schöttl's auf dem Open Air St. Gallen wünschen.

    Wir dürfen gespannt sein.
    :-)

    11 Apr

    Google Finance: Stock Quotes mit Kontext

    Die Börse lebt vom ständigen Auf und Ab. Und nicht nur wer sich nur gelegentlich mit dem "Markt" beschäftigt fragt sich wieso sich die Kurve einer Aktie denn nun so verhält oder verhalten hat...

    Die Stock Quotes von Google Finance bringen diesen Kontext auf den Schirm!
    Die direkte Kombination von News und Chart besticht:
    google_finance-apple1y.png
    http://www.google.com/finance?cid=22144 (Apple Computer, Inc.)

    Tip: Während die Tagesdarstellung (Initialansicht) die 8 neuesten News zum Unternehmen auflistet, werden bei längeren Zeiträumen nur die jeweils 8 wichtigsten News herausgesucht.
    Das Prinzip beruht momentan wohl auf einem Reuters News Feed der "Big Stories" (lt. Jakob Nielsen's Alertbox) und reicht nur ein Jahr in die Vergangenheit - es wäre aber nicht besonders überraschend, wenn beispielsweise Yahoo clickthroughs zu seinen News über Jahre bereits gespeichert hätte...

    Nebenbei bemerkt: Die Suche, Bedienung des Charts (Slider, Rollover-Punkte etc.) und Gruppierung der ergänzenden Inhalte (Discussions Blogs...) sind ebenfalls exzellent gelöst.

    Fazit: Ein Seite, die für alle Interessierten in jedem Fall einen genaueren Blick wert ist.

    04 Apr

    Suchmaschinen: Wie und was geben die User ein?

    Betrieben Sie eine eigene Suchmaschine auf Ihrer Website oder im Intranet. Und wenn ja, wissen Sie, was die User eingeben? Diese Information und insb. auch ganze Suchsessions sind sehr wertvoll und die Suchmaschine zu optimieren resp. systematische Fehler zu korrigieren. So beispielsweise Tippfehler (oder unterschiedliche Schreibweisen), Sucheingaben mit Null Treffern oder Resultate auf der Trefferliste die niemals angeklickt werden.

    Ein Fundus an wertvollen Informationen inklusive einen methodischen Ansatz zur Evaluation bieten die folgenden Studien von Jansen et al., in welchen Suchanfragen an Internet-Suchmaschinen in verschiedenen Jahren ausgewertet wurden.

    - Real life, real users, and real needs: a study and analysis of user queries on the web. 2000. [pdf, 98k]
    - A Review of Web Searching Studies and a Framework for Future Research. 2001. [pdf, 97k]
    - Searching the Web: The Public and their Queries. 2001. [pdf, 185k]
    - From e-sex to e-commerce: Web search changes. 2001. [pdf, 152k]
    - An analysis of Web searching by European AlltheWeb.com users. 2003. [pdf, 307k]
    - An Analysis of Multimedia Searching on AltaVista. 2004. [pdf, 489k]


    Grund für den vorliegenden Post ist jedoch eine aktuelle Studie über die Nutzung der Blog-Suche www.blogdigger.com: G. Mishne, M. de Rijke. A Study of Blog Search. 2006. [pdf, 294k]. Hier einige Highlights der lesenswerten Studie.


    - Blog-Suche hinkt bezüglich der Query-Qualität der user der Websuche hinten nach. Kürzere Suchbegriffe (1,45 bis 1,52 versus 2,02) und noch mehr "Sex-Anfragen". In den oben genannten Studien lässt sich die Evalution gut erkennen.
    - Bei der Blog-Suche schauen die User zu 94,9% nur die erste Trefferseite an. Das deckt sich mit vielen Suchanwendungen die wir betreuen. Bei einer "klassichen" Websuche ist der Wert gemösst der Studie 85,2%.
    - In der Blog-Suche wird sehr häufig nach aktuellen Themen gesucht. Das ist wegen dem Inhalt der Weblogs verständlich und wegen der aktiven Verbreitung zu den Suchmaschinen auch sinnvoll.
    - Interessant ist, dass in Weblogs mehr nach Eigennamen gesucht wird. Sogenannte Context Queries.
    - Und dann noch (wie immer) weg mit dem Irrglauben dass User zusätzliche Elemente im Query-Syntax wie AND, " oder + nutzen.

    PS: Nicht wirklich nützlich (da redaktionell bearbeitet) aber unterhaltsam sind Hitlisten der Suchmaschinen (auch die Kommentrare lesen).

    Bei meinem Post über den Begriff der Relevanz, versprach ich die Verbesserungsmöglichkeiten für Suchmaschinen noch genauer zu beschreiben. Gleichzeitig habe ich einen Vortrag vorbereitet, den ich heute in Winterthur halten werden: "Wie funktioniert eigentlich eine Suchmaschine?". Neben Erklärungen die Checklisten für Suchmaschinen-Optimierung auf dem neustem Stand [pdf, 2,2MB]

    Das folgende Bild dient zur Übersicht über die Generationen von Ansätzen. Wichtig ist der weinrot herhorgehobene Teil in jedem Block.

    vier Abbildungen Sucher gegenüber der Kollektion und bei jeder ist ein Teil rot hervorgehoben. Erkärungen folgen unten.

    >> 1. On Page
    - Allererste Generation. Gibt es bei einer Internetsuche kaum noch; Zumindest nicht ohne Kombination mit anderen Ansätzen.
    - Suchmaschine extrahiert (nur) den Inhalt der Zielseite und gewichtet die Textkomponenten nach Auffälligkeit: Begriff im Domänennamen, URL und im HTML Page Titel sehr hoch, H1 hoch, H2 bisschen weniger hoch etc. Je weiter oben auf der Seite desto höher das Gewicht als unten etc.
    - Typischer Algorithmus: Tf-idf (Termfrequenz über inverse Dokumentfrequenz)
    - Sehr anfällig auf Manipulationen der Zielseiten ("weisser Text auf weissen Grund")

    >> 2. Off Page (Reputation)
    - Die war mal das Alleinstellungsmerkmal von Google. Die Verlinkung einer Seite macht eine Aussage über deren Wichtigkeit und der Linkkontext (Anchor, den den Link umgebenden Text oder der im im DOM-Tree nächsten Text) wird der Zielseite zugerechnet.
    - Jede Seite hat einen Gesamtwert (normiert auf maximal 100), welcher an alle abgehenden Links verteilt wird.
    - Entspricht dem Reputationssystem von wissenschaftlichen Papers (je öfters zitiert, desto wichtiger) aber auch einem Random Surfer (wenn eine Site häufiger und/oder von häufig besuchten Sites verlinkt ist, so kommt ein zufälliger Surfer auch häufiger vorbei).
    - typischer Algorithmus: PageRank von Google oder HITS.
    - Qualität der Resultate und die Stabilität gegenüber Beeinflussung ist vom "jungen" Google bekannt.

    >> 3. Mehr vom Suchenden wissen
    - Ab hier wird versucht, den Suchenden bei der Beantwortung einzubeziehen. Ziel sein subjektives Informationsbedürfnis herauszufinden.
    - Nach der Query wird nachgefragt. Z.B. suche ich nach "Bank", so könnte das System fragen, ob die etwas für den Garten suche oder ein Finanzinstitut. Ein sehr schönes Beispiel sind die "disambiguations"-Seiten bei Wikipedia. Z.B. wenn ich nach Läufer suche.
    - Das selbe Ziel verfolgt die Entitätenerkennung. D.h. das Suchsystem vermutet einen semantischen Umstand erkannt zu haben und zeigt Direkttreffer an, die der Suchende einfach auswählen kann - auch eine Art der Nachfrage. Beispiele die Yahoo Shortcuts oder Google Web Search Features.
    - Andere Ansätze mit Spracherkennung (Linguistik) u.a. sind im Einsatz.

    >> 4. Mehr über den Suchenden wissen
    - Das ist zur Zeit im Trend. Suchmaschinen sammeln Query-, Klick- und Surf-Daten und ordnen diese Usern zu. Und zwar "big time".
    - Google Desktop bietet an, gar den Index meiner Festplatte zu Google zu schicken und Yahoo kauft Dienste wie http://del.icio.us/ um an mehr gute Daten zu kommen. Yahoo 360 speichert den Inhalt meiner Seiten die ich als Bookmarks abgelegt habe (zur Analyse) und kennt auch Leute, die ich als Freude verbunden habe und deren Links/Websites.
    - Hier hängt das die ganze Identiy-Diskusson hinten dran
    - Klar sichtbar ist, dass Google immer weiter weg geht von 2. und immer mehr Popularität (auf Basis der konsolidierten gesammelten Daten) macht. D.h. nicht die Verlinkung aber die realen Anzahl der Besuche einer Site ergeben deren Wichtigkeit. Also weniger Arbeit für Suchmaschinenoptimierer und mehr gute und auch regelmässig frische Inhalte bitte.

    >> 5. Nicht abgebildet, da noch weiter weg sind Microformats resp. Systems der Bottom-Up Klassifizierung, welche Inhalte semantisch ergänzen. Beispielswiese über Tags. Wichtig aber aus meiner Sicht eigentlich Teil von 1.

    08 Mär

    Fundorte und Sperrgebiete der Vogelgrippe

    Internet-Auskunft GoYellow informiert in Zusammenarbeit mit Länderregierungen: Fundorte und Sperrgebiete der Vogelgrippe auf einen Blick auf der Karte

    Vogelgrippe.jpg

    Jürg hat die Kartenappliaktion schon gelobt. Dieses Beispiel zeigt die Flexibilität der Anwendung. Nur die Idee muss man haben.
    (gesehen von Thommy L-I-N-K)

    26 Jan

    Wissen Sie: Auf die Relevanz kommt es an!

    Ein bisschen verzweifelt werde ich schon, wenn in einer Präsentation das Wort zu häufig vorkommt. "Die Ergebnisse sind nach Relevanz gewichtet", "...unser Relevanz-Algorithmus stellt sicher...", oder "...links aussen sehen Sie den Relevanz-Wert". Eine kurze Übersicht und (hoffentlich) einen Beitrag zur Realität.

    Relevant heisst schlussendlich bedeutsam oder wichtig. Aber für wen und im welchen Kontext?

    Die Frage nach dem Kontext der Interpretation stellt sich massiv. So erwartet ein Sportfan eine andere Antwort auf die Anfrage "schwarzer Läufer", als wie eine Person die das Schachspiel lernt oder jemand, der eine Wohnung einrichtet. Oder dieselbe Person zu unterschiedlichen Zeiten. Entschuldigen sie mir das doofe Beispiel, aber der Läufer eignet sich gut, weil er sehr viele unterschiedliche Bedeutungen auf sich vereinigt.

    Meist wird Relevanz aber im Zusammenhang mit Suchtechnologie genutzt. Dort gilt es meist einer grosse Menge unstrukturierten Dokumenten zu einer kurzen Anfrage so zu rangieren, dass das wichtigste oben ist. Nach Relevanz für den konkreten User mit einem konkreten Bedürfnis in einem konkreten Kontext. Und all das "konkrete" kennt die Suchmaschine nicht. Deshalb rangiert Google Desktop Search beispielsweise standardmässig nach Datum...

    So und nun zur Sachlichkeit mit der folgenden Abbildung (aus dem Buch Informationsbeschaffung im Internet):

    Graphik welche die drei Beziehungen objektive, geschätzte und subjektive Relevanz visulisiert

    1) Die subjektive Relevanz. Bezüglich meiner Anfrage hier und jetzt an ein Suchsystem habe ich eine klare Erwartung, was relevant ist. So suche ich beispielsweise die Homepage von namics. Ab und zu kann ich diese Erwartung zwar nicht textuell in Form einer Suchmaschinenquery ausdrücken. Bei "namics" ist das wohl einfach.

    2) Die geschätzte Relevanz. Das Suchsystem versucht mit Hilfe eines (meist statistischen) Verfahrens zu schätzen, was für mich relevant ist. Dies ist ein bleibt immer eine Schätzung, da das System nicht im mich reinsehen kann. Viele der Suchsystem arbeiten hier sehr simpel. Neuste Ansätze sammeln historische Suchanfragen von mir sowie besuchte Webseiten und versuchen daraus meine Präferenzen zusätzlich in meine Anfrage einzubeziehen. Die Schätzung wird besser, bleibt aber eine Schätzung. So gebe ich (wieder) "namics" in das Suchfeld ein und die Maschine schätzt nun -- wegen häufig besuchter Seiten -- den namics Weblog als relevanter ein als die Homepage.

    3) Die objektive Relevanz ist ein Konstrukt, welches bei der Evaluation von Suchmaschinen benötigt wird. Je nach Ansatz bewertet hier eine Fachjury was relevant sein muss. So könnte sie bei "namics" beschliessen, es sei die Firma in Japan (weil die sicher mehr Umsatz hat ;-)

    Abschliessend. Eine Rangierung nach Relevanz tönt gut, gehört aber mächtig hinterfragt. Die Rechenregeln mit welchen ein System Relevanz schätzen kann, können beliebig unterschiedlich sein. Oder: Bei News kann eine Datumsrangierung immer besser sein... Keine Wundermedizin aber eine Formel die schätzt...

    21 Dez

    Google Hack of the Day...

    Ich weiss nicht wie viele Leser dieses Blogs hinter einer restriktiven Firmen-Firewall sitzen, aber der folgende Google Hack (oder eigentlich ist es ja nur die Anwendung des Translators) dürfte einigen das Leben leichter machen.

    Man verwendet Googles Translation Service als Proxy. Die (Übersetzungs-)Sprachparameter werden gleich gesetzt (also en -> en oder de -> de). Im Grunde spielt diese Einstellung aber gar keine Rolle. Dann am Ende des Aufrufs noch die gewünschte URL dran, und alles geht via Google.

    http://www.google.com/translate?langpair=en|en&u=www.namics.com

    Ich bin mir sicher dass Google in den Proxys und Firewalls der meisten Firmen und Schulen nicht geblockt wird.
    Feedback (ob es wirklich funktioniert) welcome!

    15 Dez

    Neue Google Gerüchte

    Business 2.0 und GigaOM berichten heute morgen, dass möglicherweise ein weiterer Google-Coup ansteht.
    Google versucht momentan mit aller Macht, sich ins Mobile Geschäft einzubringen. Ein Kandidat wäre somit Opera. Und zwar nicht aufgrund des Desktop Browsers, sondern wegen deren Mobile-Browser.

    10 Dez

    Yahoo schluckt del.icio.us

    Und weg.... gekauft für 15-30 Mio US Dollars.
    Gerade im Blog von del.icio.us gelesen.

    Und ich hätte gewettet es wird Google... ;-)

    30 Nov

    1998: Google zum Ersten

    Sehr schön was man so alles findet, wenn man im Netz so mir-nichts-dir-nichts durch die Gegend klickt. Unter dem Link auf ein Stanford Archiv findet sich wohl eine der ersten Präsentationen, die von Larry und Sergey gehalten wurde.

    google1.jpg

    Nicht wirklich schön, aber knapp 8 Jahre später muss man ehrlicherweise sagen: sehr erfolgreich!

    25 Nov

    Ist er wirklich er, oder sie doch nicht sie?

    Normalisierung bei Informationsuche: In einem Workshop fuchtelte ich mit der in der Schweiz allbekannten Mehrsprachigkeit der Ortsnamen rum. Eigentlich fand ich mein Beispiel des Vornamens Hans-Peter oder halt Hans Peter oder eben Hanspeter genügend kompliziert. Orgendwie dasselbe, aber spätestens für eine Datenbanksuche ungleich...

    Ein bisschen näher zur Realität brachte mich Martin mit einem anderen Beispielnamen: Den von Muammar al-Qaddafi.

    Er selbst nutze fünf unterschiedliche Transkriptionen seines arabischen Namens. So lautet die Domäne seiner Website lautet al-Gathafi, darauf nennt er sich Muammar Gadafi doch in einem eigenen Paper schreibt er sich wieder Moammar El-Gadhafi.

    Gemäss Library of Congress gibt es 72 (zweiundsiebzig) Schreibweisen und in News-Quellen so wie New York Times, AP oder Xinhua gibt es zusätzlich nochmals 41 Varianten.... (Quelle Wikipedia). Andere Quellen wie der London Evening Standard zählen nur 37 Varianten.

    Sodeli.. ich warte nun auf den nächsten Suchmaschinenverkäufer, der mir einen tollen, sprachagnostischen Algorithmus verkaufen will...

    16 Nov

    Google Base heute gelaunched

    Google hat heute einen neuen Beta Dienst gestartet -- Google Base.

    Basierend auf einer vorgegebenen Rubrifizierung wie Events, Jobs, News, Products, usw. können von den Nutzern Informationen in den Dienst eingegeben werden.
    Mit Hilfe von Attributen werden die Informationen klassifiziert um besser gefunden werden zu können.

    Jenachdem wie wichtig oder relevant die Eingaben sind behält sich Google vor, sie in den Hauptindex oder in andere Tools wie Google Local oder Froogle zu übernehmen.

    Classifieds à  la Google?

    31 Okt

    Sharepoint-Vorträge der PDC jetzt als Video verfügbar

    Alle Vorträge der PDC05 stehen jetzt als Video zur Verfügung. Die Präsentationen stehen auf der PDC-Site als Stream bereit. Wer's mag kann die umfangreiche Sammlung auch herunterladen und offline geniessen . Praktisch: Die Powerpoint-Vorlagen lassen sich ebenfalls separat herunterladen.

    Die beiden spannensten hier als Link

    OFF308: Windows SharePoint Services "v3‿: Creating and Defining Custom Templates, Sites, Features, and Solutions
    OFF415: Windows SharePoint Services: Developing Custom Workflows

    Vor 16 Uhr zu geniessen. Später wird's etwas langsam, wenn die Kollegen in den USA anfangen aufzustehen.

    27 Sep

    www.last.fm -- Wer hört was, wie oft, wer noch...?

    Eigentlich wollte ich heute nur herausfinden, was es so an Plugins für Apples iTunes gibt und was die können. Und schon das erste das mir in die Finger gefallen ist hat mich dann doch fasziniert... last.fm bzw. Audioscobbler.

    Jürg Stuker hat vor einigen Monaten mal etwas über Tag Clouds hier geschrieben, und das gleiche machen wir jetzt mit Musik und nicht mit Bookmarks oder Bilder, OK? Aber... irgendwie wäre das ja illegal wenn ich alle meine Soundfiles für jeden zur Verfügung stellen würde. Daher das Plugin für den Player der Wahl...

    Bei last.fm gibt es das Plugin für iTunes, WinAmp, Media Player und einen Haufen anderer Player unter PC, MAC, Linux usw. zum Download. Soweit easy.
    Man registriert sich auf der Site einen Account und dann kann es eigentlich schon losgehen. Nachdem man das Plugin im Player mit User und Passwort konfiguriert hat, werden die ID3 Tag Informationen von den gespielten Stücken an last.fm gesendet, egal ob es sich um eine normale Audio-CD oder um MP3s handelt.
    Daraus ergeben sich für den einzelnen User kleine Hitparaden und Top-Lists oder die Charts der ganzen Community.

    Jetzt kann ich jedoch, wenn meine Collection bei last.fm gross genug ist, Tag Clouds bilden. So soll zum Beispiel alles was ich von "Den fantastischen Vier" und von "Der Firma" spiele in meine Tag Cloud "german".
    Und wenn ich fleissig meine Informationen an last.fm sende bekomme ich irgendwann Neighbours. Meine Nachbarn haben den selben Musikgeschmack wie ich und ich kann in deren Collection etwas stöbern.

    Im Hintergrund hängt eine einigermassen brauchbare CDDB, welche beim initialen Sortieren hilft. Und ich kann mir, wenn ich nur einen Song bei meinem Nachbarn gefunden habe, gleich anschauen auf welchen Alben der Song vorkommt und in einem UK Store gleich kaufen.

    Zusätzlich bietet last.fm zu den beliebtesten Category Tags Livestreams an, welche wenn ich sie höre auch in meinen Account einfliessen. Dazu muss man sich aber den last.fm eigenen Player herunterladen. Die Musik ist wirklich sehr gut, und man kann einzelne Tracks skippen oder für immer aus der Liste blocken oder mit einem "Love this Song" Tag versehen.

    last.fm Stream Player

    Einen Wermutstropfen habe ich aber auch schon gefunden: Alle meine Compilations habe ich im ID3-Artist-Feld mit "Various" gespeichert, eigentlicher Interpret und Titel stehen im Title-Feld. Leider blockt last.fm alles, was "Various" im Artist stehen hat. Muss ich wohl an der Stelle ins Deutsche wechseln müssen... was dann jedoch den Sinn der Charts etwas zunichte macht.

    Viel Spass, vielleicht wird man ja mal last.fm-Neighbour!

    22 Sep

    Google Archeology (aka Google Earth)

    zdnet.co.uk berichtet, dass ein Italienischer Programmierer dank Google Earth eine alte römische Stadt entdeckt hat, während er mit dem Programm "herumgesucht" hat.

    Luca Mori hat sich mit Google Earth die Region um Sorbolo nördlich von Parma in Nord-Italien angeschaut, als ihm eine ovale Struktur mit einer Länge von mehr als 150m aufgefallen ist.

    "At first I thought it was a stain on the photograph but when I zoomed in I saw that there was something under the earth,"
    berichtete Mori dem Daily Telegraph.

    Danach kontaktierte Mori ortsansässige Archäologen welche kurz darauf an der angegebenen Stelle Ton- und Keramik-Scherben finden konnten. Die Funde beweisen, dass sich an der Stelle einst eine römische Stadt befunden hat -- heute ist es Agrarland...

    20 Sep

    Google Secure Access -- bald Google WiFi?

    Die Anzeichen verdichten sich immer mehr, dass Google bald mit einem eigenen WiFi Dienst (zumindest in den USA) starten wird. Seit heute gibt es den Google Secure Access Client *BETA*.

    Business 2.0 hat schon vor einiger Zeit berichtet, dass Google mehr oder minder heimlich ein solches WiFi Netzwerk aufbaut.

    "For the past year, it has quietly been shopping for miles and miles of 'dark,' or unused, fiber-optic cable across the country from wholesalers such as New York's AboveNet. It's also acquiring superfast connections from Cogent Communications and WilTel, among others, between East Coast cities including Atlanta, Miami, and New York."

    Bleibt abzuwarten was an dieser Front passiert. Womöglich ist ja auch ein wenig Wahrheit dran, dass Google AOL kaufen möchte und damit den letzten Schritt zum Provider macht.

    24 Aug

    Es ist da: Google talk *BETA*

    Die Gerüchte waren wohl richtig, jetzt mal ausprobieren was es zu bieten hat. Ich werde berichten!

    http://talk.google.com

    google_talk.JPG

    Sehr schön auf jeden Fall finde ich, dass Google uns nicht mit Gewalt den eigenen Client aufdrücken möchte: http://www.google.com/talk/otherclients.html
    Nur das Talken mit anderen geht nur via Google Client.

    Der Installer ist sehr schlank (900k), die GUI nett gemacht und nicht überfeatured. Keine Werbung bisher. Und mit Trillian und Jabber Protokoll funktioniert auch alles.

    23 Aug

    http://talk.google.com

    Google Desktop Search 2 BETA ist verfügbar, und schon kommen interessante Inhalte darüber. Ein NY Times Artikel spricht dabei über ein neues "Kommunikations Tool" von Google.

    Gerüchte aus dem vergangenen Jahr belegen, dass Google wohl das Open Source Protokoll Jabber einsetzen wird. Wann kommt nun die Konkurrenz zu AOL, Yahoo und MSN?

    Ich bin bei Neowin fündig geworden... Dort hat einer der Sitebetreiber versucht mit seinem Trillian Client sich auf talk.google.com einzuloggen:

    googleim.png

    Ergebnis ist ein sicherer XMPP (Extensible Messaging and Presence Protocol, bzw. Jabber) Server.

    Und noch ein Hinweis dass an dieser Stelle bald etwas kommt: http://talk.google.com redirectet bereits zu http://www.google.com/talk... man bekommt zwar noch einen Google 404 Fehler, der Redirect ist aber bereits eingerichtet.

    Mal abwarten, bin auf jeden Fall gespannt. Noch ein Service mehr in meinem Trillian.

    18 Aug

    Die Allmend für Nachrichten

    Gedruckte Nachrichten bestimmen unser Leben, oder so wollten das bis anhin uns das die Zeitungen glauben machen. Lassen wir als Erstes mal das Wort gedruckt weg - Die Zahlen sprechen eine deutliche Sprache). Meine Lieblingsquellen [1] [2] [3] geniessen einen Vertrauensvorteil (Wobei auch das nicht immer gegeben). Als NewsJunki der ich bin, beobachte ich mich selber wie ich mein Nutzungsverhalten verändere. Über RSS wurde hier schon berichtet. Doch das eigentlich interessante sind gemeinschaftlich erarbeitete Quellen: Wikinews, Common Times mit einer netten Tag Cloud oder NewsIsFree. Und wenn ich das gleich noch praktisch aufbereitet bekomme wie hier, so bin ich sogar noch schneller...

    Clipboard01.jpg

    20 Jul

    PageRank und wie weiter?

    Wollte es schon immer erzählen, hatte es vergessen und bin nun beim einem Lasttest (mit einem tollen Tool: Proxy Sniffer) wieder darüber gestolpert...

    Bevor es Google gab, bewerteten Internet-Suchmaschinen die Relevanz eines Dokumentes (=Webseite) zu einem Suchbegriff nach Inhaltskriterien. D.h. Worte werden aus den Dokumenten extrahiert und nach ihrer Auffälligkeit gewichtet. Auffällig ist beispielsweise das Vorkommen des Wortes in der URL oder im HTML-Titel und Worte in H1 Tags sind auffälliger als solche in H2, Text weiter oben auf der Seite ist auffälliger als unten u.s.w. Das Ganze noch mit der relativen Häufigkeit des Wortes in allen Dokumenten multipliziert (Dichte) ergibt einen Wert zur Rangierung (Tf-idf: Term Document Frequency and Inverse Document Frequency). Das führte zu Suchmaschinespamming mit weissen Worte auf weissem Grund u.s.w. Hauptnachteil dass sich der Rang durch den Anbieter des Dokumentes beeinflussen liess.

    Dann kam Google und bediente sich dem System des Reputation wissenschaftlicher Papers: Je häufiger ein Paper zitiert wird, desto wichtiger ist es. Hauptunterschied: Die Wichtigkeit wir nicht duch das Dokument selbst aber durch eingehende Links bestimmt kann damit durch den Anbeiter schlechter beeinflussen werden. Das System heisst PageRank, lässt sich auch auch durch einen Zufallssurfer beschreiben und die Grundsätze sind in diesem Paper von Brin und Page gut beschrieben: The Anatomy of a Large-Scale Hypertextual Web Search Engine (1998).

    Doch nun können findige Leute in der Zwischenzeit auch dieses System ziemlich gut beeinflussen (spammen). Wie weiter?

    Kennen die die Google Toolbar, ein Browser Helper von Google für den Internet Explorer und Firefox? Das Ding liefert in der Standardkonfiguration jede besuchte Website an Google zurück! Hier zwei "Lieferungen" als ich auf www.namics.com surfte (Packet 14 und 16):

    Tabelle mit vier IP-Paketen, wobei zwei Toolbar tracking sind

    In Packet 14 ist der folgende Request drin:

    1. GET /search?client=navclient-auto&googleip=O;171& ch=62093974834&freshness_check=4PJ1Y5d_nGlce0FySaH3F& iqrn=UNtC&orig=0gS9s&ie=UTF-8&oe=UTF-8&features=Rank& q=info:http%3A%2F%2Fwww%2Enamics%2Ecom%2Fwissen%2Ehtml HTTP/1.0
    2. Cookie mit Sessiondaten und Sprachkennung

    Kein Urteil über gut und schlecht, aber Google sammelt damit Information von realen Surfern und kann somit den PageRank aufgrund von (dynamischer) Nutzung und nicht nur von (statischer) Verlinkung berechnen. Dieselben Informationen liefern auch der Google Deskbar und andere Tools.

    So richtig gut wird es dann mit dem personalisierten Google, wobei sogar meine persönliche Bedürfnisse mit ausgewertet werden können.

    Screenshot mit meiner Google Search History am 30. Juni 2005

    Ganz schön schlau und wegen der vielen Informationen möglicherweise auch gefährlich.

    06 Jul

    Wie werden Resultate von Suchmaschinen besser?

    Was macht eine Suchmaschine wie Google den ganzen Tag (von ganz weit weg)?

    1) Daten, die später durchsuchbar sind im Internet sammeln: Das so genannte Crawling oder Spidering.
    2) Diese Daten in eine technische Form bringen, damit der Zugriff auf Stichworte rasch und effizient erfolgen kann: Indexierung.
    3) Benutzeranfragen gegen den in 2) erstellten Index auswerten d.h. die zum Suchbegriff zutreffenden Dokumente (Webseiten) finden.
    4) Die in 3) gefundenen Treffer in eine Reihenfolge bringen (welches Dokument ist zuoberst wenn der Nutzer Läufer eingibt).

    Die zuvor genannten 4 Hauptaufgaben einer Suchmaschine

    So richtig schwierig ist nur die 4. Aufgabe doch kurz eine Bemerkung zu 1. Auch wenn die 8 Mia. Seiten, welche Google anbietet nach abschliessend viel aussieht, wird nur das sogenannte "Surface Web" d.h. Seiten die ohne Passworte technisch einfach zugänglich sind (z.B. nicht durch Formulare vor Suchmaschinen versteckt). Der Rest des Internets ist das sogenannte "Deep Web" und hier setzt ein erster öffentlicher Dienst an: Yahoo Subscriptions. Damit werden durch Passworte geschützte Quellen gefunden (z.B. Financial Times) die ich dann nur mit einem entsprechenden Login konsumieren kann.

    Und nun zur schwierigen Aufgabe, zum Ranking. Die Rangierung der Trefferliste hängt immer von Kontext des einzelnen Benutzers ab. So sucht ein Schachfan beim Begriff "schwarzer Läufer" etwas anderes als ein Nutzer, der die Person sucht, welche 1936 den 100 Meter-Lauf in Berlin gewann (Jesse Owens). Das Wort Läufer hat übrigens noch ein paar Dutzend Bedeutung...

    Zwei aktuelle Ansätze mit dem Ziel das Ranking dem Nutzer anzupassen, respektive die Qualität der Grunddaten zu verbessern (Suchmaschinen-Spam zu eliminieren).

    Bei Google Personalized Search (Beta) werden vergangene Suchanfragen des einzelnen Users und die in der trefferliste geklickten Links (Relevanzfeedback) gespeichert und bei zukünftigen Suchanfragen berücksichtigt. So werden spezifische Nutzerthemen stärker gewichtet. Mehr Informationen dazu bei Google.

    Spannender ist Yahoo My Web (Beta), eine "Social Search Engine". Darin habe ich eine Bookmarkmanager in welchem ich meinen Browser-Bookmarks Tags vergeben und gleichzeitig ein Netzwerk mit mir bekannten Personen, welche auch so eine Liste führen, aufbauen kann. Somit kann Yahoo nun in "meinen" Seiten suchen, meine Seiten als Grundlage für meine Bedürfnisse bei einer Suchanfrage analysieren, meine Tags bei der Suche mitauswerten, meinen Freundeskreis in die Suche einbeziehen etc.

    Es bleibt spannend.

    28 Jun

    Beat Döbeli Honegger Biblionetz

    Beat Döbeli Honegger pflegt seit langer Zeit mit Biblionetz eine eindrückliche integrierte Mischung aus Bücherliste, Begriffs- und Personenlexikon, Begriffs- und Zitatesammlung und vielem anderen mehr. Schwierig zu beschreiben und wundervoll zu konsumieren.

    Der Versuch eines Beispiels: Ich will mehr über den Autoren Terry Winograd wissen und sehe mir die Autorenseite an. Dort sind Bücher (mit zitierten Zusammenfassungen) und Zitate von Winograd selbst, aber vor allem Graphiken über das Beziehungsnetz (Zitierungen) zwischen Autoren und Büchern. Das ganze mit SVG visulisiert und klickbar plus Zitattexte... beispielsweise zum meinem Buchtipp Understanding Computers and Cognition und so weiter. Kaum zu erklären: Eben Wundervoll!


    Beziehungnetz des Autren Terry Winograd in grapischer Form

    05 Jun

    Köder für Crawler

    Immer wieder Google... Neu können Anbieter von Webangeboten Google in einer XML-Sitemap mitteilen, welche Seiten gecrawlt werden sollen: Google Sitemap. Der Bereich der technischen Suchmaschinen-Optimierung (v.a. bei generierten Inhalten mit "?" und "&" in der URL) ist somit weitgehen vereinfacht. Wurde aber nun Cloaking nicht grad ein bisschen einfacher?

    Die Inhalte (Tags) sind sehr einfach: Wie häufig besucht werden soll (changefreq), das Änderungsdatum (lastmod), die URL und eine Priorität im Set (priority). Hier ein Beispiel einer solchen Sitemap:

    Beispiel einer Sitemap-Datei in XML

    Und nun ans programmieren (oder zum Generator von Google in Python).

    20 Mai

    Google Desktop Search auch mit Lotus Notes (Juhee)

    Nutzer von Lotus Notes als Messaging-Client zeigen eine Tendenz, sich von der modernen Welt vernachlässigt zu fühlen (zumindest so mein Gefühl).

    Nun aber mit Paukenschlag auf dem Google Blog und ohne Pressemitteilung von IBM aber mit einem News Clipping (in dieser Reihenfolge), sind wir Nutzer wieder dabei: Google Desktop Suche mit Lotus Notes!

    Schlussendlich ist das "nur" ein positiver Effekt der offenen GDS Plug-In Architektur, wo wir sicher nich viel erwarten können.

    Interessant aber auch, dass IBM das Plug-In nur mit einer Installation im Notes-Client hingekriegt hat (trotz JAVA-API und ODBC auf Notes!).

    gds_notes_plugin.gif

    Auf jeden Fall habe ich nun eine sehr nette Suche (ich weiss dass X1 Notes plus weitere 369 Dateiformate plus Preview hat, aber ich vermute mein Comupter leidet mehr) und bin wieder "dabei".

    Danke an den Hinweis von Urs Wagner (mit GDS gefunden):

    gds_notes_find.gif

    17 Jan

    Alle haben Desktop Search

    Der Einsatz von Suchmaschinen-Technologie als Desktop-Werkzeug war absehbar und unter anderem von Microsoft mit "Stuff I've Seen (SIS)" der breiten à–ffentlichkeit angekündigt.

    Sehr früh auf dem Markt war X1, die sich nun mit einer OEM-Lizenz für Yahoo Desktop Search ein Stück des Marktes abgeschnitten haben. Das spannendste Feature hier ist sicherlich der Konverter von Stellent welcher rund 200 Dateiformate für die Indexierung in HTML umwandelt und zusätzlich einen Preview ermöglicht.

    Somit wäre die "grosse Liga" nun etwa wie folgt besetzt: Copernic, Google, HotBot, MSN, Ask Jeeves und Yahoo.

    Zuerst mal zum Platzhirsch: Google

    desktop_google.gif

    Zwei Sachen stechen sofort in die Augen: Ein eigener http-Server (alles browserbasiert) und das Default Ranking nach Datum. Das Erste verleitete uns gleich dazu die Desktop Search über einem http-Proxie erfolgreich auf einen Dateiserver zu installieren. Der Verzicht von Google auf ein inhaltsunabhängiges Ranking im Desktop (und Intranet)-Szenario ist zwar logisch doch für Google zuerst mal neu.

    Das mit dem "browserbasiert" hat sich dann ein bisschen relativiert, als Desktop Search nicht nur auf Windows als Dateierver läuft aber auch nur auf Windows untern dem Windows-Betriebssystem (bei der Proxy-Lösung mit Linux und MAC festgestellt)... Qualität, Geschwindigkeit und Indexgrösse sind Google-mässig gut und mit Ausnahme eines gelösten Sicherheitsproblems "alles im Grünen".

    Spannend war die Erkenntnis, dass sich Google nach einem initialen Crawling in's Speicher-API von Windows reinhängt und sowohl den Index bei jedem Speichervorgang inkrementell nachführt wie auch einen Text-Cache der ersten 5000 Zeichen anlegt. Die 5000 Zeichen sind im Übrigen die maximale Textmenge die in den Index einfliesst.

    Die Nutzung des Speicher-API ist insofern ein Problem dass auch passwortgeschützte Dokumente in den Index einfliessen und Änderungen die über Kopie auf den Rechner kommen nicht im Index sind (aber auf Datei-Server soll Desktop Search auch nicht laufen und die Leute sollen wohl eine Search Appliance kaufen ;-)

    Die Installation ist erfrischend schlank und einfach und die Integration in die Websuche von Google (über einen Desktop-Link und einen Zitat-Cluster an der ersten Stelle in der Trefferliste) ist erstaunlich nett gemacht. Eine runde Sache mit den minimalen Funktionen gut umgesetzt.


    Und dann zu Microsoft mit MSN

    desktop_msn.gif

    Ich wäre fast versucht gewsesen bei Google zu bleiben, doch ich musste Microsoft (und andere) ausprobieren. Das Resultat ist, dass ich bei Microsoft geblieben bin. Die Nachteile gleich vorweg: Keine Browser- aber eine (nervige) Explorer-Integration mit ganz vielen Knöpfen die zu MSN, Hotmail und Co. führen.

    Die übersichtliche Darstellung der Treffer inklusive Meta-Daten aus Dokumenten zusammen mit der Berücksichtigung von Dokument-Rechten belohnt aber mächtig. Dazu arbeitet Microsoft mit einem herkömmlichen Crawling-Mechanismus der (zumindest in meinem Einsatzszenario) die Vollständigkeit der Kollektion besser abdeckt als Google. Zudem habe ich wegen der guten Nutzungsschnittstelle die Technik plötzlich vergessen und arbeite plötzlich als Nutzer mit nützlichen Funktionen wie beispielsweise dem Kontextmenu der Maustaste 2

    Und wenn wir bezüglich Plattform-Lockin ehrlich sind, läuft Google ja auch nur auf Windows (zumindest vorläufig).


    Das Rennen um weitere Funktionen hat erst begonnen... und es bleibt sicher spannend.

    17 Sep

    Verschiedene Quelle, ein Resultat

    Udi Manber ist ja schon ein alter Bekannter. Nun ist a9 auch mit einer Pressemitteilung draussen.

    Abgesehen von Alogrithmen-Voodoo (Berücksichtigung von historischen Queries und Surfverhalten zur Relevanzsteigerung etc.) und lustigen Features (Toolbar oder Searching-URLs [auch von eBay übernommmen: http://search.ebay.de/thinkpad]) geht es um die Konsolidierung von bestehenden Quelen zu einem neuen Dienst.

    Eine Suche und (in Spalten organisiert) Resultate aus Google (Web und Image), Amazon, IMDb, GuruNet u.a.).

    a9-cto-search.gif

    Nette Idee. Und nun los und selbst was lustiges tun. Hier ist das Amazon API, hier das Google API und hier ein paar News Feeds.

    28 Mai

    Suchmaschinen für Weblogs

    Drei Sachen machen Weblogs (resp. Blogs) für Suchmaschinen speziell: 1) Eine intensive und langlebige Verlinkung mit stabilen Links (Permalinks) und Trackbacks, 2) die Bereitstellung des Inhalts in XML (via RSS) und 3) die aktive Benachrichtigung von http://www.weblogs.com/ und http://blo.gs/ bei Änderungen.

    Generell gilt für Blogs, dass sie sehr gut mit Suchmaschinen funktionierten. Spezialisiert haben sich beispielsweise Technorati oder Feedster: Beide gut um aktuelle Informationen der Weblog Community zu finden.

    Ein bisschen spannender ist Daypop, welche nicht nur Blogs durchsucht aber Top Themen feststellt. Ein bisschen wie Google Zeitgeist aber in Echtzeit und auf Stufe Post. Ganz ähnlich auch blogdex.

    Interessant ist auch Blogtree, die für angemeldete Blogs deren Zusamenhänge resp. den Familienbaum zeigt. Dies inkl. Geburtstage...

    Und hier noch eine lange Liste von Suchmaschinen für Weblogs.

    17 Feb

    Whitepaper Enterprise Information Retrieval

    "Die richtigen Informationen zum richtigen Zeitpunkt am richtigen Ort" - dies ist heute sowohl für Unternehmen als auch für deren Mitarbeiter zunehmend ein zentraler Erfolgsfaktor. Das namics Whitepaper erklärt die grundlegenden Konzepte von Suchmaschinen, deren unterschiedliche Anwendungsbereiche und aktuelle Konzepte der Implementierung und des Einsatzes.

    [pdf, 735K] Whitepaper Enterprise Information Retrieval

    04 Feb

    So kommen Sie in die Suchmaschinen

    Dass Benutzer über Google und Co. kommen wissen in der Zwischenzeit alle -- Sie tun es selbst auch. Doch noch immer gibt es viele Angebote, welche Ihre Suchmaschinentauglichkeit (so dass der Crawler überhaupt was findet) aber auch die Optimierung (damit das Ranking dann auch gut ist). Der meiste Teil der Arbeit ist normales Handwerk und hat mit guter, defensiver Codierung zu tun.

    Hier eine Präsentation an der IEX gehalten mit einem Überblick und vielen Tipps und Tricks: [pdf, 1.6 MB] So kommen Sie in die Suchmaschinen

    Unsere Blogs