namics Weblog
namics Weblog.
Persönliche Stimmen und Meinungen von Mitarbeiterinnen und Mitarbeitern.
namics @ www.flickr.com

Links

  • Sharepoint Weblog
  • about:namics
  • namics Website

AKTUELLE ARTIKEL

  • Can enterprise search profit from rugby? [presentation]
  • Microsoft Enterprise Search: 100 % - Setup completed!
  • Microsoft und Google auf die Bühe: Enterprise Search im Vergleich
  • Wer ist oben (am Beispiel des Rankings von Yahoo)?
  • Bei der Enterprise Suche wurde es grad spannend
  • Enterprise Search: Microsoft versus Google [Umfrage]
  • Ist die neue Suchfunktion besser als die alte?
  • Die Google Enterprise Suche GSA wird sozial
  • Eine gute Suche als kritischer Erfolgsfaktor [Vortrag]
  • Search Analytics - Übersicht

Kategorien

  • Accessibility
  • Blogging
  • Business
  • CEO-Post
  • Design
  • Fehlermeldungen
  • Gesellschaft
  • Information Retrieval
  • Javapolis
  • Lotusphere
  • Mobile
  • Open Source
  • Orbit-iEX
  • Project Management
  • SBAW-live
  • SEO+SEM
  • Technologie
  • Vorträge
  • Web Analytics
  • Whitepaper
  • lesblogs

Archive

  • Juli 2008
  • Juni 2008
  • Mai 2008
  • April 2008
  • März 2008
  • Februar 2008
  • Januar 2008
  • Dezember 2007
  • November 2007
  • Oktober 2007
  • September 2007
  • August 2007
  • Juli 2007
  • Juni 2007
  • Mai 2007
  • April 2007
  • März 2007
  • Februar 2007
  • Januar 2007
  • Dezember 2006
  • November 2006
  • Oktober 2006
  • September 2006
  • August 2006
  • Juli 2006
  • Juni 2006
  • Mai 2006
  • April 2006
  • März 2006
  • Februar 2006
  • Januar 2006
  • Dezember 2005
  • November 2005
  • Oktober 2005
  • September 2005
  • August 2005
  • Juli 2005
  • Juni 2005
  • Mai 2005
  • April 2005
  • März 2005
  • Februar 2005
  • Januar 2005
  • September 2004
  • August 2004
  • Juli 2004
  • Juni 2004
  • Mai 2004
  • April 2004
  • Februar 2004
  • Februar 2003

XML und Mumbo Jumbo

  • namics ag
  • namics ag
  • namics ag
  • Atom Feed
  • RSS 2.0 Feed
  • Creative Commons License
    Dieses Weblog untersteht der Creative Commons Lizenz
  • Powered by Movable Type 3.35 Mitglied von Swissblogpress
29
Mai
Can enterprise search profit from rugby? [presentation]
gepostet von Jürg Stuker am 29.05.2008 um 21:54

Gestern durfte ich am FASTforward Summit 2008 als Keynote direkt nach dem CTO von Fast, Bjørn Olstad sprechen. Im Programm hiess es trotz der langfristig zuvor abgestimten Agenda "Analyst on user and search". Nun ja ich bin kein Analyst aber Dienstleister und Search heisst bein mir auch eher "Find" oder um ganz korrekt zu sein "Information Retrieval". Und weil alles auf Englisch war, wechsle ich nun auch.

Enterprise information retrieval is complex, that we are tempted to tackle the project using a very structured approach… But contrary to many other ventures, the problem domain is tricky and the somewhat moving. Searchers learn while searching, results can be presented differently or some users know the collections and others don’t. The presentation proposes an agile approach based on Scrum to project success.

In my eyes, an agile approach is very well fitted to a retrieval project, because many parameters change in the course of the project by definition. This includes domain knowledge of searchers but also the data accessed.

Here you find the presentation: Can enterprise search profit from rugby? [pdf, 868KB]

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
09
Jan
Microsoft Enterprise Search: 100 % - Setup completed!
gepostet von Urs Bucher am 09.01.2008 um 16:36

News nicht von heute, sondern von gestern, aber noch länger relevant: Microsoft und Fast geben bekannt, dass Microsoft den Suchspezialisten Fast Search [dort könnte man sich vielleicht schon mal angewöhnen, etwas mehr im Bereich externe Kommunikation zu machen, die Akquisition durch Microsoft ist gut versteckt bloss auf der „Stock Exchange Announcements“ Seite erwähnt] kauft.

Die Details, direkt ab Quelle, resp. von der Käuferseite liegen hier.

Was heisst das nun? Der Produke Line Up im Enterprise Search Bereich bei Microsoft ist somit komplett. Lokal auf dem PC die Desktop Suche, für „normale / Standard“-Suchbedürfnisse der Search Server 2008 in 2 Varianten: einmal als Freebie zum ausprobieren und/oder für wirklich kleinere Einsätze und einmal fully blown als „normale/bezahlte“ Software, und, wie wir seit gestern wissen für High-End Einsätze die Fast Produktelinie. Die sich schon Einiges an Reputation und Markt erworben hat. Das sage nicht ich, sondern die üblichen Auguren, Gartner und Forrester.

Das Ganze natürlich mit etwas Verzögerung: Search Server Release geplant im 1. Quartal 2008, Integration der Fast-Produkte im Lauf des Jahres [meine Schätzung], kann man davon ausgehen, dass der Enterprise Search Setup von Microsoft auf Ende 2008 richtig komplett sein wird. Womit sich das Bild im Enterprise Search Game wieder massiv verändert hat.

Ich bin gespannt auf die Reaktion aus Mountain View.

Lustige Begebenheit am Rande der Bekanntgabe der Fast-Akquisition: Microsoft Exec Jeff Raikes war sonntags etwas schusslig unterwegs: Er verschickte am Sonntag einen Media Alert an die geneigte Presse, in dem er „wichtige Neuigkeiten“ für Montagmorgen ankündigte; und zog den Alert schnell wieder zurück [aber nicht schnell genug, um ihn den Journalisten wirklich vorzuenthalten]. Was natürlich die Neugier massiv vergrösserte und die schreibende [US-]Zunft zu Spekulationen [„Geht Raikes?“] motivierte. Alles Nonsens, die Ankündigung am Montag war dann eben die Akquisition von Fast. Nachzulesen, nachzuvollziehen hier.

1 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
28
Nov
Microsoft und Google auf die Bühe: Enterprise Search im Vergleich
gepostet von Jürg Stuker am 28.11.2007 um 12:31

In bisschen mehr als einer Stunde ist es soweit. Im Rahmen der namics Fachtagung Enterprise Search-Systeme im Vergleich zeigen zwei technische Vertreter von Google (Joachim Glaubrecht) und von Microsoft (René Knöfel) Ihre Suchsysteme für den Firmeneinsatz live, ohne Powerpoint und ohne doppelten Boden.

Idee ist es, die Produkte nebeneinander zu erleben und diese echt anzufassen und nicht Prospekte lesen zu müssen, die alles versprechend und dann... Einleitung macht Markus Tressl von namics mit einem Überblick über die typischen Herausforderungen der und Tipps für die Unternehmenssuche. Den Abschluss macht Marco Hassler von namics mit der Vorstellung des Evaluationsmethodik von namics mit dem Ziel das geeignetstes Suchsystem für einen konkreten Einsatz zu finden.

Und hier schon mal die Präsentationen (wobei es den spannendste Teil nur live zu erleben gibt):
> Einführung Unternehmensweite Suche [pdf, 1,6MB]
> Die Fragen an die Hersteller Microsoft nd Google [pdf, 520KB]
> Einführung einer unternehmensweiten Suche [pdf, 1,3MB]

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
19
Nov
Wer ist oben (am Beispiel des Rankings von Yahoo)?
gepostet von Jürg Stuker am 19.11.2007 um 20:43

Die Position der Treffer in der organischen Rangliste einer Suchmaschine ist nicht nur ein sehr schwieriges Problem (und nur in Näherung zu lösen), aber auch ein sehr emotionales Thema von Wissenden und Halbwissenden (häufig emotional) "diskutiert".

Oder noch einfacher die Frage: Welche Einfluss hat mein Google Page Rank (genau) auf meine Ranglistenposition. Die Antwort wird zur Zeit, da Google grad wieder mal als Blogposts getarnte Werbung bestraft, besonders emotional diskutiert. Die Antwort heisst meist: Es werden über hundert Faktoren berücksichtigt...

Erstaunlich offen war Dr. Jan Pedersen (Chief Scientist for the Search and Marketplace Division of Yahoo!) an einem Vortrag an der Uni Berkeley. Dort erklärte er 14 nach Wichtigkeit rangierte Faktoren zur Berechnung des Rangs in der Trefferliste bei Yahoo inkl. eine Entscheidungsbaum mit einigen Gewichtungsfaktoren (ermittelt über maschinelles Lernen). PageRank (bei Yahoo heisst das Analog Eigenrank) ist dabei "nur" an Stelle 7.

Die Faktoren (nach Wichtigkeit):

> A0 - A4: anchor text score per term. In wie vielen eingehenden Links (Anker) findet sich der Suchterm resp. die Suchterme 1-4.
> W0 - W4: term weights. Wie häufig/selten ist der Suchterm in der gesamten Kollektion.
> L0 - L4: first occurrence location (encodes hostname and title match). Wie weit oben ist der Suchterm im Dokument inkl. Domänenname/URL und HTML Seitentitel.
> SP: spam index: logistic regression of 85 spam filter variables (against relevance scores). Wie wahrscheinlich ist es, dass es sich beim Dokument um Spam handelt?
> F0 - F4: term occurrence frequency within document. Termhäufigkeit im Dokument.
> DCLN: document length (tokens). Anzahl ausgewertete Suchterme (Tokens) im Dokument.
> ER: Eigenrank. Popularitätsindex, berechnet über externe Verlinkung (PageRank-Analog).
> HB: Extra-host unique inlink count. Anzahl unterschiedliche Hosts mit Inlinks.
> ERHB: ER*HB
> A0W0 etc.: A0*W0
> QA: Site factor – logistic regression of 5 site link and url count ratios
> SPN: Proximity. Qualität der Nachbarschaft des Dokumentes bzgl. verlinkender Sites.
> FF: family friendly rating. Yahoo Rating bezgl. Familientauglichkeit des Dokumentes.
> UD: url depth. Klickpfadlänge der kürzestens Pfades ab Home innerhalb der Site.

Und hier noch der Entscheidungsbaum:

yahoo-ranking-entscheidungsbaum.png

In kurz: Qualität des Inhaltes (Terme), Platzierung im Dokument die sog. Auffälligkeit und die Qualität der Verlinkung sind massiv wichtig. Oder in kurz: Guter Inhalt wird gut gewichtet.

Danke Jan Pedersen für diesen Einblick!

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
08
Nov
Bei der Enterprise Suche wurde es grad spannend
gepostet von Jürg Stuker am 08.11.2007 um 14:48

Microsoft hat immer davon gesprochen, jetzt haben sie wirklich was Gutes auf den Tisch gelegt. Hut ab: Microsoft Search Server 2008.

Ein als eigenes Produkt verpacktes Enterprise Search Produkt, welches technisch auf Sharepoint (WSS und .Net) basiert, sich aber standalone installieren lässt. Bevor ich nun 1'000 Sachen erzähle ein paar die ich ziemlich cool finde:

- Das leistungsfähige Basisprodukt ist gratis ("hard to compete")
- Alle drei Varianten des Produktes haben KEIN Dokumentenlimit
- Externe Suchsysteme lassen sich über das OpenSearch API von A9 einbinden
- plus all die netten Konverter von Microsoft
- Später (Anfang Jahr) Kommen dann noch Konnektoren dazu

So auf den ersten Blick sieht bereits die Gratisversion sehr gut aus und MS behautet das Ding sein (auf einer Windows-Kiste) in 30 Minuten "up and running".

Screenshot aus der Demo von Microsfot Search Server Express 2008

Ich auf jeden Fall installiere das Ding ziemlich plötzlich!

2 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
06
Nov
Enterprise Search: Microsoft versus Google [Umfrage]
gepostet von Jürg Stuker am 06.11.2007 um 18:48

Am Mittwoch, 28. November 2007 zwischen 14 - 17.30 Uhr organisieren wir einen 1:1 Vergleich der Suchtechnologie für Firmen von Microsoft (die heute S2 offiziell angekündigt haben) und Google. Dafür könnten wir von beiden Firmen je einen Techie (No Marketing-Brup) gewinnen, der bereit ist die Lösungen live zu zeigen und so zu vergleichen.

>> Wer kommen will, kann hier hier anmelden: Google und Microsoft: Enterprise Search-Systeme im Vergleich

microsoft versus google

Ich schreiben diesen Post um Fragen zu sammeln, die beide Hersteller zeigen (besser als beantworten sollen). Also wichtige Aspekte, welche das eine oder andere Produkt für einen Unternehmenseinsatz differenzieren.

Also bitte los mit den Fragen... ich habe 6 Slots zur Verfügung.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
30
Okt
Ist die neue Suchfunktion besser als die alte?
gepostet von Jürg Stuker am 30.10.2007 um 20:35

Es gibt verschiedene Search Analytics Kennzahlen, von denen ich schon über einige berichtet habe. Interessant ist das Beispiel von Jan Pedersen von Yahoo, welches er im Rahmen der Vorlesung "Search Engines: Technology, Society, and Business" organisiert von Marti Hearst an der UC Berkeley gezeigt hat.

Yahoo nimmt die Suchsessions, bei denen mindestens ein Link auf der Trefferliste geklickt wird. IN der Menge rechnen sie den durchschnittlichen Rang (1 zuoberst, 12 der zweite Treffer auf der zweiten Suchtrefferseite) des zuletzt des letzten in der Session geklickte Resultates der Trefferliste. Je kleiner die Zahl, desto besser die Rangierung. Und so sah die Graphik nach einem grossen grossen Update (um 04-07) aus. In der Erklärung spricht Pedersen [Podcast, mp3] jedoch von inversem Rang (1/Rang), doch das würde weder die absolute Zahl noch das negative Vorzeichen erklären...

Graphik des inversen Trefferranges des letzten Klicks auf Yahoo über Zeit

Bei mit im Post zu der Rangliste war das die Kennzahl Nummer 3... nur leider hat mir die schöne, öffentliche Graphik gefehlt. Danke Jan! Da der Titel des Charts Metric 11 heisst, hätte ich die restlichen auch noch gerne ;-)

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
10
Okt
Die Google Enterprise Suche GSA wird sozial
gepostet von am 10.10.2007 um 08:57

goog-ent-appliance.jpg

Google stellt in den nächsten Tagen ein Update für seine Enterprise Search Lösung zur Verfügung, welche mit spannenden Neuerungen aufwarten wird. Zum ersten Mal wird die GSA dann 'offen' sein, so dass suchende Benutzer selbst in Funktionalitäten eingreifen können.

Für die heute schon vorhandenen KeyMatch Ergebnisse (bei google.com bekannt als Sponsored Links) steht neu ein Pflege- bzw. Update-Interface zur Verfügung, über welches neu die Benutzer ihre eigenen KeyMatches für sich und die Kollegen pflegen können.

Damit dies im schlimmsten Fall nicht ausufert, kann durch den GSA Administrator diese Funktionalität beschränkt oder sogar ganz abgestellt werden.

goog-ent-keymatch.jpg

Weiter wird der Release 5 der GSA Software Konnektoren für einige Enterprise Content Management Systeme mitbringen, bereits bekannt sind Konnektoren für Microsoft Sharepoint und Documentum. Mit Hilfe von Konnektoren ist man nicht auf die Crawling-Fähigkeit der Datenquelle angewiesen, vielmehr wird mittels 'Hook' bei Änderungen an CMS Inhalten der Inhalt direkt via XML-API an die Search Appliance geschickt und so eine ad-hoc Indizierung ermöglicht.

goog-ent-search-as-type.jpg

Rein visuell das attraktivste neue Feature wird eine Google Suggest ähnliche Funktion für die Search-Box der GSA sein. Dabei wird mit type-ahead Technologie schon während der Eingabe ein Preview auf das Suchergebnis geliefert. Eine Best Practice kann man bereits heute schon bei der apple.com Suche sehen.

Je nachdem wieviel Aufwand man in die Implementierung einer solchen Lösung steckt, ist die Google Enterprise Suche nicht nur eine Volltextsuche, sondern kann vielmehr zu einer unternehmensweiten Universal Search ausgebaut werden in welcher nicht nur Text-Links die SERP beherrschen, sondern beispielsweise auch Bilder oder Videos angezeigt werden, wie heute schon bei manchen Suchen auf google.com sichtbar ist.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
24
Sep
Eine gute Suche als kritischer Erfolgsfaktor [Vortrag]
gepostet von Jürg Stuker am 24.09.2007 um 12:58

Morgen an den X.DAYS in Interlaken spreche ich zum Thema: Eine gute Suche als kritischer Erfolgsfaktor.

Im Kern geht es (so wie in meinen Artikel in der aktuellen Handelszeitung bereits ausgeführt, leider hinter einer "Paywall" und somit nicht verlinkbar -- an den Verlag: Das wäre genau das Wichtige im Internet und bitte keine PopUps ;-) darum, dass es bei der Suche (Suchfunktion, Volltextsuche) nicht wirklich um Technik geht, aber um die gute Konzeption der Useranforderungen und einen exzellenten Betrieb mit dauernden Verbesserungen.

Zudem ist eine Internetsuche von einer Intranetsuche grundsätzlich zu unterscheiden. Das Argument "So wie google" zählt also nicht. Die wichtigen Unterschiede zwischen Internet (public search) und Intranet sind: Linkstruktur / Verlinkung, Berechtigungssteuerung / Sicherheitsanforderungen, Präzisionsbedarf (jede[r] will gefunden werden), zahlreiche Anwendungen und Desktop Daten. Zudem illustriert der Vortrag die wichtigsten Herausforderungen jeder Suche (wie die Subjektivität der Relevanz) und einige Lösungsmöglichkeiten.

Wichtige Quellen im Vortrag sind
- die Übersicht zu Search Analytics
- die Schweizer Studie zur Evaluation der Suchfunktion von Schweizer Unternehmens-Websites
- Gary Marchionini: From Finding to Understanding [pdf, 1,4MB]
- MOSS Faceted Search WebPart auf Codeplex
- unser Whitepaper zur Evaluation von Suchtechnolgie

Und wie immer gibt es die Präsentation hier auf dem Weblog früher, so wissen auch alle, ob sich das Kommen wohl lohnt.

>> Download: Eine gute Suche als kritischer Erfolgsfaktor [pdf, 5,7MB]

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
10
Sep
Search Analytics - Übersicht
gepostet von Jürg Stuker am 10.09.2007 um 11:07
Das wichtigste bei einer Suche ist die Überwachung des Betriebs und die dauernde Optimierung. Der Prozess dazu heisst Search Analytics. Dieser Post ist eine Zusammenfassung bereits publizierter Artikel und dient der Verlinkung.

- Kennzahlen um die Query (Teil 1)
- Kennzahlen um die Trefferliste (Teil 2)
- Kennzahlen um den Index (Teil 3)

Mehr Informationen zum Thema Analyse im Internet findet sich im Archiv: Web Analytics sowie zum Thema Informationssuche im Archiv: Information Retrieval. Angebote dazu finden sich auf auf der Homepage von namics zur Web Analytics und zu Information Retrieval.


PS: Ich schreibe grad meinen Vortrag "Eine gute Suche als kritischer Erfolgsfaktor" am 25. September an den xdays in Interlaken und möchte die drei oben genannten Post verlinken.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
24
Jul
Und die Diskussion beginnt (Autonomy vs Google)
gepostet von Jürg Stuker am 24.07.2007 um 17:49

Auf dem Google Blog schreibt Matthew Glotzbach (Product Management Director, Google Enterprise) über ein Whitepaper von Autonomy, welches von Google handelt. Titel: Don't believe everything you read.

Darin wiederlegt er Falschaussagen die Autonomy über die Google Search Appliance macht. Und Glotzbach hat recht... Wir haben die Technologie bei Kunden schon sehr oft eingesetzt und im besten Fall bezieht sich das Paper von Autonomy auf die erste Version der Google Mini. Die ist aber schon fast 1,5 Jahre aus dem Dienst.

Interessant ist der Ansatz von Google die Diskussion öffentlich zu machen. Mal sehen wie es weitergeht....

PS: Leider hat der Google Weblog keine Kommentarfunktion

PPS: Noch neckisch als zertifizierter Partner von Google haben wir Zugriff auf Google Dokumente über Autonomy... ob dort wohl alles stimmt... ich muss mal nachlesen.

1 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
12
Jul
Look at the Data (not at the Shirt)
gepostet von Jürg Stuker am 12.07.2007 um 00:25

Im Rahmen des Google Developer Day sprach Peter Norvig über "Theorizing from Data".

Dabei geht es im Kern um einen alten Streit zwischen Linguisten und Statistiker, der Norvig sehr elegant zu Gunsten der Statistiker entscheidet: "If you don't have the data, you don't do progress".

Nach einer Einführung, weshalb der bei Google arbeitet ("because that's where the data is"), zitiert er ein Paper von Banko und Brill, in welchem sie empirisch zeigen, dass der beim einem Trainigsset von 1 Mio. Dokumenten der schlechteste Algorithmus zur Disambiguierung von Worten den besten (immer bei 1 Mio.) schlägt, sobald dieser mit 10 Mio. trainiert ist. Der Einfluss der Daten ist also wichtiger als der Unterschied der Berechnung.

Nun beginnt er mit Beispielen, welche auf einem englischen Korpus von Google basieren den sie aus dem Web Crawl für das LDC erstellt haben. Darin finden sich 95 Mio. Sätze mit 13 Mio. unterschiedlichen Worten (inkl. Zahlen, Eigennamen und Tippfehlern). Damit macht Google beispielsweise Query Refinment. Hier beim Term "flicker" (mit e) und einiges mehr.

Trefferliste von Google mit einen Teil der den Queryterm von flicker zu flickr anpasst

Norvig beginnt nun in seinem Trainingsset mit "unsupervised machine reading" Konzepte zu clustern (z.B. company, industry, business). Dann sucht der nach Relationen (z.B. {Konzept} complained to {Konzept} about) und schlussendlich abgeleitete Muster X complained to Y about Z == x filed a complained about Z with/to Y == a complaint to X about Z u.s.w. Wohlgemerkt ohne linguistisches Wissen aber nur über Statistik. Und immer wieder Seitenhiebe gegen die Lingusten mit empirischen Erkenntnissen die halt einfach richtig sind ;-) So beispielsweise führt er Stemming ad absurdum, indem er zeigt, dass eine Konkatenierung nach 4 Zeichen ein bessere Resultat bringt (dabei wollten sie nur Platz sparen ;-)

Und kaum dreht man sich um, zeigt Norvig statistische Übersetzungen die, zumindest in der ausgewählten Beispielen, sehr gute Resultate bringen. Dies Dank der schieren Menge an Trainingsdaten. Für alle, die ein bisschen Spass an Statistik (und oder Liguistik) haben ein brillianter Vortrag. Und hier noch ein Bild wegen der Bemerkung wegen dem Hemd.

Bild von Peter Norvig während dem Vortrag mit einem unglaublich blumigen Hemd

PS: Für Leute die sich schon immer fragten, wie ich YouTube Video runterladen kann. Hier ein Dienst und ein benötigter FLV-Player.

1 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
11
Jul
Fremde E-Mails lesen
gepostet von Jürg Stuker am 11.07.2007 um 00:06

Natürlich aus rein wissenschaftlichem Interesse. Im Rahmen der Enron Untersuchung in den USA wurden von der Federal Energy Regulatory Commission 619'446 E-Mail Nachrichten von 158 Usern (meist Kadermitarbeiter) öffentlich publiziert. Diesen Korpus gibt es bei der Carnegie Mellon Universität zum Download und ist ein guter Grund, seine privaten E-Mails nicht übers Geschäft zu "pflegen"... oder suchen sie mal nach "marry me" drin ;-)

Spannend sind die verfügbaren Auswertungen darauf so auch unterschiedliche statistische Klassifizierung oder gleich eine interaktive Navigation.

Screenshot des Viewers von Jeffry Heer

Sehr nett natürlich die Möglichkeit die Daten selbst als Testdatenset (z. B. auch für DBMS-Test) zu nutzen (ohne "wissenschaftliche" Papers generieren zu müssen).

Danke an Martin für den spannenden Tipp.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
05
Jul
Praxisstudie: Evaluation der Suchfunktion deutscher Unternehmens-Websites
gepostet von Jürg Stuker am 05.07.2007 um 13:00

Wie ist die Suche von öffentlichen Websites? Diese Frage haben wir und bereits so oft gestellt, dass wir zusammen mit Partnern eine Methodik zur Evaluation und damit zum Vergleich von Suchfunktionen entwickelt haben. Erstmals angewendet wurde diese bei einer Erhebung von 54 Websites in der Schweiz vor rund einem halben Jahr.

Heute präsentieren wir (Universität Hildesheim, Zürcher Hochschule Winterthur, Europsider und namics) eine Erhebung von Unternehmens Websites in Deutschland.

Ziel der Studie ist es die vom Nutzer wahrgenommene Qualität einer Website-Suche zu erfassen und nicht die unterliegenden technischen Parameter oder Systeme. Die Zusammenfassung der Ergebnisse der durchgeführten Einzeltests ermöglicht eine qualitative Beurteilung des Gesamtfeldes und damit auch Aussagen über die Positionierung von Ergebnissen relativ zum Gesamtfeld. Daraus kann abgeleitet werden, in welchen Bereichen akuter Handlungsbedarf besteht und wie gross das Potential für Verbesserungen ist. Zudem dokumentieren die 74 Testkriterien (und deren Testverfahren) wie eine gute Suche heute funktionieren muss.

Hier der Präsentationen (ein ausführlicher Text wird später noch publiziert):

> Einführung: Evaluierung von Information Retrieval Systemen. Prof. Dr. Christa Womser-Hacker, Universität Hildesheim [pdf, 470KB]

> Einfürhung. Dr. Martin Braschler, Zürcher Hochschule Winterthur [pdf, 470KB]

> Hauptkriterien: Anfragen und Dokumente vergleichen und Suchergebnisse. Dr. Peter Schäuble, Eurospider [pdf, 570KB]

> Hauptkriterien: Suchindex und Bernutzerinteraktion. Jürg Stuker, namics [pdf, 3.4MB]

> Zusammenfassung der Ergebnisse. PD Dr. Thomas Mandl, Universiät Hildesheim [pdf, 440KB]

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
20
Jun
Search Analytics - Kennzahlen um den Index (Teil 3)
gepostet von Jürg Stuker am 20.06.2007 um 10:10

Letzter Teil einer Serie über Kennzahlen der Suche. Ziel ist es, die Qualität der (Volltext)suche zu messen und somit faktenbasiert zu verbessern. Also keine emotionalen Diskussionen darüber, wie die Trefferliste rangiert (...das ist sowieso subjektiv...), aber eine Messung. Die Serie ist Teil der Der online Erfolgsmessung: Web Analytics und unserer Arbeiten zur Informationssuche allgemein: Information Retrieval. Die zwei Posts bis jetzt:

> Kennzahlen um die Trefferliste
> Kennzahlen um die Query

Und nun der Index. Der Index ist die (technische) Datenstruktur, welche die auffindbaren Elemente enthält. Wichtige Aspekte sind dessen Vollständigkeit (sind alle gewünschten Elemente darin verfügbar?), die Aktualität (ist der Index synchron mit den originären Datenquellen?) und dessen Mächtigkeit (welche Funktionen bietet der Index an wie beispielsweise die Suche nach Phrasen oder die Evaluation von Wortabständen?). Aber bei der Suchanalyse bitte nur das messen, was wirklich auch angepackt d.h. verändert wird. Daher schlage ich nur eine Kennzahlen vor:

1) Anzahl suchbare Elemente.

zu 1) Sie wissen wie viele Seiten ihr Angebot hat. Stimmt diese Zahl mit dem Suchindex überein? Einfach, aber einige Fragen gilt es zu klären so wie: Gibt es unterschiedliche Ansichten des selben Inhaltes beispielsweise eine Druckansicht jeder Seite? In die Suche gehört nur eine der Repräsentationen (da es sich bei der anderen faktisch um ein Duplikat handelt). Oder: Wie werden Seiten gehandhabt, welche mehrere binäre Dokumente "drauf haben" (insb. PDF)? Normalerweise gibt es pro PDF einen Indexeintrag (konvertiert nach HTML , mit einer eigenen URL) und zudem noch einen Eintrag für die Verteilerseite selbst, da dort hoffentlich auch ein paar nützliche Informationen untergebracht sind.

Wenn die Kennzahl plötzlich sinkt? Es mag einen echten Grund geben, so beispielsweise wurden Seiten der Präsenz deaktiviert und gehören somit raus aus dem Index. Häufiger sind aber Berechtigungsprobleme weil plötzlich etwas in der Konfiguration geändert wurde oder andere technische Probleme wie die Erreichbarkeit einer der Quellen o.ä. Oder auch sehr beliebt Template-/HTML-Änderungen nach denen der Crawler die Links nicht mehr erkennt (JavaScript und Flash lässt grüssen).

Wenn die Kennzahl plötzlich steigt? Klar: Sie haben neue Inhalte publiziert ;-) Auch beliebt sind sogenannte "Crawler-Traps" d.h. der Crawler indexiert denselben Inhalt mehrfach oder gar endlos. Grund sind meist technische Änderungen insb. an der ULR (z.B. Session IDs) oder an der Serverkonfiguration.

Somit wünsche ich Ihnen alle Verbesserungen bei Ihrer Suche. Es lohnt sich die Zahlen anzukucken!

2 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
14
Jun
Worttrennung und Editierabstand = Unterhaltung
gepostet von Jürg Stuker am 14.06.2007 um 10:46

Wissenschaftlich fundiert und auch einfach erklärt, doch deutlich spannender ist der Unterhaltungswert. Rechtschreibeprüfungen nutzen unter anderem die Worttrennung (Decompounding) und der Editierabstand (Levenstein distance) um ähnliche Schreibweisen als Korrekturvorschläge zu machen.

Im folgenden Beispiel (Microsoft Word 2003 mit Schweizer(deutsches) Wörterbuch hält der Algorithmus alles vor und nach dem Bindestrich fest und "spielt" mit dem Wort Meta, welches das Wörterbuch offensichtlich nicht kennt. Und was kommt das raus?

Bilder der genannten Korrekturvorschläge des Wortes HTML-Meta-Tags bei Microsfot Word

HTML-Mega-Tags: Muss was grössere sein?
HTML-Beta-Tags: Davon gibt es im Web 2.0 viele!!
HTML-Mett-Tags: Kenn ich nicht, kenne nur Mettwurst
HTML-Eta-Tags: Hmm sind das die aus dem Baskenland oder auch Grenchen?

Danke Reto für Hinweis und den Kommentar.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
25
Mai
Search Analytics - Kennzahlen um die Trefferliste (Teil 2)
gepostet von Jürg Stuker am 25.05.2007 um 11:51

Nach einem ersten Teil "Search Analytics - Kennzahlen um die Query", hier der zweite Streich. Ziel ist es weiterhin die Effektivität der Suche ("Suchmaschine") faktenbasiert zu verbessern. Also nicht ein Zaub(d)erer, der mit viel warmer Luft erklärt was zu tun ist, niemand ihm folgen kann und nach der Änderung immer noch alle unglücklich sind aber: Zahlen. Das ganze ist ein Teil von Web Analytics: Der Erfolgsmessung im Internet. Erlauben Sie zuerst die folgende Erklärung.

Graphik mit vier Ellipsen die je einen Zustand zeigen und Pfeile, welche Zustandsübergänge visualisieren. Die Erklärung dazu im Text.

Die Ellipsen zeigen typische Zustände ("Seiten") einer Suchanwendung. Das Suchfeld (mit sehr wenigen Optionen beispielsweise auf jeder Seite rechts oben), die erweitere Suchmaske (mit allen Optionen), die Trefferliste (gerne auch mit SERP = Search Engine Result Page abgekürzt) und das Zieldokument (das in der Trefferliste verlinkte Ziel).

Alle Übergänge sind im Rahmen der Navigation möglich. So zum Beispiel gebe ich im Suchfeld einen Begriff ein und lande (nach dem Klick auf dem "Suchen"-Button über Pfeil 1 auf der Trefferliste. Dort blättere ich eine Seite, da ich in den Zitaten das Gesuchte nicht zu finden meine (über Pfeil 2) und schlussendlich wähle ich einen Eintrag der zweiten Trefferliste und lande über Pfeil 3 auf dem Zieldokument. Viele andere Wege sind möglich: Von der Trefferliste zurück zum Suchfeld, vom Zieldokument zurück zur Trefferliste etc. Und nun zu den Zahlen:

1. Auswahlhäufigkeit (Selection Ration)
2. Suchabbruch (Search Abandonment)
3. durchschnittliche Ranglistenposition gelickter Treffer
4. in der Trefferliste geklickte URLs
5. aufrufende Seite

Auch hier wieder gehören die Werte wieder zyklisch ausgewertet etc.


zu 1) Die Auswahlhäufigkeit ist die Anzahl der Suchanfragen, bei denen User in der Trefferliste auf mindestens einen Treffer klicken geteilt durch die Anzahl der Suchanfragen. Führt ein User eine Suche aus und klickt auf einen Treffer der Trefferliste, so steht die (statistische) Chance gut, dass er fündig wurde. Das Verhältnis ist 1. Bei einem kleineren Verhältnis führt der User mehrere Suchanfragen aus, klickt aber weniger Treffer. Dies ist ein Hinweis, dass das Gesuchte nicht im Index ist (gar nicht auf der Trefferliste erscheint), die Rangierung schlecht ist oder das Trefferzitat eines relevanten Eintrags nicht zu einem Klick verleitet. Und ist die Auswahlhäufigkeit grösser Eins, so wählt der User zu wenig Suchanfragen sehr viele Kandidaten für einen Treffer, kommt aber immer wieder zur Suche zurück, da das gewählte Zieldokument sein Informationsbedürfnis nicht befriedigt hat.

zu 2) Der Suchabbruch ist der Fall, bei dem User nach einer Suche auf null Treffer klicken. Die Kennzahl das Verhältnis der Abbrüche zur Anzahl Suchanfragen. Um dies festzustellen, muss ein geeignetes Zeitintervall festgelegt werden, wie lange ein einzelner Suchprozess (Session) maximal dauern darf. Bspw. 5 Minuten. Eine gute Kennzahl ist möglichst tief.

zu 3) Die durchschnittliche Ranglistenpposition ist eine Aussage zur Rankingqualität aus Usersicht und erlaubt, je nachdem ob die Trefferliste immer gleich lang ist resp. die Anzahl Einträge pro Rangliste im Tracking bekannt sind, auch die Berechnung wie häufig zwischen Ranglisten geblättert wird. In der oberen Graphik ist dies der Übergang 2 und eine tiefe Kennzahl nahe bei 1 (der gelickte Treffer ist immer auf Rang 1) ist optimal.

zu 4) Die in der Rangliste geklickte URLs ist keine Kennzahl, dennoch eine wertvolle Aussage. Sozusagen eine BottomUp-Sicht darauf, welche Zielseiten regelmässig über die Suche gefunden werden. Diese Seiten sind Kandidaten für eine höher Gewichtung in der Informationsarchitektur ("ab auf die Hompage"), aber auch Kandidaten für hervorgehobene Top Treffer in der Rangliste. Achten Sie hier auf die Saisonalität der Suchanfragen.

zu 5) Auch keine Kennzahl. Die Seiten, aber welcher die Trefferliste aufgerufen wurde (der Referrer). Haben Sie beispielsweise auf jeder Seite oben rechts ein Suchfeld, so kann der Ursprung der Suchanfrage ganz unterschiedlich sein. Stellen Sie beispielsweise fest, dass regelmässig im Bereich der Pressemitteilungen gesucht wird (die per Zufall leider alle als PDF angebiten werden). Diese Erkenntnis ist auch Grundlage für Gewichtung von Inhalten und für spezialisierte Suchfunktionen.

Soweit so gut. Für Frage und Bemerkungen bin ich gerne zu haben und es folgt noch ein dritter Teil über Kennzahlen um den Suchindex.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
03
Mai
Search Analytics – Kennzahlen um die Query (Teil 1)
gepostet von Jürg Stuker am 03.05.2007 um 23:52

Die Suche („Suchmaschine“) ist nie gut genug und die Möglichkeiten der Anpassungen, Einstellungen, Optimierungen und Änderungen sind zahlreich. Doch wie stelle ich als Betreiber fest, ob die Veränderung auch eine Verbesserung war?

Genau wie bei der Usability gibt es KEINE Formel, aber schlussendlich entscheiden auch bei der Suche Menschen mit ihrem spezifischen Vorwissen, ihrem Kontext etc. mittels Test über die Qualität resp. die Effektivität. Einiges habe ich dazu im Umfeld der (subjektive) Relevanz bereits darüber geschrieben.

Hier eine weitere wichtige, quantitative Betrachtung als Serie: Search Analytics. Die Anwendung der Webanalyse auf die Suchfunktion: Zwischen Suche und User findet ein Dialog statt: Erfolgreich oder erfolglos, doch das Ganze lässt sich gut auswerten und somit auch verbessern. Wie immer bei der Analyse sind die richtigen Kennzahlen (KPIs = Key Performance Indicators) wichtig. Hier ein erstes Set: Alles um die Query

Ja, Querylänge, Anzahl Worte in der Query etc. sind spannend. Aber Hand auf’s Herz: Was machen Sie damit? User verändern... kaum. Das es sich vor allem lohnt Sachen zu interpretieren auch welche zu Aktionen führen meine erste Auswahl:


1. Queries so wie eingegeben
2. Queries normalisiert
3. Queries mit 0 Treffern in der Suche
4. Queries mit 0 Klicks in der Trefferliste


Alle Werte sollen zyklisch ausgewertet werden (z.B: pro Monat). Dies, da es deutliche Saisonunterschiede aber auch Trends und neue Informationsbedürfnisse gibt. Nützlich zur Übersicht sind Tabellenspalten nach Queryanzahl rangiert mit Trendangaben wie bei einer Hitparade Top 20 und neu, rauf, runter, alter Rang.


zu 1) Die Top-Queries sind Anhaltspunkt für zusätzliche Inhalte, Änderung der Anordnung auf der Website oder auch zusätzliche Funktionen der Suche. So beispielsweise die Erkennung von Produktnamen in der Suche und eine spezielle Präsentation in der Trefferliste bspw. mit einem Bild und einem Direktlink zur Dokumentation. Als Beispiel die Verteilung der Queries eines Intranets. Stichprobe 12'859 Queries (ohne leere Anfrage), 5066 davon unterschiedlich. Die Graphik zeigt nur 50% aller Queries, die Y-Achse ist logarithmisch und zwischen zwei X-Achsen liegen 200 Werte.

Kurvendiagram zeigt einen Longteil mit Suchbegriffen
(häufigste Query 149x pro Monat, bei Rang 200 (4% aller Queries) fällt die Häufigkeit auf 8 identische pro Monat resp. 2 pro Woche)


zu 2) Diese Liste liefert v.a. bei neu implementierten Systemen Hinweise auf technische Verbesserungen. Korrekterweise sind die folgende Queries identisch zu behandeln: Juerg, jürg, JÜRG, jUeRg oder auch Ségolène, segolene etc.

zu 3) Sehr wichtig! Es suchen mehrere Leute regelmässig nach Inhalten, welche die Site nicht anbietet, welche die Site zwar anbietet aber die Suche nicht erschliesst, oder welche die Site anbietet aber untern anderen Begriffen gefunden werden. Diese Liste ist Ausgangslage für Synonyme, Metadaten oder auch neuen Content.

zu 4) Am wichtigsten! Gibt es regelmässige Anfragen, welche (innerhalb einer Suchsession) zu keinem Klick auf der (populierten) Trefferliste führen, so lohnt es sich auf jeden Fall diesen nachzugehen... Die Verbesserungsansätze können zahlreich sein, meist ist es aber ein Problem der Ranglistenposition (Ranking) oder bei der Qualität der Trefferzitate in der Rangliste. Und hier noch eine Graphik darüber, wie viele Leute in der Rangliste klicken. Quelle ist ein Intranet (in welchem wegen der Suchaktivitäten systematisch häufig geblättert wird als bei einer Websuche). Wieder die 12'859 Queries innerhalb eines Monats.

Kuchendiagram mit Prozentwerten der Blättervorgängen
(90% aller User blättern nicht [schauen max. 10 Treffer an], 6% blättern auf die zweite Seite [20 Treffer] und noch 2% auf die dritte [30 Treffer])

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
30
Nov
Die Gesamtresultate im Überblick und unsere Empfehlungen [Präsentation]
gepostet von Jürg Stuker am 30.11.2006 um 16:40

Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". Vierter Teil, präsentiert von Martin Braschler.

Den statistischen Teil schreibe ich nicht mit, der liest sich besser in der Studie. Spannender sind sicher die Tipps und die subjektiven Rückmeldungen der Tester (ausserhalb des Tests). Zum mitnehmen: Test zeigt Luft nach oben und die Probleme sind lösbar.

Jetzt: "Soft Questions" der Tester. Zwei Formen: Gesamteindruck (Schulnoten) und Spassfaktor (machte keinen Spass / ok / machte Spass). Durchschnittsnote Gesamteindruck 4.84 -- gespentisch gleich wie die systematisch erhobenen Werte. Ein paar subjektive Feedback (mehr in der Präsentation): Der gefällt mir: "die Darstellung der Treffer ist kriminell". Spassfaktor im Schnitt 0.82 (knapp OK).

Und jetzt die Empfehlungen!

- Mehr Gewicht auf Vollständigkeit und Aktualität des Suchindex (kein passivens Crawlen). Die Suche ist nur so gut wie die Datenbasis.
- Bessere Pflege der Metadaten. Nicht (zu) viel tun aber Sachen wie korrektes Datum oder korrekter Titel.
- Orientierung an bewährten Standards für Benutzerinteraktion (Nutzer haben google gelernt ;-)
- Ausbau der Qualität des Vergleichs zwischen Anfragen und Dokumenten (Flexionen, Komposita oder Mehrsprachigkeit)
- Trefferliste nicht nur aus Dokumenten- sondern auch aus Nutzersicht aufbereiten
- Der Suchfunktion die Bedeutung geben, die sie verdient (ist das ein Tipp?)


>> Präsentation: Gesamtresultat [pdf, 89kb]

2 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
30
Nov
Hauptkriterien: Anfragen und Dokumente vergleichen sowie Suchergebnisse [Präsentation]
gepostet von Jürg Stuker am 30.11.2006 um 16:20

Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". Dritter Teil, präsentiert von Peter Schäuble.

Gleich vorab ein wichtiger Hinweis von Peter, dass die Beispiele (das galt auch für den Teil bezüglich der zwei anderen Kriterien) weder ganz gute Sites noch ganz schlechte Sites sind. Die Beispiele dienen der Illustration und sind niemals die Schlechteste oder die Beste in der Kategorie.

Die Kategorie "Anfragen und Dokumente vergleichen" umfasst die folgenden Subkriterien (hier der Graphik)
- Anfrageausführung
- Ausdrucksstärke der Abfragesprache
- Metadatenqualität

Als Beispiel wählt Peter einen Artikel im Tagi über eine Studie des BFS, die er mit einer sehr langen Anfrage (der ganze Einleitungstext) erfolgreich findet. Gegenbeispiel ist Swiss mit einer langen Anfrage bezüglich Jetlag. Interessant ist vor allem der sehr textlastige, verschachtelte Text der Suchfunktion auf den Nulltreffer (vgl. Präsentation Seite 6). Er erzählt hier die Geschichte von www.google.com, welche die Tippfehlerkorrektur früher in einem längeren Text versteckt hatte. Er seit der Kürzung erhalten sie viele Klicks darauf.

Bei der Ausdrucksstärke zwei gute Beispiele. Eines davon eine Phrasensuche bei Novarits mit einem Stoppwort drin. Dieselbe Suche muss gleich als ungenügende Beispiel herhalten nämlich bei einer Suche nach Vasella, wobei bei einem Treffer Titel und Inhalt nicht zusammenpassen. Grundsätzlich ist die Metadatenqualität bei den getesteten Seite schlecht.

Nun zum Kriterium der Suchergebnisse mit den folgenden Subkriterien (hier der Graphik)
- Navigationsanfragen: Schnell eine Subwebsite finden (Einsteigspunkt)
- Informationsanfragen: Möglichst viele relevante Aspekte zu einem Thema
- Faktenanfrage: Ein Fakutm (z.B. Telefonnummer) löst mein Problem.

Diese Aufteilung stammt von Andrei Broder, welcher diese Gruppierung aufgrund von Altavista Query Traffic etablierte.

Interessant ist, dass alle Subkriterien eine sehr grosse Streuung haben. Danach Beispiele zur Erläuterung. Zudem der Hinweis dass die Anzahl Anfragen an ein einzelne Website im Rahmen des Testes -- aufgrund des Aufwandes -- als eher klein zu beurteilen sein.

Nun bringt Peter das Beispiel der FCB-Fans in Zürich (von denen die Zürcher in seine Worten "heimgesucht" wurden). Der Vergleich hier ist Zwischen google und der Suche auch www.bs.ch. Suchbegriff ist FCB. Das Resultat ist erfrischend unterschiedlich... es könnte am Kommunikationskonzept von www.bs.ch liegen ;-)

Bei der Diskussion schon erste Tipps. Beispielsweise dass häufig nach Personennamen gesucht wird und dies gut mit einem speziellen Treffer (Personenportraits) behandelt werden kann.

Aha: In kleineren Kollektionen ist es schwieriger die richtigen Treffer zu finden als in einer grossen (sprich: horizontale Websuche). Die Quelle dazu ist Hawking und Robertson.

>> Hier die Präsentation: Hauptkriterien: Anfragen und Dokumente vergleichen und Suchergebnisse [pdf, 1.2MB]

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
30
Nov
Hauptkriterien: Benutzerinteraktionen und Suchindex [Präsentation]
gepostet von Jürg Stuker am 30.11.2006 um 15:15

Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". So, es geht los. Jürg Stuker live zu „bloggen“ ist sicher kein einfaches Unterfangen (Herr Schönholzer hat max. 180 Anschläge/Minute), aber ein Versuch ist es wert.

Jürg versucht mit der Präsentation die Studienresultate mit Beispielen zu erklären. Dies ist insbesondere für Menschen mit etwas weniger statistischem Basiswissen gedacht. Also, Studie am besten im Verbund mit der Präsentation „geniessen“.

[Suchindex]
Suchindex: Eine Anwendung (Suchapplikation) kann nur so gut sein, wie die Datenbasis (Suchindex), ganz einfach zu verstehen, wenn ein Dokument im Suchindex fehlt, kann es auch nicht gefunden werden.
Folgende Subkriterien wurden getestet:
Vollständigkeit
„Sind alle möglichen Treffer der Suchtrefferliste im Index vorhanden?“
Diese Aufgabe ist lösbar, da dies im eigenen Einflussbereich liegt.
Häufige Probleme liegen bei PDF-Dokumenten: Erschliessung und Textextraktion
Aktualität (create, delete, update)
Aufällig ist, dass regelmässig geänderte Inhalte (News) häufig nicht indexiert wurden.
Anfrage- / Dokukmenterschliessung, z.B. Tokensierung: Segmentierung von Text in linguistische Einheiten, z.B. F/A-18 (Kampfflugzeug, für die Nicht-Steuerzahler).
Obwohl diese Aufgabe nicht allzu einfach zu meistern ist, wurde Sie von einer Mehrzahl der Studienteilnehmer sehr gut erfüllt. Die Schweizer scheinen dank ihrer Mehrsprachigkeit eine gewisse Affinität zu haben, dies ist jedoch eher eine Hypothese.

[Benutzerinteraktion]

Die folgenden Subkriterien wurden unter dem Hauptkriterium „Benutzerinteraktion“ untersucht:
Was sieht der Nutzer von der Suchfunktion?
Präsentation der Trefferliste
Im Bereich der visuellen Darstellung haben die Nutzer durch die Benutzung der externen Suchdienste gewisse Darstellungsformen „erlernt“. Mit internen Suchdiensten, sollten die Nutzer nicht umerzogen werden.
Häufig werden Metadaten (Dokumentengrösse, -datum etc.) in der Trefferliste nicht angezeigt.
Trefferlisten in Pop-Up Fenstern sind nicht Nutzergerecht.
Nutzerführung
Meistens fehlt eine aktive Benutzerführung, z.B. Tipfehlerkorrekturen….meinten Sie Tippfehlerkorrekturen.
Kleiner, feiner Hinweis: Der Suchbegriff sollte im Suchfeld stehen bleiben, ansonsten weiss der Nutzer bei einer weiteren Suche, oder einer Eingrenzung, nicht mehr wonach er gesucht hatte und ob er sich gar vertippt hat.
Das Ziel wäre, den Nutzer aktiv bei seinen Bemühungen zu unterstützen.
Performance
Die Such-Performance der untersuchten Sites korreliert in einigen Fällen mit dem Abschneiden in der Studie.

So, das wars.
Die Beispiel im Powerpoint „erhellen“ die eine oder andere die Aussage der Studie ungemein, also Powerpoint anschauen:

>> Hier die Präsentation: Hauptkriterien: Suchindex und Benutzerinteraktion [pdf, 2.6MB]

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
30
Nov
Einführung in die Studie, Testanordnung und -durchführung [Präsentation]
gepostet von Jürg Stuker am 30.11.2006 um 14:40

Präsentation der Studienresultate "Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites". Erster Teil, präsentiert von Martin Braschler.

Bezüglich der Motivation bezieht sich Martin auf den, aus seiner Sicht, übernützten Begriff der "Informationsflut". Die Suche ist in diesem Kontext unabdingbar. Suche ist ein Kundendialog: Die Website als Kommunikationsinstrument. Nutzer wollen relevante Information schnell und transparent finden. Neu ist aber, dass nur ein mittelbarer Kontakt mit dem Nutzer besteht und der Dialog ohne ihre Anwesenheit stattfindet.

Wichtig bei der Studie war es entlang von Bedürfnissen zu evaluieren und NICHT eine Prüfung der Applikation ("Featurelisten").

Ausgangslage der Argumentation ist ein Blick auf Internet-Suchdienste mit einem massiven (dauernd wachsenden) Angebot an Inhalt (5 Exabytes pro Jahr gemäss Lyman & Varian). Die "eigene" Suchfunktion auf einer Unternehmenswebsite ist eine andere Datenbasis und ein anderer Anwendungsfall. Dies illustriert an der folgenden Tabelle:

ir-stude2006_tabelle-mb.gif

Nun ein ausführlicher Teil über das Retrievalproblem. Insb. der Subjektivität eines guten Treffers. Wichtige Einflussfaktoren auf den Suchprozess und die Nützlichkeit eines Treffers sind:

- Nutzer suchen auf fremden Daten
- Informationsbedürfnisse sind vage
- Interpretation variiert von Nutzer zu Nutzer
- Dieselbe Information kann unterschiedlich dargestellt werden
- Relevanz ist subjektiv (abhängig von: Vor-/Hintergrundwissen, Reihenfolge des Auffindens, wandelnde Informationsbedürfnisse, persönliche Präferenzen und Vollständigkeit der Antwort)

Danach folgen eine Erklärung der Evaluation sowie methodische Bemerkungen und eine Liste der getesteten Webseiten.

Für Liebhaber der Statistik hat es in der Präsi zudem eine Erklärung von Boxcharts...

>> Hier die Präsentation: Einleitung [pdf, 65kb]

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
30
Nov
Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites
gepostet von Jürg Stuker am 30.11.2006 um 09:54

Wie gut ist die Qualität der Suchfunktionen (Site-Search) von Unternehmens-Websites in der Schweiz und welche Einflussfaktoren sind aus Nutzersicht wichtig? Um diese Frage zu beantworten, haben wir zusammen mit den Partnern Eurospider, Hochschule für Technik und Wirtschaft (HTW) Chur und der Zürcher Hochschule Winterthur eine Evaluations-Methodik entwickelt und, in einem ersten Schritt, die Suchfunktionen von 54 Schweizer Unternehmen und Behörden einer Evaluation unterzogen.

Wichtig war uns im Rahmen des Evaluationsrasters, welches 74 Einzeltests umfasst, konsequent auf wissenschaftlich fundierte Nutzerbedürfnisse zu fokussieren und keinen „Funktionenvergleich“ zu veranstalten. Zudem wurde die Suchfunktion in ihrer Rolle als wichtiges Kommunkatonsinstrument beleuchtet. Die Haupttestkriterien sowie die statistischen Resultate zeigt die Graphik unten.

ir-studie-2006-resultate.gif

Die einzelnen Vorträge finden sich hier:
- Einführung in die Studie, Testanordnung und -durchführung
- Hauptkriterien: Benutzerinteraktionen und Suchindex
- Hauptkriterien: Anfragen und Dokumente vergleichen sowie Suchergebnisse
- Die Gesamtresultate im Überblick und unsere Empfehlungen

Und hier zur Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites [pdf, 266KB]

3 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
16
Nov
Google, Microsoft und Yahoo mit neuem Quasi-Web-Standard
gepostet von am 16.11.2006 um 15:35

Google, Microsoft und Yahoo sind gemeinsam eine Partnerschaft eingegangen und unterstützen nun alle das von Google ins Leben gerufene Sitemap Format.
Mit dem Sitemap-XML ist es möglich, den Crawlern der Suchmaschinen einen kompletten Index der eigenen Site zu übermitteln. So können beispielsweise auch URLs in den Index aufgenommen werden, welche nicht direkt per Link erreichbar sind.

Google führt dies schon seit längerem in den eigenen Webmaster Tools durch. Hier können Benutzer die eigene Sitemap zur Verfügung stellen.

Der Sitemap Format-Standard steht von allen drei beteiligten Unternehmen unter der Attribution-ShareAlike Creative Commons License offen bereit. Ausserdem wurde eine neue Website unter sitemaps.org gelaunced, welche neben der Protokoll-Spezifikation auch einen Bereich mit FAQ enthält.

Ich finde es noch erstaunlich von Google, dass sie nun Teile ihrer Technologie ihren grössten Konkurrenten zur Verfügung stellen. Es scheint doch etwas an der Aussage dran zu sein, dass es Google sich auf die Fahnen geschrieben hat das Internet überall besser machen zu wollen.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
02
Nov
Google Co-op
gepostet von Philipp Luechinger am 02.11.2006 um 15:29

Googles neuester Service Co-op. Ich habe nun die Möglichkeit meine Suche mittels einer Liste von URLs zu konfigurieren. Dies geht mit dem "Google Marker" sehr einfach und schnell.

Maximal 5000 URLs die den Suchraum definieren und ein Refinement in dem man gewisse Advanced Search Features von Google wiederverwenden kann.

Für welche Anwendungsfälle kann diese Customer Search Engine eingesetzt werden?
Ich habe eine Thematische Website und möchte dem User über den eigenen Inhalt auch noch Inhalte anderer Websites (Partnersites, etc.) in meinem Suchresultat zur Verfügung stellen. Ich binde also die costomized Google Suchbox plus das Resultat in meine Website ein. Als no-profit Unternehmung bekomme ich die Resultate von Google auch ohne Werbung.

Oder ich weiss auf welchen Websites ich welche Thematisch gleichen Informationen finde und kann nun die Seiten zusammenfassen eine Suche konfigurieren und diese auch anderen Usern zugänglich machen. zB. Kleininseratemarkt Schweiz
Es ist nun möglich, dass ich als Initiator auch andere Spezialisten dazu einlade die Suche zu verbessern, in dem ich diesen die Berechtigung gebe den Suchraum zu erweitern oder auch detaillierter zu definieren.

Rund um diese Suche kann ich jetzt auch erweitert Werbung zulassen und somit vielleicht dann auch Geld verdienen. Google auf jedenfall erhält sehr gute Informationen welche Sites thematisch zusammen gehören und welche ausgeschlossen sind. Um diese Information zu verarbeiten gibts sicher einen passenden Algorithmus.

Alles in allem ein spannende Idee.

0 Kommentar(e), 0 Trackback(s)
Kommentar abgeben / anzeigen
26
Okt
Suchfunktionen im Web [Fachtagung]
gepostet von Jürg Stuker am 26.10.2006 um 11:00

Eine gemeinsame Fachtagung welche wir zusammen mit der Firma Zeix durchführen.

In sechs Vorträgen illustrieren und erklären wir die wichtigsten Aspekte der Informationssuche im Internet und im Intranet. Information Retrieval und nicht Volltextsuche! Ein guter Überblick welcher die verschiedensten Aspekte abdeckt: Von User-Bedürfnissen, Suchstrategien, User Interfaces über technische Aspekte bis zu einer ausführlichen Betrachtung der Daten. Der Fokus dabei immer der Zusammenspiel aller Akteure und Quick Wins.

Graphische Darstellung der Akteure: User, User Interface, IR-Applikation und Daten

Hier die Slots mit den Präsentationen

1. Warum Suche nicht (immer) einfach ist: Von Motivationen, Suchstrategien und der Informationsflut [pdf, 2,4 MB].

2a. Einfach, erweitert und die anderen: So stellen Sie Ihren Usern die richtigen Fragen [pdf, 2,8 MB].

2b. Warum Technik nicht alles ist: Ein wenig zur Technologie von Suchen und Finden [pdf, 3,3 MB].

3. Die treffende Auswahl anbieten: Wie nach oben kommt, was oben steht.
a. Fokus Internet [pdf, 2,5 MB].
b. Fokus Intranet [pdf, 2 MB].

4. Der Weg zur optimalen Suche: Wie Sie Ihr Projekt «Suche» schnell zum Erfolg führen [pdf, 1,9 MB].


Danke für Feedback!

>> Da die Tagung schon ausgebucht ist, bieten wir am Dienstag, 5. Dezember eine Wiederholung. Anmeldung als Kommentar auf diesen Post...

5 Kommentar(e), 0 Trackback(s)