Search Analytics – Kennzahlen um die Query (Teil 1)

Die Suche („Suchmaschine“) ist nie gut genug und die Möglichkeiten der Anpassungen, Einstellungen, Optimierungen und Änderungen sind zahlreich. Doch wie stelle ich als Betreiber fest, ob die Veränderung auch eine Verbesserung war?

Genau wie bei der Usability gibt es KEINE Formel, aber schlussendlich entscheiden auch bei der Suche Menschen mit ihrem spezifischen Vorwissen, ihrem Kontext etc. mittels Test über die Qualität resp. die Effektivität. Einiges habe ich dazu im Umfeld der (subjektive) Relevanz bereits darüber geschrieben.

Hier eine weitere wichtige, quantitative Betrachtung als Serie: Search Analytics. Die Anwendung der Webanalyse auf die Suchfunktion: Zwischen Suche und User findet ein Dialog statt: Erfolgreich oder erfolglos, doch das Ganze lässt sich gut auswerten und somit auch verbessern. Wie immer bei der Analyse sind die richtigen Kennzahlen (KPIs = Key Performance Indicators) wichtig. Hier ein erstes Set: Alles um die Query

Ja, Querylänge, Anzahl Worte in der Query etc. sind spannend. Aber Hand auf’s Herz: Was machen Sie damit? User verändern… kaum. Das es sich vor allem lohnt Sachen zu interpretieren auch welche zu Aktionen führen meine erste Auswahl:

1. Queries so wie eingegeben
2. Queries normalisiert
3. Queries mit 0 Treffern in der Suche
4. Queries mit 0 Klicks in der Trefferliste

Alle Werte sollen zyklisch ausgewertet werden (z.B: pro Monat). Dies, da es deutliche Saisonunterschiede aber auch Trends und neue Informationsbedürfnisse gibt. Nützlich zur Übersicht sind Tabellenspalten nach Queryanzahl rangiert mit Trendangaben wie bei einer Hitparade Top 20 und neu, rauf, runter, alter Rang.

zu 1) Die Top-Queries sind Anhaltspunkt für zusätzliche Inhalte, Änderung der Anordnung auf der Website oder auch zusätzliche Funktionen der Suche. So beispielsweise die Erkennung von Produktnamen in der Suche und eine spezielle Präsentation in der Trefferliste bspw. mit einem Bild und einem Direktlink zur Dokumentation. Als Beispiel die Verteilung der Queries eines Intranets. Stichprobe 12’859 Queries (ohne leere Anfrage), 5066 davon unterschiedlich. Die Graphik zeigt nur 50% aller Queries, die Y-Achse ist logarithmisch und zwischen zwei X-Achsen liegen 200 Werte.

i-884013be85d17836b6cee1fdd6335fb4-sa-kpi-haeufigkeit-thumb.gif
(häufigste Query 149x pro Monat, bei Rang 200 (4% aller Queries) fällt die Häufigkeit auf 8 identische pro Monat resp. 2 pro Woche)

zu 2) Diese Liste liefert v.a. bei neu implementierten Systemen Hinweise auf technische Verbesserungen. Korrekterweise sind die folgende Queries identisch zu behandeln: Juerg, jürg, JÜRG, jUeRg oder auch Ségolène, segolene etc.

zu 3) Sehr wichtig! Es suchen mehrere Leute regelmässig nach Inhalten, welche die Site nicht anbietet, welche die Site zwar anbietet aber die Suche nicht erschliesst, oder welche die Site anbietet aber untern anderen Begriffen gefunden werden. Diese Liste ist Ausgangslage für Synonyme, Metadaten oder auch neuen Content.

zu 4) Am wichtigsten! Gibt es regelmässige Anfragen, welche (innerhalb einer Suchsession) zu keinem Klick auf der (populierten) Trefferliste führen, so lohnt es sich auf jeden Fall diesen nachzugehen… Die Verbesserungsansätze können zahlreich sein, meist ist es aber ein Problem der Ranglistenposition (Ranking) oder bei der Qualität der Trefferzitate in der Rangliste. Und hier noch eine Graphik darüber, wie viele Leute in der Rangliste klicken. Quelle ist ein Intranet (in welchem wegen der Suchaktivitäten systematisch häufig geblättert wird als bei einer Websuche). Wieder die 12’859 Queries innerhalb eines Monats.

i-fdbb06d06a350fedc8b5fd1fdb4cda2d-sa-kpi-blaettern.gif
(90% aller User blättern nicht [schauen max. 10 Treffer an], 6% blättern auf die zweite Seite [20 Treffer] und noch 2% auf die dritte [30 Treffer])

PS: Dieser Post ist Teil der dreiteiligen Serie Search Analytics.

Die Gesamtresultate im Überblick und unsere Empfehlungen [Präsentation]

Präsentation der Studienresultate „Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites„. Vierter Teil, präsentiert von Martin Braschler.

Den statistischen Teil schreibe ich nicht mit, der liest sich besser in der Studie. Spannender sind sicher die Tipps und die subjektiven Rückmeldungen der Tester (ausserhalb des Tests). Zum mitnehmen: Test zeigt Luft nach oben und die Probleme sind lösbar.

Jetzt: „Soft Questions“ der Tester. Zwei Formen: Gesamteindruck (Schulnoten) und Spassfaktor (machte keinen Spass / ok / machte Spass). Durchschnittsnote Gesamteindruck 4.84 — gespentisch gleich wie die systematisch erhobenen Werte. Ein paar subjektive Feedback (mehr in der Präsentation): Der gefällt mir: „die Darstellung der Treffer ist kriminell“. Spassfaktor im Schnitt 0.82 (knapp OK).

Und jetzt die Empfehlungen!

– Mehr Gewicht auf Vollständigkeit und Aktualität des Suchindex (kein passivens Crawlen). Die Suche ist nur so gut wie die Datenbasis.
– Bessere Pflege der Metadaten. Nicht (zu) viel tun aber Sachen wie korrektes Datum oder korrekter Titel.
– Orientierung an bewährten Standards für Benutzerinteraktion (Nutzer haben google gelernt ;-)
– Ausbau der Qualität des Vergleichs zwischen Anfragen und Dokumenten (Flexionen, Komposita oder Mehrsprachigkeit)
– Trefferliste nicht nur aus Dokumenten- sondern auch aus Nutzersicht aufbereiten
– Der Suchfunktion die Bedeutung geben, die sie verdient (ist das ein Tipp?)

>> Präsentation: Gesamtresultat [pdf, 89kb]

Hauptkriterien: Anfragen und Dokumente vergleichen sowie Suchergebnisse [Präsentation]

Präsentation der Studienresultate „Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites„. Dritter Teil, präsentiert von Peter Schäuble.

Gleich vorab ein wichtiger Hinweis von Peter, dass die Beispiele (das galt auch für den Teil bezüglich der zwei anderen Kriterien) weder ganz gute Sites noch ganz schlechte Sites sind. Die Beispiele dienen der Illustration und sind niemals die Schlechteste oder die Beste in der Kategorie.

Die Kategorie „Anfragen und Dokumente vergleichen“ umfasst die folgenden Subkriterien (hier der Graphik)
Anfrageausführung
Ausdrucksstärke der Abfragesprache
Metadatenqualität

Als Beispiel wählt Peter einen Artikel im Tagi über eine Studie des BFS, die er mit einer sehr langen Anfrage (der ganze Einleitungstext) erfolgreich findet. Gegenbeispiel ist Swiss mit einer langen Anfrage bezüglich Jetlag. Interessant ist vor allem der sehr textlastige, verschachtelte Text der Suchfunktion auf den Nulltreffer (vgl. Präsentation Seite 6). Er erzählt hier die Geschichte von www.google.com, welche die Tippfehlerkorrektur früher in einem längeren Text versteckt hatte. Er seit der Kürzung erhalten sie viele Klicks darauf.

Bei der Ausdrucksstärke zwei gute Beispiele. Eines davon eine Phrasensuche bei Novarits mit einem Stoppwort drin. Dieselbe Suche muss gleich als ungenügende Beispiel herhalten nämlich bei einer Suche nach Vasella, wobei bei einem Treffer Titel und Inhalt nicht zusammenpassen. Grundsätzlich ist die Metadatenqualität bei den getesteten Seite schlecht.

Nun zum Kriterium der Suchergebnisse mit den folgenden Subkriterien (hier der Graphik)
Navigationsanfragen: Schnell eine Subwebsite finden (Einsteigspunkt)
Informationsanfragen: Möglichst viele relevante Aspekte zu einem Thema
Faktenanfrage: Ein Fakutm (z.B. Telefonnummer) löst mein Problem.

Diese Aufteilung stammt von Andrei Broder, welcher diese Gruppierung aufgrund von Altavista Query Traffic etablierte.

Interessant ist, dass alle Subkriterien eine sehr grosse Streuung haben. Danach Beispiele zur Erläuterung. Zudem der Hinweis dass die Anzahl Anfragen an ein einzelne Website im Rahmen des Testes — aufgrund des Aufwandes — als eher klein zu beurteilen sein.

Nun bringt Peter das Beispiel der FCB-Fans in Zürich (von denen die Zürcher in seine Worten „heimgesucht“ wurden). Der Vergleich hier ist Zwischen google und der Suche auch www.bs.ch. Suchbegriff ist FCB. Das Resultat ist erfrischend unterschiedlich… es könnte am Kommunikationskonzept von www.bs.ch liegen ;-)

Bei der Diskussion schon erste Tipps. Beispielsweise dass häufig nach Personennamen gesucht wird und dies gut mit einem speziellen Treffer (Personenportraits) behandelt werden kann.

Aha: In kleineren Kollektionen ist es schwieriger die richtigen Treffer zu finden als in einer grossen (sprich: horizontale Websuche). Die Quelle dazu ist Hawking und Robertson.

>> Hier die Präsentation: Hauptkriterien: Anfragen und Dokumente vergleichen und Suchergebnisse [pdf, 1.2MB]

Hauptkriterien: Benutzerinteraktionen und Suchindex [Präsentation]

Präsentation der Studienresultate „Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites„. So, es geht los. Jürg Stuker live zu „bloggen“ ist sicher kein einfaches Unterfangen (Herr Schönholzer hat max. 180 Anschläge/Minute), aber ein Versuch ist es wert.

Jürg versucht mit der Präsentation die Studienresultate mit Beispielen zu erklären. Dies ist insbesondere für Menschen mit etwas weniger statistischem Basiswissen gedacht. Also, Studie am besten im Verbund mit der Präsentation „geniessen“.

[Suchindex]
Suchindex: Eine Anwendung (Suchapplikation) kann nur so gut sein, wie die Datenbasis (Suchindex), ganz einfach zu verstehen, wenn ein Dokument im Suchindex fehlt, kann es auch nicht gefunden werden.
Folgende Subkriterien wurden getestet:
Vollständigkeit
„Sind alle möglichen Treffer der Suchtrefferliste im Index vorhanden?“
Diese Aufgabe ist lösbar, da dies im eigenen Einflussbereich liegt.
Häufige Probleme liegen bei PDF-Dokumenten: Erschliessung und Textextraktion
Aktualität (create, delete, update)
Aufällig ist, dass regelmässig geänderte Inhalte (News) häufig nicht indexiert wurden.
Anfrage- / Dokukmenterschliessung, z.B. Tokensierung: Segmentierung von Text in linguistische Einheiten, z.B. F/A-18 (Kampfflugzeug, für die Nicht-Steuerzahler).
Obwohl diese Aufgabe nicht allzu einfach zu meistern ist, wurde Sie von einer Mehrzahl der Studienteilnehmer sehr gut erfüllt. Die Schweizer scheinen dank ihrer Mehrsprachigkeit eine gewisse Affinität zu haben, dies ist jedoch eher eine Hypothese.

[Benutzerinteraktion]

Die folgenden Subkriterien wurden unter dem Hauptkriterium „Benutzerinteraktion“ untersucht:
Was sieht der Nutzer von der Suchfunktion?
Präsentation der Trefferliste
Im Bereich der visuellen Darstellung haben die Nutzer durch die Benutzung der externen Suchdienste gewisse Darstellungsformen „erlernt“. Mit internen Suchdiensten, sollten die Nutzer nicht umerzogen werden.
Häufig werden Metadaten (Dokumentengrösse, -datum etc.) in der Trefferliste nicht angezeigt.
Trefferlisten in Pop-Up Fenstern sind nicht Nutzergerecht.
Nutzerführung
Meistens fehlt eine aktive Benutzerführung, z.B. Tipfehlerkorrekturen….meinten Sie Tippfehlerkorrekturen.
Kleiner, feiner Hinweis: Der Suchbegriff sollte im Suchfeld stehen bleiben, ansonsten weiss der Nutzer bei einer weiteren Suche, oder einer Eingrenzung, nicht mehr wonach er gesucht hatte und ob er sich gar vertippt hat.
Das Ziel wäre, den Nutzer aktiv bei seinen Bemühungen zu unterstützen.
Performance
Die Such-Performance der untersuchten Sites korreliert in einigen Fällen mit dem Abschneiden in der Studie.

So, das wars.
Die Beispiel im Powerpoint „erhellen“ die eine oder andere die Aussage der Studie ungemein, also Powerpoint anschauen:

>> Hier die Präsentation: Hauptkriterien: Suchindex und Benutzerinteraktion [pdf, 2.6MB]

Einführung in die Studie, Testanordnung und -durchführung [Präsentation]

Präsentation der Studienresultate „Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites„. Erster Teil, präsentiert von Martin Braschler.

Bezüglich der Motivation bezieht sich Martin auf den, aus seiner Sicht, übernützten Begriff der „Informationsflut“. Die Suche ist in diesem Kontext unabdingbar. Suche ist ein Kundendialog: Die Website als Kommunikationsinstrument. Nutzer wollen relevante Information schnell und transparent finden. Neu ist aber, dass nur ein mittelbarer Kontakt mit dem Nutzer besteht und der Dialog ohne ihre Anwesenheit stattfindet.

Wichtig bei der Studie war es entlang von Bedürfnissen zu evaluieren und NICHT eine Prüfung der Applikation („Featurelisten“).

Ausgangslage der Argumentation ist ein Blick auf Internet-Suchdienste mit einem massiven (dauernd wachsenden) Angebot an Inhalt (5 Exabytes pro Jahr gemäss Lyman & Varian). Die „eigene“ Suchfunktion auf einer Unternehmenswebsite ist eine andere Datenbasis und ein anderer Anwendungsfall. Dies illustriert an der folgenden Tabelle:

i-ec9c4eadf71dbd8fab67b21471c1ba7a-ir-stude2006_tabelle-mb.gif

Nun ein ausführlicher Teil über das Retrievalproblem. Insb. der Subjektivität eines guten Treffers. Wichtige Einflussfaktoren auf den Suchprozess und die Nützlichkeit eines Treffers sind:

– Nutzer suchen auf fremden Daten
– Informationsbedürfnisse sind vage
– Interpretation variiert von Nutzer zu Nutzer
– Dieselbe Information kann unterschiedlich dargestellt werden
– Relevanz ist subjektiv (abhängig von: Vor-/Hintergrundwissen, Reihenfolge des Auffindens, wandelnde Informationsbedürfnisse, persönliche Präferenzen und Vollständigkeit der Antwort)

Danach folgen eine Erklärung der Evaluation sowie methodische Bemerkungen und eine Liste der getesteten Webseiten.

Für Liebhaber der Statistik hat es in der Präsi zudem eine Erklärung von Boxcharts…

>> Hier die Präsentation: Einleitung [pdf, 65kb]

Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites

Wie gut ist die Qualität der Suchfunktionen (Site-Search) von Unternehmens-Websites in der Schweiz und welche Einflussfaktoren sind aus Nutzersicht wichtig? Um diese Frage zu beantworten, haben wir zusammen mit den Partnern Eurospider, Hochschule für Technik und Wirtschaft (HTW) Chur und der Zürcher Hochschule Winterthur eine Evaluations-Methodik entwickelt und, in einem ersten Schritt, die Suchfunktionen von 54 Schweizer Unternehmen und Behörden einer Evaluation unterzogen.

Wichtig war uns im Rahmen des Evaluationsrasters, welches 74 Einzeltests umfasst, konsequent auf wissenschaftlich fundierte Nutzerbedürfnisse zu fokussieren und keinen „Funktionenvergleich“ zu veranstalten. Zudem wurde die Suchfunktion in ihrer Rolle als wichtiges Kommunkatonsinstrument beleuchtet. Die Haupttestkriterien sowie die statistischen Resultate zeigt die Graphik unten.

i-8ad62dabd1c83aa54bc3d8a8c7017c88-ir-studie-2006-resultate.gif

Die einzelnen Vorträge finden sich hier:
Einführung in die Studie, Testanordnung und -durchführung
Hauptkriterien: Benutzerinteraktionen und Suchindex
Hauptkriterien: Anfragen und Dokumente vergleichen sowie Suchergebnisse
Die Gesamtresultate im Überblick und unsere Empfehlungen

Und hier zur Studie: Evaluation der Suchfunktion von Schweizer Unternehmens-Websites [pdf, 266KB]

Google Co-op

Googles neuester Service Co-op. Ich habe nun die Möglichkeit meine Suche mittels einer Liste von URLs zu konfigurieren. Dies geht mit dem „Google Marker“ sehr einfach und schnell.

Maximal 5000 URLs die den Suchraum definieren und ein Refinement in dem man gewisse Advanced Search Features von Google wiederverwenden kann.

Für welche Anwendungsfälle kann diese Customer Search Engine eingesetzt werden?
Ich habe eine Thematische Website und möchte dem User über den eigenen Inhalt auch noch Inhalte anderer Websites (Partnersites, etc.) in meinem Suchresultat zur Verfügung stellen. Ich binde also die costomized Google Suchbox plus das Resultat in meine Website ein. Als no-profit Unternehmung bekomme ich die Resultate von Google auch ohne Werbung.

Oder ich weiss auf welchen Websites ich welche Thematisch gleichen Informationen finde und kann nun die Seiten zusammenfassen eine Suche konfigurieren und diese auch anderen Usern zugänglich machen. zB. Kleininseratemarkt Schweiz
Es ist nun möglich, dass ich als Initiator auch andere Spezialisten dazu einlade die Suche zu verbessern, in dem ich diesen die Berechtigung gebe den Suchraum zu erweitern oder auch detaillierter zu definieren.

Rund um diese Suche kann ich jetzt auch erweitert Werbung zulassen und somit vielleicht dann auch Geld verdienen. Google auf jedenfall erhält sehr gute Informationen welche Sites thematisch zusammen gehören und welche ausgeschlossen sind. Um diese Information zu verarbeiten gibts sicher einen passenden Algorithmus.

Alles in allem ein spannende Idee.

Faceted Search: Nicht immer ist die Frage bekannt

Auch wenn Volltextsuchmaschinen omnipräsent sind, ist das berühmte Eingabefeld mit dem Knopf daneben nicht immer die richtige Lösung. Deshalb heisst die Disziplin auch „Information Retrieval“ und nicht „Search“. Ein sehr gutes Beispiel (es gibt einige andere Suchstrategien) ist Faceted Search als Navigationssuche gegenüber einer Direktsuche.

Grundgedanke dabei ist es, dem User eine Navigation durch mehrdimensionale Kriterien zu erlauben, welche die zu durchsuchende Kollektion beschrieben. Eine Erweiterung der klassischen Parameter-Denke, wo ich mit Drop-Down-Felder zu Beginn einschränken muss. Während der Navigation reduziert sich die Treffermenge und kann mit einer — dann präziseren, weil eingeschränkten — Volltextsuche verbunden werden. Technische sind viele Aspekte interessant insb. aber die Möglichkeiten der Metadatenerzeugung / Verschlagwortung. Häufig durch Social Tagging oder statistische resp. sprachverarbeitende Algorithmen.

Am besten ein Beispiel (mit dem FLAMENCO-System [FLexible information Access using MEtadata in Novel COmbinations] der UC Berkeley School of Information). Zwar mit wenig Daten, aber sehr gut verständlich, die Suche der Nobelpreisgewinner. Der Screen unten zeigt mein Treffer nach einer Einschränkung Jahr -> Kategorie -> Land (andere Wege sind möglich).

i-26ab7391b6a1250dca56761dedb34a4a-flamenco_nobel-thumb.gif

Spiele Sie rum, die Logik und auch der Charme der Erkundung lässt sich schnell erkennen. Marchionini erklärte einen solchen Ansatz mal sehr passend mit dem Titel: „Form Finding to Understanding“. Eine Beispiel mit mehr Daten ist eine Bildsammlung der UC Berkeley im Architekturbereich.

Ein alternatives Userinterface mit viel JavaScript (aka Ajax) findet sich auf mSpace mit klassischer Musik.

i-69435e7a2b1aa7a6a2ebc84189f538ee-mspace-browser-thumb.gif.

Interessant und nutzbringend ist Faceted Search insb. auch bei Produktkatalogen so beispielsweise bei Tower Record (links aussen) oder auch bei www.otto.de. Dasselbe Prinzip nutzt auch die Metasuche Clusty und viele andere Anwendungen…

Mehr Gehirnnahrung? Bei Flamenco resp. Marti Hearst gibt es einige Publikationen. Zudem befasst sich die ganze Ausgabe Communications of the ACM, 49 (4), April 2006 damit (ich habe alle Artikel bei mir).

Wie mache ich Text zu Information?

Die Jungs und Mädels sind schlau und sie haben auch extrem viel Daten um statische valide Aussagen machen zu können.

Google macht (machte?) einfachen Textvergleich. Mein Suchbegriff wird 1:1 mit den Inhalten der Seiten auf der Trefferlisten verglichen. So kommen also Informationswissenschafter und kritisieren (berechtigt) die Grenzen dieses simplen Vorgehens (welches Google in Perfektion beherrscht). Nachdem ich heute über Google Music Trends (s.unten) gelesen habe, fallen mir ein paar Sachen dazu ein.

Ziel beim Finden ist es das aktuelle (subjektive) Informationsbedürfnis des Suchenden rauszufinden. Dazu gibt es verschiedenen Wege einer ist: Nachfragen. Ein einfaches Beispiel. Ich suche auf Wikipedia nach Läufer und treffe auf die folgenden Seite.

i-3b03a70701741e07362f1539d7e09971-wikipedia_laeufer-thumb.gif

Durch einen weiteren Klick weiss Wikipedia wonach ich suche. So was heisst Disambiguierung oder Suchassistenz. Und was hat das mit Google zu tun?

Suchen Sie auf www.google.ch nach „zürich bern“

i-5ea3607f86b143377b1ee61d76e9183a-google_zurich-bern-thumb.gif

Bei google.com gibt es zahlreiche sogenannte One Box Module (nicht alle dokumentiert). Beispielsweise:
Suche nach „goog“ (Börsenkurs über Symbol)
„flight zrh nyc“ (Flugplan pber Keyword)
„weather boston“ (Wetterprognose über Keyword)
„9101150134711320079261“ (UPS Tracking über Checksumme)
„movies 94040″ (Kinoprogramm in der PLZ 9404 über Keyword)
„movie: superman“ (Filminformationen über Keyword)

U.s.w. hier ein paar mehr bei Google, Bei Yahoo heisst diese Funktion Shortcuts und kann auch von der Community mitgestaltet werden: Yahoo Open Shortcuts.

Die letzen Beispiele lassen klar erkennen wie diese entstanden sind. So auch der Läufer bei Wikipedia, aber Google will alles algorithmisch lösen? Ein Beispiel (und somit bin ich beim Thema): Google Music Trends. Hier weiss Google nicht nur wer (statistisch gesehen) welche Musik wie häufig hört aber auch, dass gewisse Texte Titel von Musikstücken sind, zu welchem Album sie gehören und welchem Stil diese zugeordnet werden können.

i-9342cbd7fc89cc584f6b07266561fe01-google_music-trends-thumb.gif

Wie geht das? Ein Blick in die Hilfe und dort steht:

How do I participate in Music Trends?
The first step is to download and install Google Talk, if you haven’t done so already. You can then opt in to Music Trends from Google Talk’s Settings menu (learn more). After that, anytime you share your music status using iTunes ® , Winamp, Windows Media ® Player, or Yahoo Music Engine ™ , you’ll be voting on Google Music Trends.

Hier sieht man das mächtige Zusammenspiel. Ich machen einen Chat-Client und denke aber von Anfang an dran, welche Daten ich sammeln kann, damit ich für meine Kernanwendung Statistik-Daten habe. Ziemlich gut (aber auch eine bedrohliche Perspektive auch Datenschutzsicht).

Die Wahrheit hinter PageRank

Er wurde von Larry Page erfunden… 2002 war die Lösung am 1. April sehr nah (PigeonRank)… es heisst die Formel für ihn besteht aus über 100 Variablen… und doch könnte es so einfach sein…:

function getPagerank(url)
{

// start off with a random low PR

pagerank = randomNumber(0, 3);

if ( pageHostedOn(url, ‚google.com‘) ) {
pagerank++;
}
else if ( pageHostedOn(url, ‚microsoft.com‘) ) {
pagerank–;
}

if ( pageValidates(url) ) {
pagerank *= .5;
}

tag_value[‚b‘] = 1;
tag_value[‚h2′] = 2;
tag_value[‚h1′] = 3;
tag_value[‚strong‘] = -1; // W3C sux!
pagerank = calculateTagsPr(tag_value, pagerank);

// Sergey said good news sites have
// lots of nested tables
tablesOnPage = getTagCount(‚table‘);
if (tablesOnPage >= 50) {
pagerank += 2;
}

if (pagerank >= 5) {
pagerank = 4; // helps selling AdWords
}

if ( linksFrom(‚mattcutts.com‘, url) >= 4 ) {
// I link to „clean“ sites only
// – Matt, Feb 2006
pagerank += 2;
}

pagerank += countBacklinks(url) / 10000;

blacklist1 = getList(‚government.cn/censored.txt‘);
blacklist2 = getList(‚c:\larry-page-hatelist.txt‘);
if ( inArray(blacklist1, url) ||
inArray(blacklist2, url) ) {
pagerank = 0;
}

d = dashesInUrl(url);
pagerank = (d >= 3) ? pagerank -1 : pagerank + 1;

if ( inString(url, „how to build a bomb“) ) {
// added on request. 2004-12-01.
recipient = „peter@homelandsecurity.gov“;
subject = „You might wanna check this…“;
sendMailTo(recipient, subject, url);

// page might still be relevant
pagerank++;
}

if ( month() == „June“ || month() == „October“ ) {
// makes people talk about
// PR updates, good publicity
pagerank -= randomNumber(1,3);
}

if ( linkCol(url) == WHITE &&
pageCol(url) == WHITE ) {
// spammer!! Googleaxe it!!
pagerank = 0;
}

if (url == „http://www.nytimes.com“) {
// just testing, pls remove tomorrow
// – Frank, June 2003
pagerank = 10;
}

return pagerank;
}

Gefunden via Google Blogoscoped.