Wer macht die Algorithmen für Amazon: Udi Manber

So legendär, dass Google gleich beschlossen hat, bei einer Suche nach Udi Manber ein Job-Inserat zu schalten (oben an der Resultatliste).

i-b10ebd5b7579f05900fc608fe986777a-google_ad_udi_manber-thumb.gif

Auf Udis alter Homepage nennt er sich noch „Chief Algorithms Officer at Amazon.com“, vorher war er Professor an der Universität von Arizona… heute ist der President von A9. Eine Firmenwebsite die besucht sein will. Insbesonderes wenn Du gleichzeitig bei Amazon angemeldet bist, so merkt sich die Suche auf A9 deine Suchhistorie und nutzt diese für (relavantere?) Treffer bei Google und bei Amazon (link aussen). Natürlich auch als Toolbar.

Legendär ist wahrscheinlich die Geschichte, wo Udi innert 6 Monaten mit einem kleinen Team die „Search Inside a Book“ bei Amazon gebaut hat (inkl. 120’000 Bücher, 35 Mio. Seiten zerscheiden und scannen/OCR) .

Und schlussendlich seine „zukünftigen Bücher“ ;-)

– How to lose weight without even reading this book
– Grad Schools for Dummies, Revised Edition
– Learn to write a Java book in 21 days
– The E-conomy of E-diots
– Regular Expressions Your Mother Never Taught You
– Mother in laws are from Jupiter, Uncles are from Uranus
– It’s Never Too Early to Worry — Solving the Year 10,000 Problem
– Ghost towns along the information super highway

Veröffentlicht unter Allgemein | Verschlagwortet mit

Webangebote bereit für Service Pack 2 von Windows XP

Das Service Pack 2 für Windows XP ist am Horizont und hat einige Einflüsse darauf, was für den IE zulässig ist. Es loht sich die Veränderungen im Voraus zu kennen: Ein Artikel in MSDN.

Die wichtigsten Änderungen sind:

– (Keine) Autoinstallation von neuen Active-X ausser sie sind signiert.

– Dateidownload kann nicht durch den Browser ausgelöst werden.

– Pop-Up Blocker ist standardmässig eingeschaltet.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Webmail mit der Tastatur: Google Mail

Seit 2 Tagen bin ich (stolzer) Besitzer eines Testzugangs für den Google E-Mail-Dienst (der mit dem Gigabyte ;-)

i-45685cc1b34af0155ef76b6c2481dbd6-gmail_9Jul04.gif

Vieles an dem Konzept ist gewöhnungsbedürftig und ein paar Sachen im User Interface sind eher ein Puff. Ich lade alle Publisher ein um mal sehen, was mit JavaScript (Cross Browser) alles möglich ist inklusive auf- und zuklappen von Elementen oder Spell Checking….

Der Killer — und deshalb schreibe ich auch — ist aber ein Modus, der die vollständige Tastaturbedienung erlaubt. Unerwartet aber wirklich nerdy!

Also los „c“ (für compose) stuker(at)gmail.com und „tab“ „enter“ (für send) und ich gehe mit „u“ in meine Inbox und blättere mit „n“ alle Eure Nachrichten durch.

PS: Ich bin fast nicht mehr aus dem Staunen rausgekommen, doch plötzlich beim Rumspielen fand ich ganz was Hässliches: „Gmail requires ActiveX controls to be enabled“ :-(((

Veröffentlicht unter Allgemein | Verschlagwortet mit

Das „Google File System“

Google verfolgt eine Strategie der massiven Parallelisierung der Infrastruktur mit einer konsequenten Kosten-/Nutzen-Optimierung. Eine Folge davon ist, dass Komponenten im Cluster ausfallen können, ohne dass dies jemand kurzfristig interessiert. Dazu gabs ja schon mal einen Post.

Nun kommt noch dazu, dass die Index-Dateien und die gespeicherten Base Pages (für den Cache und das Zitat) fies gross sind (Chunk ist über ein TB und ein typischer Lesezugriff ist > 500 MB).

Ein Lösungselement ist ein eigenes Dateisystem welches auf Grösse, Lesezugriffe und Robustheit optimiert ist: Das Google File System mit eingien spannenden Funktionen. Das Dateisystem ist (natürlich) auch gleich ein Cluster.

Und nun gleich zum Artikel: [pdf, 268KB] The Google File System – Paper.

Oder zur Präsentation für Lesefaule: [pdf, 189KB] The Google File System – Presentation

Veröffentlicht unter Allgemein | Verschlagwortet mit

Schlaue Funktionen im Telefonbuch

Die Site tel.search.ch ist zweifellos gut und zwar in allen Dimensionen. Ein paar Sachen sind einfach sehr gut und funktionieren bei der Konkurrenz nicht…

    Suche ich mich selbst in St. Gallen so funktioniert dies auch ohne Leerschlag zwischen St. und Gallen. Eine Suche nur mit Gallen bringt richtigerweise das selbe Resultat.
    Dank der Verbindung zur Websuche vergleicht die Suche Adressbestandteile von Webseiten mit dem Telefonbucheintrag und schlägt
    Websites vor (unter dem Adresseintrag). Für namics klappts grad nicht so toll, besser z.B. für Veloblitz.
    So richtig gut finde ich, wenn ich nach einer Nummer suche, für die es keinen einzelnen Eintrag gibt beispielsweise 01 228 67 01…. Die Suche schlägt den nächstliegenden Nummernkreis vor und findet so namics Zürich.
    Gut finde ich auch, dass bei Null Treffern die Erweiterung der Region vorgeschlagen wird. So suchte ich letzthin ein Restaurant in Teufen und fand es am Ende in Niederteufen.
    Eine schönes Hotel finde ich sowohl in Biel wie auch in Bienne. Eigentlich logisch aber bei anderen klemmts.

Technisch keine Datenbank aber ein invertierter Index mit Hash-Tabellen (so wie bei der Suchmaschine). Rasend schnell, effizient auf ein paar Linux-Büchsen und vor allem an den Benutzer gedacht! Gratulation.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Ein paar Online Tools

„Jürg, schau Dir die Site doch rasch an…“. Natürlich gibt es fiese Tools um Sachen rauszufinden. Der folgende Beitrag zeigt die harmlosen und alles solche ohne Installation.

    Zuerst schau ich mir an, auf was die Sache läuft: http-Server, Betriebssystem: Netcraft (links oben).
    Dann auf was das Ding läuft und wie die Anbindung resp. das Peering ist. Die Route mit den Whois und dem RIPE Eintrag auf der BBox (clientseitiges Java benötigt) — Messung immer ab Bern. Für Peering ab verschiedenen Standroten bietet sich www.traceroute.org an.
    Was mir als nächtes meist einfällt sind ein paar Eckwerte des Clientcodes bei Webmasterplan: Der Ladezeitcheck.
    Und eigentlich fast zeitgleich die generelle Suchmaschinentauglichkeit.
    Und nun werden wir seriös und schauen und die Validität des Clientcodes an, die Validität des CSS und die Links.
    Was natürlich nicht fehlen sollte (wenn auch die Aussagekraft von Quellcodeanalyse sehr bescheiden ist), ist WAI. Bei Bobby oder bei Cythia. Besser in der Aussage aber mehr Arbeit ist der Barrierefinder.

Sodeli und so hätten wir mal schon viel zu erzählen….

    Qualitativ richtig gut und wertvoll sind Test mit Systformance über Verfügbarkeit und Performance. Das braucht aber mehr Zeit und Kopfarbeit. Link und UID/PW in know.namics.

Der domains-Parameter bei Google

Google Hacks gibt es ja bekannterweise in grosser Zahl und gar als Buch (und dieses wiederum als [pdf, 2688KB]).

Ziemlich gut finde ich den Parameter domains, der eine Art OEM-Suche mit der angegebenen Site zeigt. Sieht fast aus, als ob namics mit Google sucht: http://www.google.com/search?domains=www2.namics.com]. Schön auf die Radio-Buttons achten.

Hier noch mit dem aktivierten Button und einer Suchabfrage. Die Angabe of about 74 rechts oben ist ungefähr die Anzahl Seiten, die Google bei uns indexiert. Dies, da wir auf jeder Seite das Wort „namics“ drauf haben.

Veröffentlicht unter Allgemein | Verschlagwortet mit

CMS für Bierdeckelbeisser

Bernd und ich sind der BKW an einer CMS-Evaluation dran. 12 Hersteller anschreiben, Excel-Auswertung mit Review-Board und QS etc. Gestern und heute hatte ich noch Herstellerpräsentationen und somit meine Dosis wiedereinmal erhalten.

Doch bei der vierten und letzten Präsi — ich lag schon ziemlich gemütlich zurück — war da plötzlich ein Techie, der tippte so schnell wie ein Telex ab dem Lochstreifen liest (wer das von Euch noch kennt). Anstelle „asdasd“ reinzuschreiben hauter er überall echte Texte rein. Das war schon ganz erfrischend.

Als er beim Thema „Autoreninterface“ (im Publikum sassen PLs und Webautoren) aber plötzlich einen TCL-Client in einer UNIX-Shell öffnete sass ich doch glatt auf. Weiter gings mit connect localhost://3001 und einer flotten Query um den Inode des Content-Objektes zu finden. Dann ein ellenlanger Änderungsbefehl und eine Art Commit (danach sah es zumindest aus). Refresh im Browser nebenan und alle Leute waren gnadenlos verwirrt und verloren.

Das ist noch was für echte Techies…

Veröffentlicht unter Allgemein | Verschlagwortet mit

Optimierung für unseren Planeten

Bei ALTANA machen wir ein grosses Intranet. Gross heisst im Endausbau für über 5000 Benutzer. Abgesehen davon dass wir viele Obtree Lizenzen brauchen, weiss ich dass Adi bei sunrise mit 3 LINUX Kisten und Obtree noch viel mehr Benutzer bedient. Daher habe ich mir nicht viel mehr dabei gedacht.

Als der Kunden dann aber wissen wollte, wie gross der DB-Server sein muss, kam ich schon ein bisschen in’s Grübeln… Ein Excel-Sheet später einigte ich mich auf 275 SQL-Reads/Sekunde und 21 SQL-Writes/Sekunde und eine maximal genutzte Bandbreite von 2339 KB/Sek.

Und weshalb erzähle ich das? Weil ich zwar skaliere, nicht aber optimiere und dabei ist mit ein Artikel von Google in den Sinn gekommen. Die Jungs wissen für eine einzelen Abfrage wie viele Prozessorzyklen (je nach CPU-Architektur) benötigt werden, wie viele TLB-Misses auftreten und welches die Leistungsaufnahme der Rechner und damit die Wäremeentwicklung im Rack ist. Ziemlich spannend: [pdf, 104KB] Web Search for a Planet: The Google Architecture.

Veröffentlicht unter Allgemein | Verschlagwortet mit