Wer macht die Algorithmen für Amazon: Udi Manber

So legendär, dass Google gleich beschlossen hat, bei einer Suche nach Udi Manber ein Job-Inserat zu schalten (oben an der Resultatliste).

i-b10ebd5b7579f05900fc608fe986777a-google_ad_udi_manber-thumb.gif

Auf Udis alter Homepage nennt er sich noch „Chief Algorithms Officer at Amazon.com“, vorher war er Professor an der Universität von Arizona… heute ist der President von A9. Eine Firmenwebsite die besucht sein will. Insbesonderes wenn Du gleichzeitig bei Amazon angemeldet bist, so merkt sich die Suche auf A9 deine Suchhistorie und nutzt diese für (relavantere?) Treffer bei Google und bei Amazon (link aussen). Natürlich auch als Toolbar.

Legendär ist wahrscheinlich die Geschichte, wo Udi innert 6 Monaten mit einem kleinen Team die „Search Inside a Book“ bei Amazon gebaut hat (inkl. 120’000 Bücher, 35 Mio. Seiten zerscheiden und scannen/OCR) .

Und schlussendlich seine „zukünftigen Bücher“ ;-)

– How to lose weight without even reading this book
– Grad Schools for Dummies, Revised Edition
– Learn to write a Java book in 21 days
– The E-conomy of E-diots
– Regular Expressions Your Mother Never Taught You
– Mother in laws are from Jupiter, Uncles are from Uranus
– It’s Never Too Early to Worry — Solving the Year 10,000 Problem
– Ghost towns along the information super highway

Veröffentlicht unter Allgemein | Verschlagwortet mit

Webangebote bereit für Service Pack 2 von Windows XP

Das Service Pack 2 für Windows XP ist am Horizont und hat einige Einflüsse darauf, was für den IE zulässig ist. Es loht sich die Veränderungen im Voraus zu kennen: Ein Artikel in MSDN.

Die wichtigsten Änderungen sind:

– (Keine) Autoinstallation von neuen Active-X ausser sie sind signiert.

– Dateidownload kann nicht durch den Browser ausgelöst werden.

– Pop-Up Blocker ist standardmässig eingeschaltet.

Veröffentlicht unter Allgemein | Verschlagwortet mit

E-Mail Spam: Authentifizierung des Absenders

Das E-Mail Spam ein Problem ist, muss ich kaum erzählen. Grundproblem sind die tiefen Kosten für den Versand, vor allem aber die „Offenheit“ von SMTP. Es ist sehr einfach eine beliebige Absenderadresse zu fälschen.

So gibt es viele Vorschläge, wie sich Absender authentifizieren müssten mit dem Ziel Spam zu verhindern. Bei allen Vorschlägen handelt es sich im Kern um DNS-Erweiterungen, die nun in der IETF-Arbeitsgruppe MARID diskutiert werden:

Reverse MX (RMX)

Microsoft Sender ID

Client SMTP Validation (CSV)

Designated Mailers Protocol (DMP)

Designated Relays Inquiry Protocol (DRIP)

Flexible Sender Validation (FSV)

Sender Policy Framework (SPF)

Interessante Fragen sind beispielsweise wie E-Mail-Forwards behandelt werden sollen und ob es für Spammer nicht (zu) einfach ist, gültige Adressen zu beschaffen. Im Grundsatz sind sich die Gruppen auch nicht einig ob es genügt die Header-Daten zu prüfen, oder ob das Mail Envelope geprüft werden muss und zu welchem Zeitpunkt die Prüfung zu erfolgen hat.

Interessiert? Die Links sind oben…

Webmail mit der Tastatur: Google Mail

Seit 2 Tagen bin ich (stolzer) Besitzer eines Testzugangs für den Google E-Mail-Dienst (der mit dem Gigabyte ;-)

i-45685cc1b34af0155ef76b6c2481dbd6-gmail_9Jul04.gif

Vieles an dem Konzept ist gewöhnungsbedürftig und ein paar Sachen im User Interface sind eher ein Puff. Ich lade alle Publisher ein um mal sehen, was mit JavaScript (Cross Browser) alles möglich ist inklusive auf- und zuklappen von Elementen oder Spell Checking….

Der Killer — und deshalb schreibe ich auch — ist aber ein Modus, der die vollständige Tastaturbedienung erlaubt. Unerwartet aber wirklich nerdy!

Also los „c“ (für compose) stuker(at)gmail.com und „tab“ „enter“ (für send) und ich gehe mit „u“ in meine Inbox und blättere mit „n“ alle Eure Nachrichten durch.

PS: Ich bin fast nicht mehr aus dem Staunen rausgekommen, doch plötzlich beim Rumspielen fand ich ganz was Hässliches: „Gmail requires ActiveX controls to be enabled“ :-(((

Veröffentlicht unter Allgemein | Verschlagwortet mit

Port Knocking – Wie das Codewort an der Stadtmauer

Bereits das Vorhandensein eines offenen Netzwerkports (z.B. für ftp) lädt zum Ausprobieren und Lauschen ein und ist damit ein potentielles Sicherheitsproblem. Nehmen wir an, wir wollen einen Port für SSH, den wir für Fernwartung benötigen, schützen.

Zuerst schützen wir alle Ports mit einer SW-Firewall (resp. lassen diese zu). Nehmen wir eine LINUX-Kiste an, so schützen wir mit iptables. Somit ist der Rechner von aussen bspw. bei einem Port-Scan „dicht“ und zwar auf allen Ports.

Nun wählen wir eine beliebige Port-Range und lassen einen Port Knock-Server daran lauschen oder genauer gesagt an der Log-Datei der Firewall.

Verbindet nun ein Client zu einer vordefinierte Reihenfolge von Ports, so ist das erfolglos und die Firewall schreibt die Versuche in ihre Logdatei. Diese wiederum wird vom Port Knock-Server mitgelesen. Erkennt der Server ein vordefiniertes „Klopfzeichen“, so öffnet er in unserem Falll den SSH-Port und die „Türe“ für die Fernwartung ist nun offen (und wird nach Gebrauch wieder geschlossen).

Selbstverständlich sollten das Klopzeichen wegen einer Replay-Attacke nicht immer identisch sein. Dagegen tut es bereits ein einfacher Timestamp, doch sind kompliziertere Versionen mit kryptographischen sicheren Sessions-Key beliebig möglich.

Ich finde das genial: www.portknocking.org und ein Artikel im Linux Journal.

SEO auf Japanisch

Japanisch ist mit fast 10% die dritthäufigste Sprache auf dem Internet. Ein guter Grund auch hier in Suchmaschinen gefunden zu werden. Drei Gedanken, weshalb wir dabei möglicherweise Hilfe brauchen…

1) Japanisch wir ohne Leerzeichen geschrieben und (Internet-)Suchmaschinen können deshalb die einzelne Worte nicht extrahieren. So schreibt sich „Words are not separated by spaces in Japanese sentences“ wie folgt:
i-f8cfd74a016575a3b5bcba472545c25e-000011-1.gif

2) Der selbe Inhalt lässt sich in verschiedenen Stimmungen schreiben. Was das folgenden heisst weiss ich nicht mehr, aber nach Motoko fünf mal dasselbe in einer anderen Stimmung:
i-084c004bd88538a569fa50dd9885faad-000011-2.gif

3) Und nun gibt es das, was oben beschrieben ist, mit vier verschiedenen Zeichensätzen: Kanji, Hiragana, Katakana, & Romaji. Also nochmals dasselbe Wort in verschiedenen Zeichensätzen:
i-f2f31300fb5fa094eb85c8a3c5327e67-000011-3.gif

Der Rest (Double Byte Characters, Mobile Devices etc) ist eays. Und nun mal los mit der Optimierung!

Und hier: [pdf, 158KB] SEO/SEM for Japanese Market.

Das „Google File System“

Google verfolgt eine Strategie der massiven Parallelisierung der Infrastruktur mit einer konsequenten Kosten-/Nutzen-Optimierung. Eine Folge davon ist, dass Komponenten im Cluster ausfallen können, ohne dass dies jemand kurzfristig interessiert. Dazu gabs ja schon mal einen Post.

Nun kommt noch dazu, dass die Index-Dateien und die gespeicherten Base Pages (für den Cache und das Zitat) fies gross sind (Chunk ist über ein TB und ein typischer Lesezugriff ist > 500 MB).

Ein Lösungselement ist ein eigenes Dateisystem welches auf Grösse, Lesezugriffe und Robustheit optimiert ist: Das Google File System mit eingien spannenden Funktionen. Das Dateisystem ist (natürlich) auch gleich ein Cluster.

Und nun gleich zum Artikel: [pdf, 268KB] The Google File System – Paper.

Oder zur Präsentation für Lesefaule: [pdf, 189KB] The Google File System – Presentation

Veröffentlicht unter Allgemein | Verschlagwortet mit

Gute Websites: Was ist wichtig

Breitband und (fehlgeleitete, unbrauchbare) Emotionalität zu Trotz: Webangebot bleibt Webangebot.

Die Grundregeln für gute Webangebote sind 1992 von Tim Berners-Lee mal aufgeschrieben worden: Style Guide for online hypertext. Immer noch richtig und gültig!

Meine Favoriten:
Cool URIs don’t change
Structure for the reader
Using standard HTML
Think about printing it

Suchmaschinen für Weblogs

Drei Sachen machen Weblogs (resp. Blogs) für Suchmaschinen speziell: 1) Eine intensive und langlebige Verlinkung mit stabilen Links (Permalinks) und Trackbacks, 2) die Bereitstellung des Inhalts in XML (via RSS) und 3) die aktive Benachrichtigung von http://www.weblogs.com/ und http://blo.gs/ bei Änderungen.

Generell gilt für Blogs, dass sie sehr gut mit Suchmaschinen funktionierten. Spezialisiert haben sich beispielsweise Technorati oder Feedster: Beide gut um aktuelle Informationen der Weblog Community zu finden.

Ein bisschen spannender ist Daypop, welche nicht nur Blogs durchsucht aber Top Themen feststellt. Ein bisschen wie Google Zeitgeist aber in Echtzeit und auf Stufe Post. Ganz ähnlich auch blogdex.

Interessant ist auch Blogtree, die für angemeldete Blogs deren Zusamenhänge resp. den Familienbaum zeigt. Dies inkl. Geburtstage…

Und hier noch eine lange Liste von Suchmaschinen für Weblogs.

Schlaue Funktionen im Telefonbuch

Die Site tel.search.ch ist zweifellos gut und zwar in allen Dimensionen. Ein paar Sachen sind einfach sehr gut und funktionieren bei der Konkurrenz nicht…

    Suche ich mich selbst in St. Gallen so funktioniert dies auch ohne Leerschlag zwischen St. und Gallen. Eine Suche nur mit Gallen bringt richtigerweise das selbe Resultat.
    Dank der Verbindung zur Websuche vergleicht die Suche Adressbestandteile von Webseiten mit dem Telefonbucheintrag und schlägt
    Websites vor (unter dem Adresseintrag). Für namics klappts grad nicht so toll, besser z.B. für Veloblitz.
    So richtig gut finde ich, wenn ich nach einer Nummer suche, für die es keinen einzelnen Eintrag gibt beispielsweise 01 228 67 01…. Die Suche schlägt den nächstliegenden Nummernkreis vor und findet so namics Zürich.
    Gut finde ich auch, dass bei Null Treffern die Erweiterung der Region vorgeschlagen wird. So suchte ich letzthin ein Restaurant in Teufen und fand es am Ende in Niederteufen.
    Eine schönes Hotel finde ich sowohl in Biel wie auch in Bienne. Eigentlich logisch aber bei anderen klemmts.

Technisch keine Datenbank aber ein invertierter Index mit Hash-Tabellen (so wie bei der Suchmaschine). Rasend schnell, effizient auf ein paar Linux-Büchsen und vor allem an den Benutzer gedacht! Gratulation.

Veröffentlicht unter Allgemein | Verschlagwortet mit
Seite 219 von 221« Erste...102030...217218219220221