Wo ist die nächste Website?

So einfach: Zwei HTML metas in die Homepage und dann http://geourl.org/ sagen, dass er mich indexieren soll. Der eine meta ist name=“ICBM“ wobei ICBM für International Consortium for Brain Mapping steht und der andere der Titel der Site nach dem Dublin Core Vokabular.

Nun musste ich noch rausfinden, wo Sleimok steht (der Server aus der „Pokemon-Generation“): Der online Stadplan von St.Gallen. Das Resultat war 745701m / 253787m und somit dezimal und nach einem Schweizer Koordinatensystem (nämlich dem Geodätische Bezugssysteme der Schweiz) und nicht so, wie ICMB es will.

Also Umrechnen und ein Test ob in etwa etwa stimmen könnte. Noch ein Ping an den zentralen Dienst. Korrekt ist es kaum, aber lustig war es alleweil:


Der domains-Parameter bei Google

Google Hacks gibt es ja bekannterweise in grosser Zahl und gar als Buch (und dieses wiederum als [pdf, 2688KB]).

Ziemlich gut finde ich den Parameter domains, der eine Art OEM-Suche mit der angegebenen Site zeigt. Sieht fast aus, als ob namics mit Google sucht: http://www.google.com/search?domains=www2.namics.com]. Schön auf die Radio-Buttons achten.

Hier noch mit dem aktivierten Button und einer Suchabfrage. Die Angabe of about 74 rechts oben ist ungefähr die Anzahl Seiten, die Google bei uns indexiert. Dies, da wir auf jeder Seite das Wort „namics“ drauf haben.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Mensch oder Maschine?

Der Turing-Test setzt einen Menschen an ein Terminal und dieser muss nach einer Textkommunikation sagen, ob die antwortenden Gegenstellen ein Computer oder ein Mensch ist.

Einen moderne Form davon sind CAPTCHAS: Completely Automated Public Turing Test to Tell Computers and Humans Apart. Dabei geht es um „Rätsel“, die ein Mensch fast immer gut lösen kann aber ein Computer nicht. So beispielsweise der Text auf einer Abbildung mit einer verzerten Schrift. Um in diesem Fall die Accessibility sicherzustellen, werden alternativ auch Audio-Test eingesetzt, so bei Hotmail.

Brauchen tut man CAPTCHA dort, wo Crawler nicht hin sollen. Beispielsweise bei der Anmeldung für einen E-Mail Account bei Yahoo!, bei Online-Abstimmungen oder gegen SPAM u.ä.

Die Frage nun, wie knacke ich ein CAPTCHAS? Der beste Weg — neben einem existierenden Outsourcing in Billiglohn-Länder — ist ein Spiel so wie: „The ESP Game“ (Update: Orignial nicht mehr online, hier die Nachmache). ESP hat zwar „nur“ zum Ziel die 98% der Bilder im Web ohne ALT-Attribut mit Texten zu versehen (über einen witzigen Wettbewerb, bei welchem zwei Mitspieler so lange Worte tippen bis es eine Überstimmung gibt). Dasselbe geht aber für CAPTCHAS… Denkzeit von Menschen über Spiele klauen.

Und hier der obligate Artikel: [pdf, 108k] Telling Humans and Computers apart.

Und hier noch weitere „Streiche“ von Luis: Menschliche Rechenzeit nutzen

CMS für Bierdeckelbeisser

Bernd und ich sind der BKW an einer CMS-Evaluation dran. 12 Hersteller anschreiben, Excel-Auswertung mit Review-Board und QS etc. Gestern und heute hatte ich noch Herstellerpräsentationen und somit meine Dosis wiedereinmal erhalten.

Doch bei der vierten und letzten Präsi — ich lag schon ziemlich gemütlich zurück — war da plötzlich ein Techie, der tippte so schnell wie ein Telex ab dem Lochstreifen liest (wer das von Euch noch kennt). Anstelle „asdasd“ reinzuschreiben hauter er überall echte Texte rein. Das war schon ganz erfrischend.

Als er beim Thema „Autoreninterface“ (im Publikum sassen PLs und Webautoren) aber plötzlich einen TCL-Client in einer UNIX-Shell öffnete sass ich doch glatt auf. Weiter gings mit connect localhost://3001 und einer flotten Query um den Inode des Content-Objektes zu finden. Dann ein ellenlanger Änderungsbefehl und eine Art Commit (danach sah es zumindest aus). Refresh im Browser nebenan und alle Leute waren gnadenlos verwirrt und verloren.

Das ist noch was für echte Techies…

Veröffentlicht unter Allgemein | Verschlagwortet mit

Optimierung für unseren Planeten

Bei ALTANA machen wir ein grosses Intranet. Gross heisst im Endausbau für über 5000 Benutzer. Abgesehen davon dass wir viele Obtree Lizenzen brauchen, weiss ich dass Adi bei sunrise mit 3 LINUX Kisten und Obtree noch viel mehr Benutzer bedient. Daher habe ich mir nicht viel mehr dabei gedacht.

Als der Kunden dann aber wissen wollte, wie gross der DB-Server sein muss, kam ich schon ein bisschen in’s Grübeln… Ein Excel-Sheet später einigte ich mich auf 275 SQL-Reads/Sekunde und 21 SQL-Writes/Sekunde und eine maximal genutzte Bandbreite von 2339 KB/Sek.

Und weshalb erzähle ich das? Weil ich zwar skaliere, nicht aber optimiere und dabei ist mit ein Artikel von Google in den Sinn gekommen. Die Jungs wissen für eine einzelen Abfrage wie viele Prozessorzyklen (je nach CPU-Architektur) benötigt werden, wie viele TLB-Misses auftreten und welches die Leistungsaufnahme der Rechner und damit die Wäremeentwicklung im Rack ist. Ziemlich spannend: [pdf, 104KB] Web Search for a Planet: The Google Architecture.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Whitepaper Enterprise Information Retrieval

„Die richtigen Informationen zum richtigen Zeitpunkt am richtigen Ort“ – dies ist heute sowohl für Unternehmen als auch für deren Mitarbeiter zunehmend ein zentraler Erfolgsfaktor. Das namics Whitepaper erklärt die grundlegenden Konzepte von Suchmaschinen, deren unterschiedliche Anwendungsbereiche und aktuelle Konzepte der Implementierung und des Einsatzes.

[pdf, 735K] Whitepaper Enterprise Information Retrieval

So kommen Sie in die Suchmaschinen

Dass Benutzer über Google und Co. kommen wissen in der Zwischenzeit alle — Sie tun es selbst auch. Doch noch immer gibt es viele Angebote, welche Ihre Suchmaschinentauglichkeit (so dass der Crawler überhaupt was findet) aber auch die Optimierung (damit das Ranking dann auch gut ist). Der meiste Teil der Arbeit ist normales Handwerk und hat mit guter, defensiver Codierung zu tun.

Hier eine Präsentation an der IEX gehalten mit einem Überblick und vielen Tipps und Tricks: [pdf, 1.6 MB] So kommen Sie in die Suchmaschinen

Präsentation Top 10 Internet Standards (IEX 2004)

Jedes Jahr wieder an der Internet Expo ein Blick in die milchige Glaskugel. Dieses jahr neu im Angebot:

– Multimodal Interaction
– WAI
– PDF/Acrobat 6
– Blogging und RSS
– Digital Rights Management
– ENUM/E.164
– Anti-Spam
– Google Web API
– Grid Computing
– SOAP 2.0/XMLP

Und hier die Präsi: [pdf, 816 KB] Top 10 Internet Standards 2004

So kommen Sie in die Suchmaschinen (IEX 2004)

Eine umfassender Leitfaden mit Beispielen, wie Ihr Webangebot in den Suchmaschinen besser platziert ist. Fokus dabei ist (generische) Suchmaschinenoptimierung, doch es erfolgt auch ein kurzer Blick ins (bezahlte) Suchmaschinenmarketing.

Gegliedert in die folgenden Schritte:

– Definition Rahmenbedinungen
– Auswahl Suchdienst
– Ausnahme Suchdienst
– Auswahl Suchbegriffe
– Top Positionen
– Attraktivigtät der Treffer
– und ein Exkurs: Wie funktioniert eine (Volltext-)Suchmaschine.

Und hier die Präsi: [pdf, 1.6 MB] So kommen Sie in die Suchmaschinen

PS: Damals noch nicht existent aber wichtig heute ist Google Sitemaps.

Präsentation Top 10 Internet Standards (IEX 2003)

Jedes Jahr wieder an der Internet Expo ein Blick in die milchige Glaskugel. Dieses jahr neu im Angebot:

– JSP 2.0
– XHTML 2
– Platform for Privacy Preferences
– Watermarking
– C#
– Multimedia Home Platform
– Semantic Web
– WLAN
– XSL-FO
– SVG

Und hier die Präsi: [pdf, 2.2 MB] Top 10 Internet Standards 2003.

Seite 219 von 220« Erste...102030...216217218219220