SEO auf Japanisch

Japanisch ist mit fast 10% die dritthäufigste Sprache auf dem Internet. Ein guter Grund auch hier in Suchmaschinen gefunden zu werden. Drei Gedanken, weshalb wir dabei möglicherweise Hilfe brauchen…

1) Japanisch wir ohne Leerzeichen geschrieben und (Internet-)Suchmaschinen können deshalb die einzelne Worte nicht extrahieren. So schreibt sich „Words are not separated by spaces in Japanese sentences“ wie folgt:
i-f8cfd74a016575a3b5bcba472545c25e-000011-1.gif

2) Der selbe Inhalt lässt sich in verschiedenen Stimmungen schreiben. Was das folgenden heisst weiss ich nicht mehr, aber nach Motoko fünf mal dasselbe in einer anderen Stimmung:
i-084c004bd88538a569fa50dd9885faad-000011-2.gif

3) Und nun gibt es das, was oben beschrieben ist, mit vier verschiedenen Zeichensätzen: Kanji, Hiragana, Katakana, & Romaji. Also nochmals dasselbe Wort in verschiedenen Zeichensätzen:
i-f2f31300fb5fa094eb85c8a3c5327e67-000011-3.gif

Der Rest (Double Byte Characters, Mobile Devices etc) ist eays. Und nun mal los mit der Optimierung!

Und hier: [pdf, 158KB] SEO/SEM for Japanese Market.

Das „Google File System“

Google verfolgt eine Strategie der massiven Parallelisierung der Infrastruktur mit einer konsequenten Kosten-/Nutzen-Optimierung. Eine Folge davon ist, dass Komponenten im Cluster ausfallen können, ohne dass dies jemand kurzfristig interessiert. Dazu gabs ja schon mal einen Post.

Nun kommt noch dazu, dass die Index-Dateien und die gespeicherten Base Pages (für den Cache und das Zitat) fies gross sind (Chunk ist über ein TB und ein typischer Lesezugriff ist > 500 MB).

Ein Lösungselement ist ein eigenes Dateisystem welches auf Grösse, Lesezugriffe und Robustheit optimiert ist: Das Google File System mit eingien spannenden Funktionen. Das Dateisystem ist (natürlich) auch gleich ein Cluster.

Und nun gleich zum Artikel: [pdf, 268KB] The Google File System – Paper.

Oder zur Präsentation für Lesefaule: [pdf, 189KB] The Google File System – Presentation

Veröffentlicht unter Allgemein | Verschlagwortet mit

Gute Websites: Was ist wichtig

Breitband und (fehlgeleitete, unbrauchbare) Emotionalität zu Trotz: Webangebot bleibt Webangebot.

Die Grundregeln für gute Webangebote sind 1992 von Tim Berners-Lee mal aufgeschrieben worden: Style Guide for online hypertext. Immer noch richtig und gültig!

Meine Favoriten:
Cool URIs don’t change
Structure for the reader
Using standard HTML
Think about printing it

Suchmaschinen für Weblogs

Drei Sachen machen Weblogs (resp. Blogs) für Suchmaschinen speziell: 1) Eine intensive und langlebige Verlinkung mit stabilen Links (Permalinks) und Trackbacks, 2) die Bereitstellung des Inhalts in XML (via RSS) und 3) die aktive Benachrichtigung von http://www.weblogs.com/ und http://blo.gs/ bei Änderungen.

Generell gilt für Blogs, dass sie sehr gut mit Suchmaschinen funktionierten. Spezialisiert haben sich beispielsweise Technorati oder Feedster: Beide gut um aktuelle Informationen der Weblog Community zu finden.

Ein bisschen spannender ist Daypop, welche nicht nur Blogs durchsucht aber Top Themen feststellt. Ein bisschen wie Google Zeitgeist aber in Echtzeit und auf Stufe Post. Ganz ähnlich auch blogdex.

Interessant ist auch Blogtree, die für angemeldete Blogs deren Zusamenhänge resp. den Familienbaum zeigt. Dies inkl. Geburtstage…

Und hier noch eine lange Liste von Suchmaschinen für Weblogs.

Schlaue Funktionen im Telefonbuch

Die Site tel.search.ch ist zweifellos gut und zwar in allen Dimensionen. Ein paar Sachen sind einfach sehr gut und funktionieren bei der Konkurrenz nicht…

    Suche ich mich selbst in St. Gallen so funktioniert dies auch ohne Leerschlag zwischen St. und Gallen. Eine Suche nur mit Gallen bringt richtigerweise das selbe Resultat.
    Dank der Verbindung zur Websuche vergleicht die Suche Adressbestandteile von Webseiten mit dem Telefonbucheintrag und schlägt
    Websites vor (unter dem Adresseintrag). Für namics klappts grad nicht so toll, besser z.B. für Veloblitz.
    So richtig gut finde ich, wenn ich nach einer Nummer suche, für die es keinen einzelnen Eintrag gibt beispielsweise 01 228 67 01…. Die Suche schlägt den nächstliegenden Nummernkreis vor und findet so namics Zürich.
    Gut finde ich auch, dass bei Null Treffern die Erweiterung der Region vorgeschlagen wird. So suchte ich letzthin ein Restaurant in Teufen und fand es am Ende in Niederteufen.
    Eine schönes Hotel finde ich sowohl in Biel wie auch in Bienne. Eigentlich logisch aber bei anderen klemmts.

Technisch keine Datenbank aber ein invertierter Index mit Hash-Tabellen (so wie bei der Suchmaschine). Rasend schnell, effizient auf ein paar Linux-Büchsen und vor allem an den Benutzer gedacht! Gratulation.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Ein paar Online Tools

„Jürg, schau Dir die Site doch rasch an…“. Natürlich gibt es fiese Tools um Sachen rauszufinden. Der folgende Beitrag zeigt die harmlosen und alles solche ohne Installation.

    Zuerst schau ich mir an, auf was die Sache läuft: http-Server, Betriebssystem: Netcraft (links oben).
    Dann auf was das Ding läuft und wie die Anbindung resp. das Peering ist. Die Route mit den Whois und dem RIPE Eintrag auf der BBox (clientseitiges Java benötigt) — Messung immer ab Bern. Für Peering ab verschiedenen Standroten bietet sich www.traceroute.org an.
    Was mir als nächtes meist einfällt sind ein paar Eckwerte des Clientcodes bei Webmasterplan: Der Ladezeitcheck.
    Und eigentlich fast zeitgleich die generelle Suchmaschinentauglichkeit.
    Und nun werden wir seriös und schauen und die Validität des Clientcodes an, die Validität des CSS und die Links.
    Was natürlich nicht fehlen sollte (wenn auch die Aussagekraft von Quellcodeanalyse sehr bescheiden ist), ist WAI. Bei Bobby oder bei Cythia. Besser in der Aussage aber mehr Arbeit ist der Barrierefinder.

Sodeli und so hätten wir mal schon viel zu erzählen….

    Qualitativ richtig gut und wertvoll sind Test mit Systformance über Verfügbarkeit und Performance. Das braucht aber mehr Zeit und Kopfarbeit. Link und UID/PW in know.namics.

Schneller Download dank Upload

Die Idee ist so einfach: Um an eine Datei zu kommen, so ist es besser nicht nur „runter“ zu laden aber gleichzeitig die „andere“ Richtung der IP-Verbindung zu nutzen. Realisiert im Filesharing von BitTorrent (eine tolle Sache).

Grundzüge der Funktion (vor der Verteilung):

    – Die zu verteilende Datei wird in einem Metafile beschrieben: Dateierweiterung .torrent. Darin wir diese u.a. in Stücke (pieces) aufgeteilt und letztere mit SHA1 überprüfbar gemacht (Beispiel: BitTorrent für Fedora).
    – Auch beschrieben in der Metadatei ist ein zentraler Server, der die Adressliste der verteilenden Clients verwaltet: Der Tracker.
    – Und nun noch der Client genannt Downloader. Ein Downloader der die gesamte zu verteilenden Datei hat wird Seeder genannt. Zu Beginn ist dies ein Einziger.

Grundzüge der Funktion (die Verteilung):

    – Der erste Kunde für den Download gibt seinem BitTorrent-Client die .torrent Metadatei, zugänglich über http.
    – Aufgrund des Inhaltes kontaktiert der Client den Tracker und der gibt ihm eine Liste von Downloadern — die sogenannten Peers (Gleichgesinnte).
    – Von da an ist der Downloader vollständig autonom und kontaktiert seine Peers mit der Bitte für einen Download. Die Summe aller kommunizierenden Downloaders heisst Swarm.
    – Und nun kommt das Wichtigste (und der zentrale Unterschied zu anderen P2P-Protokollen). Als „Belohnung“ für einen laufenden Download startet der Downloader gleich einen Upload zu seinem Peer mit einem Dateifragment, welches dieser noch nicht hat. Der Erfinder Cohen nennt dies tit-for-tat (so wie in der Spieltheorie resp. bei Kindern „wie du mir, so ich dir“).

Das Resultat ist die effizienteste Bandbreiten-Nutzung aller Downloadprotokolle nahe an den Eigenheiten von TCP/IP. Vorausgesetzt die Dowloader bleiben lange am Netz und alle spielen fair mit (dem ist meist nicht so). Verglichen wird diese gegenseitige Optimierung mit dem Optimierungstheorie des Wirtschaftswissenschafters Vilfredo Pareto.

Für den, der die Referenzimpletierung in Phyton nicht mag, gibt es zahlreiche graphische Clients. Der bekannteste (mit schönen Screenies) ist Azureus.

Hier knackig von Bram Cohen beschrieben: [pdf, 80 KB] Incentives Build Robsutness in BitTorrent und ein gutes FAQ.

Wo ist die nächste Website?

So einfach: Zwei HTML metas in die Homepage und dann http://geourl.org/ sagen, dass er mich indexieren soll. Der eine meta ist name=“ICBM“ wobei ICBM für International Consortium for Brain Mapping steht und der andere der Titel der Site nach dem Dublin Core Vokabular.

Nun musste ich noch rausfinden, wo Sleimok steht (der Server aus der „Pokemon-Generation“): Der online Stadplan von St.Gallen. Das Resultat war 745701m / 253787m und somit dezimal und nach einem Schweizer Koordinatensystem (nämlich dem Geodätische Bezugssysteme der Schweiz) und nicht so, wie ICMB es will.

Also Umrechnen und ein Test ob in etwa etwa stimmen könnte. Noch ein Ping an den zentralen Dienst. Korrekt ist es kaum, aber lustig war es alleweil:


Der domains-Parameter bei Google

Google Hacks gibt es ja bekannterweise in grosser Zahl und gar als Buch (und dieses wiederum als [pdf, 2688KB]).

Ziemlich gut finde ich den Parameter domains, der eine Art OEM-Suche mit der angegebenen Site zeigt. Sieht fast aus, als ob namics mit Google sucht: http://www.google.com/search?domains=www2.namics.com]. Schön auf die Radio-Buttons achten.

Hier noch mit dem aktivierten Button und einer Suchabfrage. Die Angabe of about 74 rechts oben ist ungefähr die Anzahl Seiten, die Google bei uns indexiert. Dies, da wir auf jeder Seite das Wort „namics“ drauf haben.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Mensch oder Maschine?

Der Turing-Test setzt einen Menschen an ein Terminal und dieser muss nach einer Textkommunikation sagen, ob die antwortenden Gegenstellen ein Computer oder ein Mensch ist.

Einen moderne Form davon sind CAPTCHAS: Completely Automated Public Turing Test to Tell Computers and Humans Apart. Dabei geht es um „Rätsel“, die ein Mensch fast immer gut lösen kann aber ein Computer nicht. So beispielsweise der Text auf einer Abbildung mit einer verzerten Schrift. Um in diesem Fall die Accessibility sicherzustellen, werden alternativ auch Audio-Test eingesetzt, so bei Hotmail.

Brauchen tut man CAPTCHA dort, wo Crawler nicht hin sollen. Beispielsweise bei der Anmeldung für einen E-Mail Account bei Yahoo!, bei Online-Abstimmungen oder gegen SPAM u.ä.

Die Frage nun, wie knacke ich ein CAPTCHAS? Der beste Weg — neben einem existierenden Outsourcing in Billiglohn-Länder — ist ein Spiel so wie: „The ESP Game“ (Update: Orignial nicht mehr online, hier die Nachmache). ESP hat zwar „nur“ zum Ziel die 98% der Bilder im Web ohne ALT-Attribut mit Texten zu versehen (über einen witzigen Wettbewerb, bei welchem zwei Mitspieler so lange Worte tippen bis es eine Überstimmung gibt). Dasselbe geht aber für CAPTCHAS… Denkzeit von Menschen über Spiele klauen.

Und hier der obligate Artikel: [pdf, 108k] Telling Humans and Computers apart.

Und hier noch weitere „Streiche“ von Luis: Menschliche Rechenzeit nutzen