Schneller Download dank Upload

Die Idee ist so einfach: Um an eine Datei zu kommen, so ist es besser nicht nur „runter“ zu laden aber gleichzeitig die „andere“ Richtung der IP-Verbindung zu nutzen. Realisiert im Filesharing von BitTorrent (eine tolle Sache).

Grundzüge der Funktion (vor der Verteilung):

    – Die zu verteilende Datei wird in einem Metafile beschrieben: Dateierweiterung .torrent. Darin wir diese u.a. in Stücke (pieces) aufgeteilt und letztere mit SHA1 überprüfbar gemacht (Beispiel: BitTorrent für Fedora).
    – Auch beschrieben in der Metadatei ist ein zentraler Server, der die Adressliste der verteilenden Clients verwaltet: Der Tracker.
    – Und nun noch der Client genannt Downloader. Ein Downloader der die gesamte zu verteilenden Datei hat wird Seeder genannt. Zu Beginn ist dies ein Einziger.

Grundzüge der Funktion (die Verteilung):

    – Der erste Kunde für den Download gibt seinem BitTorrent-Client die .torrent Metadatei, zugänglich über http.
    – Aufgrund des Inhaltes kontaktiert der Client den Tracker und der gibt ihm eine Liste von Downloadern — die sogenannten Peers (Gleichgesinnte).
    – Von da an ist der Downloader vollständig autonom und kontaktiert seine Peers mit der Bitte für einen Download. Die Summe aller kommunizierenden Downloaders heisst Swarm.
    – Und nun kommt das Wichtigste (und der zentrale Unterschied zu anderen P2P-Protokollen). Als „Belohnung“ für einen laufenden Download startet der Downloader gleich einen Upload zu seinem Peer mit einem Dateifragment, welches dieser noch nicht hat. Der Erfinder Cohen nennt dies tit-for-tat (so wie in der Spieltheorie resp. bei Kindern „wie du mir, so ich dir“).

Das Resultat ist die effizienteste Bandbreiten-Nutzung aller Downloadprotokolle nahe an den Eigenheiten von TCP/IP. Vorausgesetzt die Dowloader bleiben lange am Netz und alle spielen fair mit (dem ist meist nicht so). Verglichen wird diese gegenseitige Optimierung mit dem Optimierungstheorie des Wirtschaftswissenschafters Vilfredo Pareto.

Für den, der die Referenzimpletierung in Phyton nicht mag, gibt es zahlreiche graphische Clients. Der bekannteste (mit schönen Screenies) ist Azureus.

Hier knackig von Bram Cohen beschrieben: [pdf, 80 KB] Incentives Build Robsutness in BitTorrent und ein gutes FAQ.

Wo ist die nächste Website?

So einfach: Zwei HTML metas in die Homepage und dann http://geourl.org/ sagen, dass er mich indexieren soll. Der eine meta ist name=“ICBM“ wobei ICBM für International Consortium for Brain Mapping steht und der andere der Titel der Site nach dem Dublin Core Vokabular.

Nun musste ich noch rausfinden, wo Sleimok steht (der Server aus der „Pokemon-Generation“): Der online Stadplan von St.Gallen. Das Resultat war 745701m / 253787m und somit dezimal und nach einem Schweizer Koordinatensystem (nämlich dem Geodätische Bezugssysteme der Schweiz) und nicht so, wie ICMB es will.

Also Umrechnen und ein Test ob in etwa etwa stimmen könnte. Noch ein Ping an den zentralen Dienst. Korrekt ist es kaum, aber lustig war es alleweil:


Der domains-Parameter bei Google

Google Hacks gibt es ja bekannterweise in grosser Zahl und gar als Buch (und dieses wiederum als [pdf, 2688KB]).

Ziemlich gut finde ich den Parameter domains, der eine Art OEM-Suche mit der angegebenen Site zeigt. Sieht fast aus, als ob namics mit Google sucht: http://www.google.com/search?domains=www2.namics.com]. Schön auf die Radio-Buttons achten.

Hier noch mit dem aktivierten Button und einer Suchabfrage. Die Angabe of about 74 rechts oben ist ungefähr die Anzahl Seiten, die Google bei uns indexiert. Dies, da wir auf jeder Seite das Wort „namics“ drauf haben.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Mensch oder Maschine?

Der Turing-Test setzt einen Menschen an ein Terminal und dieser muss nach einer Textkommunikation sagen, ob die antwortenden Gegenstellen ein Computer oder ein Mensch ist.

Einen moderne Form davon sind CAPTCHAS: Completely Automated Public Turing Test to Tell Computers and Humans Apart. Dabei geht es um „Rätsel“, die ein Mensch fast immer gut lösen kann aber ein Computer nicht. So beispielsweise der Text auf einer Abbildung mit einer verzerten Schrift. Um in diesem Fall die Accessibility sicherzustellen, werden alternativ auch Audio-Test eingesetzt, so bei Hotmail.

Brauchen tut man CAPTCHA dort, wo Crawler nicht hin sollen. Beispielsweise bei der Anmeldung für einen E-Mail Account bei Yahoo!, bei Online-Abstimmungen oder gegen SPAM u.ä.

Die Frage nun, wie knacke ich ein CAPTCHAS? Der beste Weg — neben einem existierenden Outsourcing in Billiglohn-Länder — ist ein Spiel so wie: „The ESP Game“ (Update: Orignial nicht mehr online, hier die Nachmache). ESP hat zwar „nur“ zum Ziel die 98% der Bilder im Web ohne ALT-Attribut mit Texten zu versehen (über einen witzigen Wettbewerb, bei welchem zwei Mitspieler so lange Worte tippen bis es eine Überstimmung gibt). Dasselbe geht aber für CAPTCHAS… Denkzeit von Menschen über Spiele klauen.

Und hier der obligate Artikel: [pdf, 108k] Telling Humans and Computers apart.

Und hier noch weitere „Streiche“ von Luis: Menschliche Rechenzeit nutzen

CMS für Bierdeckelbeisser

Bernd und ich sind der BKW an einer CMS-Evaluation dran. 12 Hersteller anschreiben, Excel-Auswertung mit Review-Board und QS etc. Gestern und heute hatte ich noch Herstellerpräsentationen und somit meine Dosis wiedereinmal erhalten.

Doch bei der vierten und letzten Präsi — ich lag schon ziemlich gemütlich zurück — war da plötzlich ein Techie, der tippte so schnell wie ein Telex ab dem Lochstreifen liest (wer das von Euch noch kennt). Anstelle „asdasd“ reinzuschreiben hauter er überall echte Texte rein. Das war schon ganz erfrischend.

Als er beim Thema „Autoreninterface“ (im Publikum sassen PLs und Webautoren) aber plötzlich einen TCL-Client in einer UNIX-Shell öffnete sass ich doch glatt auf. Weiter gings mit connect localhost://3001 und einer flotten Query um den Inode des Content-Objektes zu finden. Dann ein ellenlanger Änderungsbefehl und eine Art Commit (danach sah es zumindest aus). Refresh im Browser nebenan und alle Leute waren gnadenlos verwirrt und verloren.

Das ist noch was für echte Techies…

Veröffentlicht unter Allgemein | Verschlagwortet mit

Optimierung für unseren Planeten

Bei ALTANA machen wir ein grosses Intranet. Gross heisst im Endausbau für über 5000 Benutzer. Abgesehen davon dass wir viele Obtree Lizenzen brauchen, weiss ich dass Adi bei sunrise mit 3 LINUX Kisten und Obtree noch viel mehr Benutzer bedient. Daher habe ich mir nicht viel mehr dabei gedacht.

Als der Kunden dann aber wissen wollte, wie gross der DB-Server sein muss, kam ich schon ein bisschen in’s Grübeln… Ein Excel-Sheet später einigte ich mich auf 275 SQL-Reads/Sekunde und 21 SQL-Writes/Sekunde und eine maximal genutzte Bandbreite von 2339 KB/Sek.

Und weshalb erzähle ich das? Weil ich zwar skaliere, nicht aber optimiere und dabei ist mit ein Artikel von Google in den Sinn gekommen. Die Jungs wissen für eine einzelen Abfrage wie viele Prozessorzyklen (je nach CPU-Architektur) benötigt werden, wie viele TLB-Misses auftreten und welches die Leistungsaufnahme der Rechner und damit die Wäremeentwicklung im Rack ist. Ziemlich spannend: [pdf, 104KB] Web Search for a Planet: The Google Architecture.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Whitepaper Enterprise Information Retrieval

„Die richtigen Informationen zum richtigen Zeitpunkt am richtigen Ort“ – dies ist heute sowohl für Unternehmen als auch für deren Mitarbeiter zunehmend ein zentraler Erfolgsfaktor. Das namics Whitepaper erklärt die grundlegenden Konzepte von Suchmaschinen, deren unterschiedliche Anwendungsbereiche und aktuelle Konzepte der Implementierung und des Einsatzes.

[pdf, 735K] Whitepaper Enterprise Information Retrieval

So kommen Sie in die Suchmaschinen

Dass Benutzer über Google und Co. kommen wissen in der Zwischenzeit alle — Sie tun es selbst auch. Doch noch immer gibt es viele Angebote, welche Ihre Suchmaschinentauglichkeit (so dass der Crawler überhaupt was findet) aber auch die Optimierung (damit das Ranking dann auch gut ist). Der meiste Teil der Arbeit ist normales Handwerk und hat mit guter, defensiver Codierung zu tun.

Hier eine Präsentation an der IEX gehalten mit einem Überblick und vielen Tipps und Tricks: [pdf, 1.6 MB] So kommen Sie in die Suchmaschinen

Präsentation Top 10 Internet Standards (IEX 2004)

Jedes Jahr wieder an der Internet Expo ein Blick in die milchige Glaskugel. Dieses jahr neu im Angebot:

– Multimodal Interaction
– WAI
– PDF/Acrobat 6
– Blogging und RSS
– Digital Rights Management
– ENUM/E.164
– Anti-Spam
– Google Web API
– Grid Computing
– SOAP 2.0/XMLP

Und hier die Präsi: [pdf, 816 KB] Top 10 Internet Standards 2004

So kommen Sie in die Suchmaschinen (IEX 2004)

Eine umfassender Leitfaden mit Beispielen, wie Ihr Webangebot in den Suchmaschinen besser platziert ist. Fokus dabei ist (generische) Suchmaschinenoptimierung, doch es erfolgt auch ein kurzer Blick ins (bezahlte) Suchmaschinenmarketing.

Gegliedert in die folgenden Schritte:

– Definition Rahmenbedinungen
– Auswahl Suchdienst
– Ausnahme Suchdienst
– Auswahl Suchbegriffe
– Top Positionen
– Attraktivigtät der Treffer
– und ein Exkurs: Wie funktioniert eine (Volltext-)Suchmaschine.

Und hier die Präsi: [pdf, 1.6 MB] So kommen Sie in die Suchmaschinen

PS: Damals noch nicht existent aber wichtig heute ist Google Sitemaps.

Seite 218 von 219« Erste...102030...215216217218219