Ansätze für eine bessere Relevanzgewichtung (und Vortrag: Wie funktioniert eigentlich eine Suchmaschine?)

Bei meinem Post über den Begriff der Relevanz, versprach ich die Verbesserungsmöglichkeiten für Suchmaschinen noch genauer zu beschreiben. Gleichzeitig habe ich einen Vortrag vorbereitet, den ich heute in Winterthur halten werden: „Wie funktioniert eigentlich eine Suchmaschine?“. Neben Erklärungen die Checklisten für Suchmaschinen-Optimierung auf dem neustem Stand [pdf, 2,2MB]

Das folgende Bild dient zur Übersicht über die Generationen von Ansätzen. Wichtig ist der weinrot herhorgehobene Teil in jedem Block.

i-83b9402973c01037ad729016a0473e3d-einfluss_auf_relevanz-thumb.png

>> 1. On Page
– Allererste Generation. Gibt es bei einer Internetsuche kaum noch; Zumindest nicht ohne Kombination mit anderen Ansätzen.
– Suchmaschine extrahiert (nur) den Inhalt der Zielseite und gewichtet die Textkomponenten nach Auffälligkeit: Begriff im Domänennamen, URL und im HTML Page Titel sehr hoch, H1 hoch, H2 bisschen weniger hoch etc. Je weiter oben auf der Seite desto höher das Gewicht als unten etc.
– Typischer Algorithmus: Tf-idf (Termfrequenz über inverse Dokumentfrequenz)
– Sehr anfällig auf Manipulationen der Zielseiten („weisser Text auf weissen Grund“)

>> 2. Off Page (Reputation)
– Die war mal das Alleinstellungsmerkmal von Google. Die Verlinkung einer Seite macht eine Aussage über deren Wichtigkeit und der Linkkontext (Anchor, den den Link umgebenden Text oder der im im DOM-Tree nächsten Text) wird der Zielseite zugerechnet.
– Jede Seite hat einen Gesamtwert (normiert auf maximal 100), welcher an alle abgehenden Links verteilt wird.
– Entspricht dem Reputationssystem von wissenschaftlichen Papers (je öfters zitiert, desto wichtiger) aber auch einem Random Surfer (wenn eine Site häufiger und/oder von häufig besuchten Sites verlinkt ist, so kommt ein zufälliger Surfer auch häufiger vorbei).
– typischer Algorithmus: PageRank von Google oder HITS.
– Qualität der Resultate und die Stabilität gegenüber Beeinflussung ist vom „jungen“ Google bekannt.

>> 3. Mehr vom Suchenden wissen
– Ab hier wird versucht, den Suchenden bei der Beantwortung einzubeziehen. Ziel sein subjektives Informationsbedürfnis herauszufinden.
– Nach der Query wird nachgefragt. Z.B. suche ich nach „Bank“, so könnte das System fragen, ob die etwas für den Garten suche oder ein Finanzinstitut. Ein sehr schönes Beispiel sind die „disambiguations“-Seiten bei Wikipedia. Z.B. wenn ich nach Läufer suche.
– Das selbe Ziel verfolgt die Entitätenerkennung. D.h. das Suchsystem vermutet einen semantischen Umstand erkannt zu haben und zeigt Direkttreffer an, die der Suchende einfach auswählen kann – auch eine Art der Nachfrage. Beispiele die Yahoo Shortcuts oder Google Web Search Features.
– Andere Ansätze mit Spracherkennung (Linguistik) u.a. sind im Einsatz.

>> 4. Mehr über den Suchenden wissen
– Das ist zur Zeit im Trend. Suchmaschinen sammeln Query-, Klick- und Surf-Daten und ordnen diese Usern zu. Und zwar „big time“.
Google Desktop bietet an, gar den Index meiner Festplatte zu Google zu schicken und Yahoo kauft Dienste wie http://del.icio.us/ um an mehr gute Daten zu kommen. Yahoo 360 speichert den Inhalt meiner Seiten die ich als Bookmarks abgelegt habe (zur Analyse) und kennt auch Leute, die ich als Freude verbunden habe und deren Links/Websites.
– Hier hängt das die ganze Identiy-Diskusson hinten dran
– Klar sichtbar ist, dass Google immer weiter weg geht von 2. und immer mehr Popularität (auf Basis der konsolidierten gesammelten Daten) macht. D.h. nicht die Verlinkung aber die realen Anzahl der Besuche einer Site ergeben deren Wichtigkeit. Also weniger Arbeit für Suchmaschinenoptimierer und mehr gute und auch regelmässig frische Inhalte bitte.

>> 5. Nicht abgebildet, da noch weiter weg sind Microformats resp. Systems der Bottom-Up Klassifizierung, welche Inhalte semantisch ergänzen. Beispielswiese über Tags. Wichtig aber aus meiner Sicht eigentlich Teil von 1.

Online Classifieds mit vast.com

Die Geschwindigkeit bleibt. Bei Google Base muss der Inserent die Insertions-Daten selbst hochstellen, bei edgeio werden Insertionen in Blogs berücksichtigt und vast.com fährt nun einen „normalen“ Suchmaschinen-Ansatz. Besser als normal gelöst ist aber a) ein intelligenter Crawler der auch Formulare ausfüllt (nach eigener Angabe), b) eine (so wie es aussieht) funktionierende Meta-Daten Erkennung und c) eine gute Duplettenerkennung (70% nach eigener Angabe seien Dupletten resp. Similikate).

Zudem eine erfrischend verständlich gemachte, funktionsreiche Webanwendung und ein sehr liberale API mit den neckischen Link-Titel „Steal This Site“ (unbegrenzte Nutzung ohne Kosten). Ist wirklich ein intensiver Blick wert.

i-f322981aa2ccfd61823d338e687ad0dd-vast-com-suche-volvo-thumb.png

Hier der der Blog des Gründers (Naval Ravikant) und der offizielle Vast-Blog.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Vertrauen der User gewinnen im Internet [Vortrag]

Morgen halte ich an den Telematiktagen in Bern um 13:45 Uhr einen Vortrag. Thema ist Vertrauen im Internet. Nicht verkaufen jetzt und hier aber Kunden langfristig gut beraten, ehrlich sein, da sein für Kunden u.s.w. So wie im echten Leben, aber halt Online. Die Tipps sind „einfach“ aber sehr oft missachtet:

– Die Website funktioniert technisch (mit gebräuchlichen Web Browsern).
– Das Angebot ist verfügbar.
– Die Website ist einfach benutzbar (Usability).
– Die Inhalte sind für duie Zielgruppe relevant.
– Der Nutzer versteht die textlichen Inhalte (niveaugerechte Sprache).
– Die Inhalte sind aktuell.
– Der Dialog der User mit dem Absender ist möglich.
– Die visuelle Gestaltung ist mediengerecht.
– Das Angebot stimmt mit anderen unternehmensspezifischen Kontaktpunkten überein.
– Die Website ist suchmaschinentauglich.

Da ich parallel zum Vortrag zusammen mit Marco auch einen Artikel für den Organisator geschrieben habe, gibt es den Vortrag sozusagen auch im Volltext.

> Präsentation der Telematiktage „Vertrauensförderung im Internet – Ihr Schlüssel zum langfristigen Erfolg.“ [pdf, 1,7 MB]

> PDF des Artikel im Organisator „Website: Vertrauen der User gewinnen“ [pdf, 159KB]

> HTML des Artikel auf der Website des Organisators.

Webserver on a Stick (WOS) — Superpraktisch

Nicht nur was für Nerds aber sehr praktisch für Demos, Arbeiten auf einem fremden Rechner oder für die Verteilung von Anwendungen.

Eine Zusammenstellung der Software-Komponenten, so dass ich in einem Verzeichnisbaum (ca. 110MB — kann verschlankt werden; sorry, bei dieser Quelle nur für Windows) eine Apache Webserver, ein MySQL DBMS, PHP und PHPMyAdmin habe. Dazu ein kleines (nicht wirklich notwendiges) Programm um einige Sachen einstellen zu können (oder sonst rein in die Konfig-Dateien). Keine Installation nur kopieren und los: Webserver on a Stick (WOS).

Natürlich kann ich das Paket auch selbst zusammenstellen aber die Firma CH Software hat das verdankenswerterweise unter der GNU GPL schon gemacht. Zusätzlich haben sie ein Paket gleich mit Typo 3 drin (u.a.). Sehr änhlich ist WAMP, aber WOS hinterlässt null Spuren auf dem Rechner. Sehr ähnlich aber umfassender ist XAMPP.

Gestern genutzt um WordPress in 5 Minuten vollständig zu installieren um während einer Zugfahrt Templates anzupassen. Einziger „Eingriff“ war (da ich schon einen http-Server auf Port 80 hatte) „Listen 8080″ in httpd.conf. Danke für die Arbeit.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Am 8. März 1999 ein paar Jahre vorausgedacht.

Heute ist der Name der Domäne www.ie7.com klar zuzuordnen, doch die aktuelle Seite die dort läuft erstaunt ein bisschen:

i-9eb61f4f301933a6b9bd37615da0b33c-www-ie7-com-thumb.png

Reserviert wurde die Domäne am 8. März 1999 von Mark Sheppard der englischen Firma Digital Dataflow Ltd.

Ähnlich erging es der Schweiz bei der Verschiebung der Expo.01 zu Expo.02, weil die Domäne der Verschiebung schon bei Herrn Patrick Stebler weilte. Doch dort sprang damals Switch über den eigenen Schatten und vergab die zweistellige Domäne 02.ch. Solche waren in den damaligen AGBs von Switch nicht geregelt (und wurden schon damals den Kantonen und dem Bund gegeben). Heute (Version 7, Stand 1. Oktober 2005) darf das Amt für Kommunikation (wer ist denn das?) Namen mit weniger als 3 Zeichen bewilligen.

Veröffentlicht unter Allgemein | Verschlagwortet mit

Was muss ein Weblog technisch können/bieten? [Antwort]

Vor einiger Zeit habe ich — danke für Eure rege Mithilfe — eine Umfrage gemacht, was ein Weblog aus technischer Sicht minimal bieten muss. Ausserhalb vom namics Weblog wurde die Diskussion bei Matthias und Roger geführt. Die konsolidierten Resultate wollte ich eigentlich in mein (in der Zwischenzeit gut gelagertes) Whitepaper Corporate Weblog einbauen. Ich gewinne nun aber ein bisschen Luft mit einer Direktpublikation…

Ein paar Punkte, die von meiner ursprünglichen Idee abweichen.

Ich bevorzugte ursprünglich „sprechende“ URLs. Das teilten die meisten Leute nicht (einige aber schon wegen Suchmaschinen). Vorschlag: Kurz muss sein und IDs tun es auch.

Trackbacks hatte ich mal als MUSS Anforderung. Hier fanden die meisten Leute es sein unwichtig. V.a. auch problematisch wegen Spam. Soll es so sein. Tschüss.

Neu dazugekommen ist ein Spamschutz für Kommentare und evt. auch für Trackbacks. Das hatte ich glatt vergessen.

Auch neu dazugekommen ist die Abonnierbarkeit resp. die E-Mail Benachrichtigung für Kommentare nach meinem Kommentar (auf einem fremden Weblog). Auch das hatte ich vergessen und bei unserem Blog danach noch eingebaut.

Also hier mein Versuch der Liste zu „Was muss ein Weblog technisch können?“:

[MUSS] 1. Ein einfaches Eingabe-System für Text, Bilder und Dateien.

[MUSS] 2. Jeder Post trägt Titel, Text, Publikationsdatum und -zeit sowie einen Autor. Idealerweise führt ein Link direkt zu Biographie und Kontaktangaben des Autoren.

[MUSS] 3. Jeder Eintrag hat einen stabilen Link (Permalink), welcher nach der Erstpublikation nicht mehr verändert wird. Dieser Permalink ist kurz und einfach memorisierbar.

[MUSS] 4. Der Inhalt ist als (valider) RSS- und Atom-Feed verfügbar. Autodiscovery, die Benennung des Feed-URL im HTML-Code der Seiten, ist unterstützt. Validierungstest bei feedvalidator.org.

[MUSS] 5. Jeder Eintrag besitzt eine öffentliche Kommentarfunktion. Diese kann auch ohne Registrierung genutzt werden und erlaubt eine Vorschau um Fehlpublikationen zu vermeiden.

[MUSS] 6. Das Weblog hat ein Archiv. Zeitlich organisiert und evt. zusätzlich für die Kategorien.

[MUSS] 7. Bei Kommentar-Einträgen wird der Autor automatisch benachrichtigt. Kommentierende können sich selbst auf die Benachrichtigung abonnieren, wenn zu ihrem Kommentar neue Kommentare hinzukommen. Via E-Mail oder via RSS/Atom.

[KANN] 8. Das Weblog bietet eine Volltext-Suchfunktion und Posts können Kategorien zugeordnet werden. Die Kategorien werden als Tags publiziert.

[KANN] 9. Immer wichtiger ist eine Funktion (z.B. Captcha), um Spam in den Kommentaren oder den Trackbacks zu vermeiden.

[KANN] 10. Der Weblog benachrichtigt relevante Hubs mittels einem Update-Ping über XML-RPC.

Sonntag Abend und schon müde

Da wollte ich mich über den Schnee informieren und gelange über news.google.ch auf das Newsportal von SF Schweizer Fernsehen. Die Deeplinks ins Archiv sind jedoch kaputt:

i-ef3878e7483075aeb47e5c896985595a-sf_tagesschau_archiv-thumb.png

Auch die Homepage schafft es nicht, den Newsbereich „anzuziehen“ und landet in einem Timeout. Leider antwortet der Socket aber schon und somit alarmiert das Monotoring wahrscheinlich nicht. Also nicht ganz kaputt aber nur fast.

i-4a8954057704c8273b3b6d17f7bca50f-sf_aufruf_tagesschau-thumb.png

PS: Da gibt es noch Chancen für die Verleger ;-)

Seite 177 von 210« Erste...102030...175176177178179...190200210...Letzte »