Web Statistik: Begriffe, Kennzahlen und Lügen (aka Web Analytics oder Online Business Intelligence) – Teil 3 von 3

Die häufigen Lügen und Fehler bei der Erfolgsmessung von Webanwendungen. Letzter und dritter Teil einer Serie über Web Analytics resp. Online Business Intelligence. In einem ersten Teil erklärte ich bereits einige zentrale Begriffe und im zweiten Teil geeignete Kennzahlen.

Die Erfahrungen zum folgenden Post stammen (leider) aus dem realen Leben. Wer seine Erfolgskennzahlen gut gewählt hat, ist kaum von den “Lügen” betroffen. Also sozusagen ein Post für Leserinnen und Leser, die noch in der Fieberkurven-Welt leben.

Es gäbe zynischere Beispiele, aber hier ein einfacher Case, der ein Teil des Problems zeigt. Annahme: Ich werde gefragt, wie viele Besucher der namics Weblog hat? Die Graphiken unten zeigen die Visits die Woche 5. bis 11. Februar, gemessen mit zwei verschiedenen Tools.

i-ec4bf8a0d59d73ba7c8843a6204a7e8f-blog_stat_log_week.gif

i-711e6cb18c3020b8c9642c6fe02a2b2f-blog_stat_client_week.gif

So könnte ich also sagen ich hatte am 6. Feburar 6421 Visits oder ich hatte eben 991 Visits. Welche Zahl würden Sie wählen? Die obere Messung basiert auf der (serverseitigen) Logdatei des Webservers und zählt die Anzahl unterschiedlicher IP-Adressen der Besucher. Eine Adresse ist dann „unterschiedlich“, wenn diese während einem Zeitintervall von 30 Minuten nicht mehr gesehen wurde („Timeout“). Die untere Messung erfolgte clientseitig und misst als einzelnen Besucher jedes, pro Kalendertag neu gesetztes Cookie. Die Messung erfolgt also nur, wenn der Client Cookies annimmt und wenn der Client Java Script ausführt. Dies, da der Tracking-Code mittels Java Script in die Seite integriert ist. Quizzfrage: Wo kommt der Unterschied (mehr als Faktor 6) her? Ein Anhaltspunkt gibt zudem der Tagesverlauf der Visits; Also die folgenden Graphiken.

i-adf440ad721e7f2925d42cae36ca28d1-blog_stat_log_day.gif

i-cac83aaf8efcbe51be08ba654718092c-blog_stat_client_day.gif

Nehmen sie an, dass die gemessene Website fast ausschliesslich Besucher aus der Schweiz und auch Deutschland hat. Nun, noch andere Ideen zum Unterschied der Zahlen?

Ausgangslage der Serie war ja ein Mensch der sagte mit über 100’000 Hits pro Monat sei ein wichtiger Karpfen im Teich. Der 6. Februar 2007 generierte auf dem namics Weblog übrigens 42,496 Hits auf dem Server. Nun also los zu dem Lügen der Webstatistik (oder weshalb die meisten Site-Betreiber lieber 6412 anstelle 991 Visits melden ;-).

Teil 3: Lügen resp. häufige Fehler bei der Webstatistik

>> Crawler von Suchmaschinen
Suchmaschinen benötigen Inhalte der Websites möglichst vollständig und aktuell. Aus Sicht des Servers verhalten sich die Teil der Suchmaschinen, welche die Inhalte zusammentragen (die Crawler) ziemlich ähnlich wie ein Webbrowser. Allzu häufig werden diese also in Statistiken mitgezählt. Wie erkennen? Die netten Crawler verlangen ab und zu (resp. zu Beginn der Session) nach der Datei /robots.txt und sie haben eigene User Agent Kennungen die ziemlich sprechend sind. Zudem laden diese typischerweise nur die HTML-Grundseite und binäre Seitenelemente wie PDF herunter, aber keine graphischen Seitenelemente (gif/png/jpg) und keine CSS oder Java Script Includes. Ausserdem interpretieren Crawler kaum Java Script und sie nehmen auch kaum Cookies an. Dies erklärt einen grossen Teil des Unterschiedes oben insb. auch die Tatsache, das es bei der „grossen Zahl“ einen Grundlast auch in der Nacht gibt. Das sind in diesem Fall kaum echte Menschen.

>> Verfügbarkeitsmessung des Servers
Es ist üblich, dass die Personen, welche für den Server-Betrieb verantwortlich sind, Verfügbarkeitsmessungen durchführen. So beispielsweise mit einem Tool wie Big Brother oder Nagios oder mit einem Dienst wie Sysformance oder Keynote. Und was machen diese? Sie fordern alle 5 Minuten oder so eine Datei vom Webserver an um zu sehen, ob das Ding tut. Und bei jedem Mal entsteht ein Hit resp. eine Page Views oder gar ein Visit etc. Hier erlebte ich einmal, dass die „Erfolgs-“Statistik von einer Minute auf die andere um mehr als den Faktor 10 einbrach. Als herausgefunden war, dass diese Last immer ab den selben fünf IP-Adressen kam, war rasch klar, dass die Betriebsleute das Monitoring eingestellt hatten. Erkennen lassen sich diese Dienste sonst wie Crawler.

>> Syndikatoren / Feed-Reader
Dieser Aspekt ist vor allem bei Weblogs (resp. allen Diensten die einen Feed z.B. als RSS oder Atom anbieten). Die meisten Feed-Reader besuchen ihre Quellen zyklisch also alle 60 (oder so) Minuten und generieren damit Traffic. Und dies unabhängig davon, ob sich neuer Inhalt auf der Site findet oder nicht. Grundsätzlich machen Syndikatoren wie Planets (z.B. planet.blogug.ch) oder auch Online Feed Reader wie Bloglines oder Google Reader dasselbe. Bei letzteren könnte der Effekt aber auch in die andere Richtung gehen, da der Planet oder der Online Reader einmal bei mir liest und die Information dann mehreren Lesern zur Verfügung stellt. Das Beispiel des Planets bei blogug ist zudem nicht wirklich das Beste, weil sich blogug bei Änderungen aktiv benachrichtigen lässt und somit keine unnötigen Besuche macht. Die Feed-Reader auf den Clients aber schon. Was tun? Vernünftige Kennzahlen oder wie die Crawlern herausfiltern resp. die Anzahl reduzieren. Meistens führen die Reader auch kein Java Script aus.

>> Inhouse Traffic
Und nochmals ein Klassiker. Die Starseite ihrer ganzen Firma ruft die Website auf und so auch die Webentwickler (intern und extern), die Autoren u.s.w. Wollen und sollen sie diese auch zählen? Ja nachdem filtern sie lieber die entsprechenden IP-Adressen.

>> HTML Frameset
Das Ding ist zwar alt (und sollte nach meiner Meinung nicht mehr benützt werden). Technisch gesehen generiert ein Frameset beispielsweise mit 3 Frames (Top, Naiv, Content) aber pro Ansicht im Browser drei Seitenaufrufe (einen pro Frame). Ohne Gegensteuer verdreifacht sich also die Anzahl der Seitenansichten zu Unrecht. Filtern kann schwierig sein, da kaum alle Seiten gleich viele Frames haben…

>> Reloads
Früher was das mal ein Tick. Mittels des Tags „Meta Refresh“ wurden v.a. Portalseiten alle x Minute clientseitig neu geladen. Das Argument war möglicherweise, dass die Aktualitäten gezeigt werden sollen. Häufig diente es aber auch dazu, den „Traffic“ unsinnigerweise zu vervielfachen.

>> Caching
Je nach Infrastruktur werden gewisse Seiten oder Seitenelemente aus Effizienzgründen in vorgelagerten Proxies zwischengespeichert und lokal ausgeliefert. Das ist auch gut so und wenn kein echter Bedarf besteht, sollten diese Mechanismen auch nicht umgangen werden (z.B: mit Zufallszahl in der URL, mit meta no-cache, mit Manipulation von ETag etc.). Der Webserver (und damit seine Logdatei) sieht die Requests nicht mehr. Ein clientseitiges Tracking aber schon.

>> Echter Beschiss
Und natürlich kann die Statistik absichtlich verändert werden. Es ist technisch sehr einfach möglich auf einem System Last resp. Klicks zu generieren. Aber das wäre wohl ein eigener Post und da haben schon ein paar dazu gesprochen z.B. Bruce Schneier zu Google Click Fraud.

Von Hundertsten ins Tausendste… Aus irgend einem Grund könnte ich zum Thema Lügen noch lange weiter schreiben. Aber belassen wir es mal dabei.

wir unterstützen sg.openwireless.ch

seit heute Nachmittag läuft bei uns im Büro in St. Gallen ein WLAN Router von sg.openwireless.ch.
Ziel des Wireless St. Gallen Projekts ist es möglichst viele Bürgerinnen und Bürger der Stadt St.Gallen gratis mit Internet per Wireless LAN zu versorgen.
Dazu braucht es, neben den drei Sendeanlagen, die den Zugang zum Internet herstellen, viele WLAN Router, die ein flächendeckendes Netz über St. Gallen spannen.
Seit dieser Woche können solche Geräte gekauft werden.

Der Router braucht nur Strom, die Internetverbindung wird per WLAN hergestellt.

i-ee3f852d4db073dca1b7bc61aa211ffb-DSC00920-thumb.JPG

Jetzt braucht es nur noch mehr Leute, die sich am Projekt beteiligen, damit das Netz flächendeckend wird.

Whitepaper „Internet-Zugang ohne Barrieren“ aktualisiert

Nachdem die Richtlinie des Bundes für die Gestaltung von barrierefreien Internetangeboten (P028) vom Informatikrat Bund schon eine Weile verabschiedet worden ist, habe ich dies nun endlich zum Anlass genommen das Whitepaper auf den neusten Stand zu bringen.

Wer einen Überblick über das Thema Barrierefreiheit & Usability erhalten möchte und Argumente für eine barrierefreie Website braucht, findet im Whitepaper Internet-Zugang ohne Barrieren [.PDF 1.3MB] mit Sicherheit wertvolle Informationen!
Viele Spass beim Lesen!

Mobile Internet Nutzer in der Schweiz

Die Schweiz hat zur Zeit ca. 7 mio Mobilfunknutzer, bzw. aktive SIM-Karten. Die meisten Besitzer einer solchen SIM-Karte nutzen das mobile Gerät lediglich zum Telefonieren oder zum SMS’len. Seit ein paar Monaten sind UMTS und EDGE Phones zu erschwinglichen Preisen verfügbar und die Abedeckung der mobilen Breitbandnetze (http://www.umts.ch/index.php?option=com_content&task=view&id=69&Itemid=67) nimmt kontinuierlich zu.

Wie viele Endnutzer wagen sich in die mobile Internet-Welt? Einen aktuellen Hinweis für die Penetration oder die Reichweite, wie man in der Medienbranche sagt, hat Heute sunrise veröffentlicht (sunrise Medienmitteilung vom 22.02.2007). Auf dem sunrise Netz, das eine Kombination aus einem schweizweiten EDGE-Netz und UMTS-Hotspots in den Städten ist, nutzen aktuell 374’000 Nutzer min. einmal pro Monat den mobilen Datenkanal. Dies sind ca. 27.5 % der sunrise Mobile-Nutzer. diese Nutzerbasis nutzt entweder eine Datankarte oder ein Mobiltelefon. Die Frage ist nun, wieviele Datenkarten im Umlauf sind. Da das mobile Breitbandnetz von sunrise vor fast 12 Monaten dem Markt geöffnet wurde (sunrise Medienmitteilung vom 21.11.2005), sind die mobilen Datenkarte eine Teilmenge der 94’000 neuen Kunden. Wenn wir mit 50% rechnen und grosszügig sind, können wir mit ca. 50’000 Datenkarten-Nutzer rechnen.

Adam Riese: Ergibt 324’000 Nutzer, die vom Mobiltelefon aufs Inernet zugreifen (oder das Gerät als Modem nutzen). Dies entspricht 23.4 % aller sunrise Nutzer. Aufgrund von Informationen aus dem nahen Ausland ist diese Zahl realistisch. In Grossbritanien sind es momentan ca. 16 mio (http://www.text.it/mediacentre/wap_figures.cfm) mobile Internet-Nutzer auf Monatsbasis; das entspricht 24.6 %. Bingo!

Fazit: Ein Viertel der Mobilenutzer nutzt mobiles Internet!

Wie sieht es mit der Zukunkft aus? In Japan greifen 55% der Nutzer einmal pro Tag auf das mobile Internet zu (http://www.tecchannel.de/news/international/442785/). Natürlich unter leicht anderen Rahmenbedingungen.

Veröffentlicht unter Mobile

Welcome to the Palace Ballroom [Vortrag]

Wer kennt die ganze Zeile von Ellwood in “The Blues Brothers”?: [Police have surrounded the Blues Brothers concert] … And we would especially like to welcome all the representatives of Illinois’s law enforcement community that have chosen to join us here in the Palace Hotel Ballroom at this time…

Also zur Sache. Ich stehe grad im Palace (fast ein Ballsaal) und beginne mit meinen Grübeleien unter dem Titel: “MIRAKEL WEB 2.0, INTERNET OHNE TECHNIK – VERTRAUEN!”. Und da es sich um die erfreuliche Universität handelt, bin ich erfreulicherweise Professor für einen Abend oder eben Prof. f.e.A.

Aha, weshalb der Post. Anbei findet Ihr meine Präsentation. Wegen den vielen Bildern ist die leider sehr fett geworden. Dies, da ich beschlossen habe um 20:15 nicht mit langen Bullet-Listen anzutreten, aber eher zu Bildern zu sprechen. Nachteil für die Blog-Leser… er steht kaum etwas in der Präsi. Sorry, ich erzähle es aber gerne auch an anderen Anlässen.

Ein paar Thesen hat es drin und zwar die folgenden:

- Informationstransparenz nimmt weiter zu
- Entschleunigung ist nicht in Sicht
- Beurteilung von „vertrauenswürdig“ wird differenzierter
. Communities = Vernetzung
. Menschen sprechen mit Menschen online
- Kunden werden zu „Beratern“ und zu „Lieferanten“
- Geographische Grenzen fallen, Kulturgrenzen bleiben
- Demographie der Internet User
. stärkste Zunahme sind ältere User und User mit einfacher Ausbildung
. „Ausbilder“ ist häufig die junge Generation

Zudem die Aussage das der Begriff “Internet” verschwinden wird, da in der zukunft sowieso überall Online drin ist.

Hier die Präsentation: Internet ohne Technik — Vertrauen [pdf, 8MB]