technikum29 

 
 

Webalizer-Webseitenstatistik

Die Webseitenstatistiken, die 1&1 dynamisch generiert, sind zwar ausserordentlich informativ und geben eine ganze Menge Informationen aus, doch lässt sich dieses Auswertungsprogramm leider nicht steuern, sodass sämtliche Webserveraktivitäten aufgelistet werden, nicht nur die realen Homepagebesucher.

Da 1&1 die Roh-Logdateien bereitstellt, habe ich ein Programm erstellt, welches diese vom Server holt, dekomprimiert und zu einer großen Logdatei zusammensetzt, die anschliessend von dem sehr bekannten Webserverstatistik-Analysetool Webalizer übergeben wird, welches sie mithilfe der eingestellten Parameter analysiert und entsprechende Ergebnisse speichert.

Statistik anschauen

Diese Statistiken sind nun erreichbar unter technikum29.de/etc/logs/webalizer.

Webalizer-Hilfe

An dieser Stelle soll geklärt werden, was es mit Begriffen wie Hits, Files, Pages oder auch Visits auf sich hat.

Jahresübersicht

Auf der Startseite der Webalizer-Auswertung kann man ein Jahresübersichtsdiagramm und darunter eine Tabelle sehen. In dieser Übersicht lässt sich der Besucherzuwachs leicht erkennen ;)
Von hier lässt sich die Anzeige auf einen Monat eingrenzen, in dem man einfach auf die entsprechende Reihe in der Tabelle klickt.

Monatsübersicht

Die horizontale kleine Linkleiste oben (in Rot) dient zur schnellen Navigation in dieser Seite:

Daily Statistics
Monatsübersichtsstatistik (mit Grafik): Eine Übersicht an Besuchen, KBytes, ... pro Tag.
Hourly Statistics
Tagesübersichtsstatistik (mit Grafik): Die Grafik ist meiner Meinung nach am interressantesten: Sie gibt Einblick, um welche Uhrzeit (in dem ausgewählten Monat) die meisten Zugriffe stattfinden.
URLs (Top 20 of ... URLs)
In dieser Tabelle sind die am Meisten aufgerufenen Internet-Adressen (URLs) aufgelistet. Das bedeutet, dass die Seite, die ganz oben steht, am meisten aufgerufen wurde (Spalte Hits = Aufrufe).
Entry (Top .... of Entry Sites)
Eine Übersicht der Eingangsseiten, nach der Anzahl der Aufrufe geordnet.
(Im Glossar steht mehr zu Entry-Seiten)
Exit (Top .... of Exit Sites)
Eine Übersicht der letzten aufgerufenen Seiten eines Besuchs, nach der Anzahl der Aufrufe geordnet.
(Im Glossar steht mehr zu Exit-Seiten)
Referrers (Verweisende Seiten)
Die Seiten, über die die Besucher deiner Homepage gekommen sind, geordnet nach der Anzahl der Aufrufe.
(Im Glossar kannst du mehr zu Referrers erfahren)
Search
Eine ganz besonders interessante Tabelle: Die Wörter, die Besucher deiner Homepage in einer Suchmaschine eingegeben haben. Hierbei wird sich die Referrer-Funktionalität zu nutzen gemacht und anhand eines Suchmaschinenindexes werden Suchmaschinenadressen aufgeschlüsselt (nur die verbreitesten).
User Agents
Browser. Eine Übersicht, wie oft bestimmte Browser beim Besuch der Seite benutzt wurden.

Glossar

Hit
bedeutet Anfrage. Gemeint ist damit eine Anfrage an den Server an eine einzelne Datei. Im Gegensatz zu File und Page werden hier jedoch auch wirklich alle Anfragen (Requests) mitgezählt, also auch Dinge wie Weiterleitungen und Fehlerseiten, bei denen kein Inhalt übertragen wurde.
File
File = Datei. Im Gegensatz zu Page sind Files alle Arten von Dateien, also nicht nur Webseiten, sondern auch Bilder, Programme und was sonst noch so nettes auf dem Server rumschwirrt.
Page
Page heisst quasi Webseite, und mehr nicht. Im Gegensatz zu File meint Page nur Webseiten, also Dateien mit den Endungen .htm, .shtm, usw.. Bilder oder Programme zählen beispielsweise nicht als page.
Visit
Visit lässt sich ganz wörtlich übersetzten und ist auch so gemeint: Ein Besuch der Seite. Wenn ein Betrachter deine Seite besucht, wird er sich ja meistens verschiedene Webseiten anschauen. Anhand mehrerer Faktoren versucht das Programm zu einen wirklichen einzelnen Besuch deiner Homepage zu erkennen. Entsprechend siehst du also, wie viele Besucher wirklich deine Homepage gesehen haben (keine Garantie auf den Wert ;).
unique
unique heißt (englisch) "einzeln". Wenn du also Total unique User Agents liest, weißt du, dass die dazugehörige Zahl die insgesamte Anzahl der wahrgenommenen Browser bedeutet.
...per Day
bedeutet ...pro Tag. Beispiel: 20 Hits per Day = 20 Anfragen pro Tag.
Byte
Datengrößenzähleinheit, solltest du ja kennen. Webseiten an für sich sind nicht unglaublich groß, beispielsweise besteht diese Webseite hier aus etwa 15Kbyte. Bilder sind da schon etwas größer, ab 120Kbyte wird es jedoch problematisch (ein Modem-Nutzer muss dann nämlich schon ziemlich lange auf ein Bild warten).
Reponse Code
Reponse Code ist das gleiche wie ein Statuscode, auch HTTP-Statuscode. Mithilfe dieser dreistelligen Zahlen kann eine Anfrage auf den Server kategorisch eindeutig eingeteilt werden, z.b. dahin, ob sie erfolgreich war oder ob es diese Seite nicht gab. Im folgenden die wichtigsten Statuscodes, die du wahrscheinlich am öftesten zu sehen bekommst:
200 - OK
Dieser Code sollte eigentlich am meisten zurückgegeben werden. Er bedeutet, dass der Server die Anfrage des Browsers verstanden hat und die angeforderten Dateien sendet.
301 - Moved Permanently
Leitet den Browser zu einer anderen Webseite um.
304 - Not Modified
Der Browser hat die Seite, die er angefordert hatte, noch im Cache gespeichert. Nun fragt er den Server an, ob sie sich geändert hat, und er antwortet ihm mit dem Statuscode 304: "Nein, die Seite hat sich in der Zwischenzeit noch nicht verändert". Daher braucht die Datei nicht nochmals runtergeladen werden, was Traffic spart.
401, 403 - Unauthorized, Forbidden
Beides bedeutet, dass die Seite passwortgeschützt ist und der Browser keine Bereichtigung hat, sich die Seiten anzuschauen (z.b. falsches Passwort).
404 - Not Found
Dies ist auch einer der häufigsten Codes. Er weist den Browser darauf hin, dass die Datei nicht existiert, was z.B. bei einem falschen Link oder einer Eingabe der Adresse per Hand passieren kann.
Für eine komplette Liste aller HTTP-Statuscodes siehe auch SelfHTML.
Entry Page
Mit Entry Pages sind diejenigen Webseiten genannt, mit denen ein Besucher seinen Besuch auf der Webseite startet. Zum Beispiel: Durch eine Suchmaschine kommt ein Besucher auf irgendeine Unterseite der Homepage. Von dort aus navigiert er sich weiter, usw. Die Entry Page ist hierbei diese Unterseite, über die der Besucher zur Homepage gekommen ist.
Die Top-Entrypages sind meistens auch die meistbesuchten Seiten, über die die Besucher beispielsweise über Suchmaschinen kommen.
Exit Page
Dies ist ganz genau das Gegenteil von Entry Page: Es ist die letzte Seite, die ein Surfer gesehen hat, bevor er seinen Besuch der Homepage beendet hat. Dies ist scheinbar öfters eine Seite wie das Impressum oder die "Wir Suchen"-Seite, da sie ja auch am Ende der Navigation stehen.
Total Sites
Site ist hier nicht zu übersetzten mit der Webseite, sondern viel mehr mit dem Besucherrechner. In diesen Tabellen geht es um die Besucher der Homepage.
User Agent
Nein, es ist kein Agent, sondern dieses Wort ist lediglich eine Art "Synonym" für Browser. Genaugenommen ist der User Agent jedoch eine bestimmte Zeichenfolge, anhand der man den Browser, das Betriebssystem und manchmal noch viel mehr herausfinden kann. Bei einer Serveranfrage wird dieser standartmässig mitgesendet, sodass sich leicht herausfinden lässt, welche Prozentsätze welche Browser vertreten. Siehe dazu auch SelfHTML: Clientenidentifikation