alles-mit-links

Apache Server Log Dateien mit Piwik analysieren


alles-mit-links » Webseiten-Analyse » Apache Server Log Dateien mit Piwik analysieren

Eigentlich ist das Staistik PlugIn für WordPress (WordPress.com Stats) ganz gut, und die ermittelten Daten sind ganz hilfreich. Das Problem mit WordPress.com Stats aber ist, dass die erfassten Daten auf US-Servern gespeichert werden, was problematisch im Bezug auf den deutschen Datenschutz ist. Richtig problematisch wäre es, wenn die Daten dann noch in Ami Land ausgewertet würden. Google Analytics ist da ja auch nicht ganz Datenschutz konform.

Da ich einige Blogs habe, und auch ein bischen wissen will, was da los ist, Braucht es nunmal ein möglichkeit, die Daten auszuwerten, und da der Apache Webserver jeden Zugriff mitschreibt, ist das eine ganz ordentliche Datenbasis, wenn auch schwer auszuwerten.

Die Open Source Web Analytics Software Piwik kann aber inzwischen auch diese Server Log Daten analysieren, und wie das bei meinen Blogs funktioniert, und welche Wege dazu beschritten werden mussten, darum geht es in diesem Beitrag.


Von der Idee zur Wirklichkeit

Schon vor ein paar Jahren hatte ich mir ein kleines Programm geschrieben, um die Webserver Log-Dateien auszuwerten. So richtig zufrieden war ich damit aber nie, weil noch viel zu viele Zugriffe von Bots und Spidern im Datenbestand vorhanden waren.

Das Ergebnis waren dann viel zu hohe Besucherzahlen, so wie bei dem PlugIn StatPress, was so nicht befriedigend war.

Bovor wir hier auf die Realisierung einer Auswertung der Server-Logs mit Piwik eingehen, schauen wir uns ersteinmal an welche Daten wir auswerten können, und auf welche Informationen verzichtet werden muss.

Diese Daten sind in den Server-Log Daten enthalten

  • IP
  • Datum / Uhrzeit
  • Referer
  • Request
  • User Agent
  • Host

Diese Daten sind in den Server-Log Daten nicht enthalten

  • Seitentitel
  • Ausgehende Klicks
  • Auflösung Monitor
  • PlugIns

Wer auf Ausgehende Klicks nicht verzichten will, z.B. um Affiliate Links zu tracken, der sollte Piwik normal betreiben und die Daten mit dem JavaScript erfassen, oder Affiliate Links über eine Zwischenseite go.php oder klick.cgi weiterleiten lassen.

Sonderfall

Da ich einige Nischenseiten auf dem selben Server betreibe, habe ich, vermutlich andere auch, das Problem, das aufgeschaltete Domains sich nicht separat per Import-Script in die Piwik Datenbank laden lassen.

server-log-splitter

Die Lösung bestand darin, selber ein kleines Programm zu schreiben, welches die Log-Datei des Webservers splittet, und mir für jede Domain eine eigene Log-Datei erstellt. Diese können dann mit dem Piwik eigenen Python Script importiert, und der entsprechenden Piwik ID zugeordnet werden. Das klappt hervoragend, läuft fast ganz automatisch, und sortiert noch ein paar Sachen aus, wie Cronjob Zugriffe, Google-Bot, etc., die in der Statistik nicht benötigt werden.

Ist dieses Modell als Webseitenstatistik aussagekräftig?

Interessant ist die Frage, ob die mit Piwik aufbereiteten Daten aussagekräftig sind, und wie sie im Vergleich zu anderen Variationen, Piwik mit JavaScript, Google-Analytics, WordPress.com Stats, wichtige Informationen über die Webseite geben.

Schockierende Daten

Ich war doch sehr erstaunt zu sehen, wieviele Zugriffe es auf die wp-login.php pro Tag gibt. Teilweise versuchen da irgenwelche Amerikaner und Ukrainer 18 Stunden lang im Minutentakt zuzugreifen. Einige von diesen Zugriffen kammen immer wieder über die selbe IP-Adresse, und konnten, ach ja – dank Piwik, inzwischen blockiert werden.

Ebenso auffällig sind die Versuche, bei guten Artikeln Trackbacks zu hinterlassen. Diese kommen aber quer aus allen Ländern, und man muss wohl damit leben, denn man kann z.B. ganz Schweden aussperren.

Suboptimale Darstellung der Daten

Will man wissen, welche Seiten bevorzugt von den Usern angesehen werden, dann ist die Darstellung eben dieser Daten doch recht kompliziert.

piwik-absprungrate

Gerade im Zusammenhang mit WordPress macht es kein Vergnügen, sich stundenlang durch die Baum Ansichten (TreeView) zu klicken. Da fand ich WordPress.com Stats doch deutlich einfacher und aussagekräftiger, aber einen Tod muss man wohl immer sterben.

Ansonsten alles paletti mit der Webstatistik

Die Restlichen Informationen, wie die Besucher über Links, die von den Suchmaschinen, etc. sind absolut in Ordnung, und man kann prima damit arbeiten.

Das sind für mich auch die wichtigsten infos, weil sie Zeigen, ob Backlinks Besucher bringen, und wie man mit seinen Keywords Leser über die Suchmaschinen bekommt.

Fazit

Apache Server Log Dateien mit Piwik zu analysieren ist eine brauchbare Methode, wenn auch nicht in allen Aspekten optimal. Manche Infos gehen mehr in die Tiefe und zeigen die Spam und Hack Versuche besser auf, als WordPress.com Stats.

Da ich Google Analytics nicht verwende, kann ich dazu auch nicht viel sagen. Sicher wird Analytics noch einiges mehr über Besucher und deren Verhalten auf der Seite hergeben, doch wie gesagt, da bin ich nicht im Bilde.

Weitere interessante Beiträge

Dieser Beitrag wurde am Sonntag, 27. Januar 2013 um 19:58 Uhr veröffentlicht und wurde unter der Kategorie Webseiten-Analyse abgelegt. Du kannst die Kommentare zu diesen Eintrag durch den RSS-Feed verfolgen.

« Ein Platinmünze verkaufen für neue Kredite – Sommer 2013 und Algenwucherungen im Pool »

1 Kommentar

  1. Hi everyone, it’s my first pay a quick visit at this site, and post is genuinely fruitful designed for me, keep up posting these types of posts.

    Kommentar: Hydraulik Poznan – 28. Januar 2013 @ 01:59

Die Kommentarfunktion ist zur Zeit leider deaktiviert.


 

© 2010 alles-mit-links – by AGENTUR Matthias Griesbach | www.alles-mit-links.net | BLACKINK WebKatalog