02-27-2015

Spam-Referrals: Analyse zur Relevanz und was sie dagegen tun können

Joël Bühler

Was sind Spam-Referrals und wie werden Ihre Web-Analyse-Daten davon beeinflusst? Wir haben 10 Millionen Sessions ausgewertet und dabei den Anteil an Spam-Referrals gemessen. Basierend auf unserer Auswertung empfehlen wir, den Spam-Referral Traffic von Ihren Daten in Google Analytics auszuschliessen und halten dafür drei Lösungsansätze bereit.

Spam-Referrals: Analyse zur Relevanz und was sie dagegen tun können

Was sind Spam-Referrals?

Haben Sie sich auch schon gewundert, weshalb in Ihren Google Analytics Reports unter Akquisition -> Verweise die Domain semalt.com auftaucht? Haben Sie sich daraufhin die Webseite semalt.com etwas genauer angeschaut (unsere Empfehlung: Tun Sie das nicht!)? Und haben Sie dann trotzt einigem Suchen enttäuscht festgestellt: Da existiert kein Link zu meiner Webseite? Sie sind nicht alleine mit diesem Problem: semalt.com, kambasoft.com oder darodar.com und andere sogenannte Spam-Referrals geben vor, Links auf ihre Seite zu enthalten, nur um damit Aufmerksamkeit auf deren eigene Webseite und darin enthaltene Angebote zu lenken.

Relevanz der Spam-Referrals für ihre Web-Analysen

Ausser dass diese Spam-Referrals Ihre Zeit verschwenden, sofern Sie sich die Zeit nehmen, deren Website zu besuchen (noch einmal: Tun Sie das nicht!), verzerren die Referrals auch Ihre Web-Analyse-Daten. Das könnte im schlimmsten Fall die Interpretierbarkeit Ihrer Analysen beeinträchtigen.

Da das Problem bekannt ist, sind zum Thema Spam-Referrals und wie Sie diese loswerden können, schon einige Blog-Posts verfasst worden. Bemerkenswerterweise zeigen diese Posts zwar Lösungsansätze auf, lassen aber wichtige Fragen zur Relevanz des Problems offen: Gaukeln die Referrals zwei Aufrufe pro Monat vor? 100 am Tag? Verzerrt der zusätzliche Traffic Ihre Analysen gar bis zur Untauglichkeit? Müssen Sie also umgehend etwas gegen das Problem tun?

Wir haben Antworten auf diese Fragen. Dazu haben wir über 10 Millionen Sessions aus dem Zeitraum 1. Januar bis 31. Januar 2015 ausgewertet, um möglichst aktuelle Daten liefern zu können. Das aggregierte Resultat gleich vorweg: Von 10.2 Millionen Sessions stammten rund 3’000 Sessions von Spam-Referrals, was einem Anteil von 0.03 Prozent des Traffics entspricht.

Aufgrund des geringen Anteils am Gesamt-Traffic empfehlen wir, als Best Practice, die einfachste Lösung über einen Ausschluss des Traffics per Datenansichtsfilter. Sollten Sie vorläufig keine Ressourcen für derartige Veränderungen in Ihrem Setup zur Verfügung haben, können wir Sie beruhigen: Sie werden anhand der durch Spam-Referrals leicht verzerrten Daten kaum falsche Rückschlüsse aus ihren Analysen ziehen.

Spam-Referral ist nicht gleich Spam-Referral

Falls Sie sich nicht für technische Details zu den verschiedenen Arten von Spam-Referrals interessieren, gelangen Sie hier direkt zu den Lösungen.

Zum einen existieren crawler-basierte Spam-Referrals, wie z.B. semalt.com oder kambasoft.com. Diese Crawler besuchen Ihre Webseite und geben vor, diese über einen Link auf der Herkunftsseite (z.B. semalt.semalt.com) erreicht zu haben. Für technisch speziell versiertes Publikum: Die Crawler verändern das document.referrer Objekt dergestalt, dass statt einem leeren String, der String von semalt.semalt.com gesetzt wird.

Zum anderen existieren “Ghost-Referrals” (ich übernehme den Begriff von Mike Sullivan, der auf die Unterscheidung von Crawlern und ghost referrals aufmerksam gemacht hat). Ghost-Referrals sind im Gegensatz zu crawler-basierten Spam-Referrals keine echten Besuche auf Ihrer Webseite. Vielmehr verwenden diese das Measurement Protocol von Google Analytics, um direkt Daten in Google Analytics abzulegen. Denn mit dem Measurement Protocol können grundsätzlich beliebige Daten an jede Property gesendet werden. Derzeit, und wir können anhand unserer Daten die Vermutung von Mike Sullivan bestätigen, erfolgen die Hits immer auf Property-IDs, die auf UA-XXXXXX-1 enden. Für den Fall, dass Sie eine Property mit einer höheren Schlussnummer verwenden, sind Sie bezüglich “Ghost-Referrals” also (noch) fein raus.

Was hat dies nun mit den Ausschlussmöglichkeiten in Google Analytics zu tun? Nun, die meistzitierte Lösung des Ausschlusses von Spam-Referrals, nämlich über das .htaccess file auf ihrem Server, funktioniert zwar für die crawler-basierten Spam-Referrals, nicht aber für die “Ghost-Referrals”: Diese besuchen zu keiner Zeit Ihren Server, wodurch Sie folglich serverseitig nicht ausgeschlossen werden können.

Relevanz von Spam-Referrals im Detail

Um eine möglichst breit abgestützte Datenbasis zu erhalten, haben wir N=12 Properties unterschiedlicher Domains untersucht, die im Januar 2015 Traffic im Bereich von wenigen Tausend bis mehreren Millionen Sessions aufgezeichnet haben.

Auffallend ist der anteilsmässig geringere Traffic von Ghost-Referrals (hauptsächlich generiert durch darodar.com), der sich zwischen 0% bis 0.02% bewegt. Crawler-generierter Traffic (hauptsächlich generiert durch semalt.semalt.com) ist im Gegensatz weitaus variabler. Auch wenn sich crawler-generierter Traffic bei den meisten untersuchten Properties unter der 0.1%-Schwelle bewegt, finden sich auch Ausschläge, die bis zu einem Maximum an 0.9% des insgesamt generierten Traffics reichen.

Trotz der recht grossen prozentualen Variabilität im Spam-Referral Traffic zwischen den Properties wurde keine Property identifiziert, in der Spam-Referral Traffic ein Ausmass angenommen hätte, das zu einer substantiellen Verzerrung von Analyse-Ergebnissen geführt hätte.

Auch wenn Spam-Referrals Ihre Analyse-Ergebnisse nicht unmittelbar gefährden, empfehlen wir, nach dem Grundsatz von Best Practices, Spam-Referral Traffic von Ihren Daten in Google Analytics auszuschliessen. In den folgenden Abschnitten erhalten sie Tipps, wie Sie dies einfach bewerkstelligen können.

Lösungsansatz #1: Ausschluss über Datenansichtsfilter

Der einfachste Weg, Spam-Referral-Traffic aus ihren Google Analytics Daten zu verbannen, führt über Datenansichtsfilter. Damit Sie nicht unterschiedliche Filter für “Ghost-Referrals” und crawler-basierte Spam-Referrals benötigen, wie das häufig vorgeschlagen wird, tragen Sie am besten folgenden Ausdruck als Datenansichtsflter ein:

priceg.com|blackhatworth.com|hulfingtonpost.com|darodar

.com|econom.co|ilovevitaly.co|semalt.com|kambasoft

.com|buttons-for-website.com|makemoneyonline.com|anticrawler.org

Die Einstellungen können in den Datenansichtseinstellungen von Google Analytics unter Filtern vorgenommen werden und können analog zur Abbildung 1 eingetragen werden.

Der Einwand, dass ausgefilterte Daten zwar aus Google Analytics verschwinden, aber trotzdem in Google Analytics verarbeitet werden – was zu rascherem Sampling führen kann – ist zwar richtig, aber aufgrund des Ausmasses (im Durchschnitt 0.03% allen Traffics) aus unserer Sicht nur in speziellen Fällen wirklich ausschlaggebend für eine andere Implementierung.

Lösungsansatz #2: Ausschluss über .htaccess file

Für den Ausschluss von crawler-basierten Spam-Referrals gibt es die Möglichkeit, den Traffic mittels (Apache) .htaccess files auszuschliessen. Diese serverseitige Lösung hat den Vorteil, dass Sie sich in Google Analytics um nichts kümmern müssen, allerdings bedarf es hier (vermutlich) der Implementierung über Ihre IT.

Ein nützlicher Blog-Post zum Thema mit Beispiel-.htaccess wurde von Dale Rodgers verfasst. Problematisch an der Methode ist allerdings, dass Sie den Traffic von “Ghost-Referrals” nicht ausschliessen können (da ja kein Aufruf ihrer Webseite erfolgt). Da unsere Analyse der Relevanz des Spam-Referral Traffics zeigt, dass crawler-basierte Spam-Referrals den Hauptteil der Spam-Referrals ausmachen, ist das nichtsdestotrotz ein guter Ansatz, um den Hauptteil der Spam-Referrals loszuwerden.

Lösungsansatz #3: Ausschluss über Blocking Rules im Tag Manager

Für den Fall, dass Sie den Google Tag Manager (GTM) einsetzen, kann statt im .htaccess files auch im GTM eine “blocking rule” gesetzt werden. Dafür sollte jedem Hit, der an Google Analytics gesendet wird, die entsprechende “blocking rule” zugewiesen werden. Die “blocking rule” besteht in diesem Fall aus dem Ausdruck:

  • semalt.com|kambasoft.com

der mit dem aktuellen Referrer abgeglichen werden sollte (Abbildung 2 & 3). Da lediglich crawler-basierte Spam-Referrals auf diesem Weg ausgeschlossen werden können, benötigen Sie die Angaben zu den “Ghost-Referrals” nicht mehr zu berücksichtigen, was den Prüfausdruck wesentlich vereinfacht.

<p/>

Fazit

Spam-Referrals wie semalt.com, kambasoft.com oder darodar.com verzerren grundsätzlich Ihre Google Analyitcs Daten. Das tatsächliche Ausmass dieser Verzerrung wurde bislang nicht untersucht. Anhand der Analyse von 10 Millionen aktuellen Visits konnten wir zeigen, dass das Ausmass von Referral-Spam (noch) gering: Bei einem durchschnittlichen Prozentsatz von 0.03% des gesamten aufgezeichneten Traffics, werden Spam-Referrals die Aussagekraft Ihrer Analysen kaum beeinträchtigen. Nichtsdestotrotz stellen Spam-Referrals systematische Verzerrungen Ihrer Daten in Google Analytics dar. Im Sinne der Implementierung von Best Practices empfiehlt sich deshalb der Ausschluss dieser Referrals, z.B. durch eine unserer vorgeschlagenen Lösungen.