Must have Google Analytics filters – Deel 2

In ‘’Must have Google Analytics filters – Deel 1” heb ik je uitgelegd wat het nut van filters is en wat de filters precies doen. Nu gaan we ze maken! 

Filters aanmaken

Voordat we overgaan op de filter zelf is het natuurlijk handig om te weten waar je de filters aan kunt maken. Dit kan op twee niveaus: accountniveau en dataweergaveniveau. Maak je hem aan op accountniveau, dan kun je bepalen in welke dataweergaven je het filter wil toepassen, mocht je er meerdere hebben. Maak je hem op dataweergaveniveau aan, dan zal de filter automatisch toegepast worden binnen de geselecteerde dataweergave. 

Everyone gets a filter

In Google Analytics klik je linksonder op het tandwieltje voor de admin/beheerderinstellingen. Vervolgens kies je ‘’All Filters’’ of ‘’Filters’’. Afhankelijk van het niveau waarop je de filter instelt.

Filters aanmaken

1. IP-Filters

Als je data bekijkt wil je niet dat je eigen bezoeken mee worden geteld in de data. Hetzelfde geldt voor collega’s of partijen waar je mee samenwerkt (zoals je online marketingbureau). Je wilt namelijk alleen relevant verkeer die binnen je doelgroep valt analyseren. Verkeer die op de website is vanwege je content, dienst of product. Niet om te testen, de website aan te passen of de website trots aan zijn/haar vriendenkring te laten zien. 

Hiervoor kun je een IP-filter instellen voor alle bij de website betrokken partijen. Het IP-adres kun je het beste vergelijken met een telefoonnummer voor computers die op het internet zijn aangesloten. Met dit filter sluit je dus heel specifiek verkeer uit van je data rapporten. Sinds de invoering van de vernieuwde privacywetgeving in 2018 is het echter niet meer toegestaan volledige IP-adressen uit te wisselen. Voldoe je netjes aan alle AVG-regeltjes dan worden IP-adressen anoniem gemaakt voordat ze worden doorgestuurd. Dit zorgt ervoor dat het laatste stukje van het IP-adres niet wordt doorgegeven aan Google Analytics. Heb je wel IP-filters in Google Analytics staan, check dan of ze na mei 2018 nog een update hebben gehad!

Het opzetten van een IP-filter is vrij eenvoudig. Je zoekt je eigen (IPv4) IP adres op via bijvoorbeeld WhatIsMyIPAdress. De 8 tot 12 cijfers achter IPv4 kopieer je. Voor dit voorbeeld is ons IP adres: 12.345.67.890. Vervolgens maak je een nieuw filter aan in Google Analytics en stel je de filter als volgt in:

IP filter

Let hierbij goed op dat je de laatste cijfers van je IP-adres weghaalt. Deze worden namelijk niet doorgegeven aan Google Analytics en dus kan hier ook niet op worden gefilterd.

2. Hostname filter

De hostname filter is de sterkste verdedigingslinie tegen ghost verkeer. Ghost verkeer is spamverkeer dat niet op je website is geweest, maar toch data stuurt naar je Google Analytics tag. Hoe dat precies in zijn werk gaat is een blog op zichzelf. Het belangrijkste is dat we het uit onze data kunnen vissen! 

Wanneer je je op het internet begeeft, krijgt het apparaat waarmee je online bent een hostname toegewezen. Dit is één van de manieren waarop ook op het internet of andere netwerken onderscheid kan worden gemaakt tussen apparaten. Simpel gezegd geeft de hostname aan waar op het internet het apparaat/de gebruiker zich bevindt. Zoals je al hebt kunnen lezen is ghost spamverkeer niet daadwerkelijk aanwezig op je website en krijgt dit verkeer dus niet de hostname mee van jouw website. Uitzonderingen daargelaten is dit verkeer totaal niet interessant en dit wil je er dus uitfilteren.

Alle hostnames van spamverkeer opzoeken en filteren is niet te doen. Daarom maken we een filter aan die alleen je eigen hostname eruit filtert en de data hiervan laat zien. Dit doe je door eerst je hostname op te zoeken in het Google Analytics rapport Audience > Technology > Network (in het Nederlands Doelgroep > Technologie > Netwerk). Als primaire dimensie kies je hier ‘’Hostname’’.

Hier selecteer je alle hostnames die bij jouw website(s) horen. In ons geval is het alleen www.bloosem.nl. Veel voorkomende varianten van onschuldige hostnames zijn:

– Webcache.googleusercontent.com (gecachte webpagina’s)
– Translate.googleusercontent.com (vertaalde webpagina’s)
– Blog.jouwwebsite.nl (subdomein van je website)
– Xx.jouwwebsite.nl (subdomein van je website)

Alle zaken die je niet herkent of die niet bij jouw website horen hoef je niet mee te nemen in je filter. Ook kunnen hier soms tools tussen staan die je gebruikt. Deze verzamelen data van je website om beter hun werk te kunnen doen. Deze kun je ook meenemen in je filter. 

Voor het voorbeeld filter pakken we de vier genoemde veelvoorkomende varianten van hostnames. Het filter is geschreven in RegEx (Regular Expressions). Dit is een soort codetaal waarmee je effectief zogenaamde strings (stukjes tekst) kunt opzoeken. In dit geval op kunt zoeken in de hostname. Wat je invult bij het filter: www.\jouwwebsite\.nl|jouwwebsite\.nl|translate\.googleusercontent\.com|webcache\.googleusercontent\.com

Hostname filter

3. Referral spamfilter

Heb je ooit de bron van je website traffic bekeken en vond je het aantal referrals (verwijzingen) wel erg hoog? Grote kans dat je met spamverkeer te maken hebt. 

Bezoekers die binnenkomen via een referral/verwijzing hebben op een link naar jouw website geklikt. Dit kan op social media zijn, een forum, de website van een partner of een andere logische bron. Toch zie je hier vaak ook bronnen tussen zitten die je niet bekend zijn of die helemaal niet logisch zijn. Vaak zie je ook dat het verkeer uit deze rare bronnen een bouncepercentage van 100% heeft en minder dan één seconde op je website is geweest. Duidelijk spamverkeer dus!

Een deel van dit spamverkeer wordt opgevangen door je hostname filter. Alles wat er nog wel doorheen komt zul je dus op een andere manier moeten filteren. Hiervoor kun je referral spamfilters instellen. Je kan je eigen filters opstellen door in Google Analytics te gaan naar Acquisiton > All Traffic > Source/medium (Acquisitie > Alle verkeer > Bron/medium). Hier kies je als primaire dimensie vervolgens source/bron en sorteer je op bounceratio. Je eigen spamfilter bouw je door de onherkenbare bronnen met een bounceratio van 100% samen te voegen in een RegEx patroon en dit in de filter te plaatsen.

Makkelijker is echter om al bestaande filters die de meest voorkomende spambronnen blokkeren gewoon te kopiëren. Er zal na het toevoegen van onderstaande patronen ongetwijfeld nog wat spamverkeer overblijven, maar het grootste deel zal er al uitgefilterd zijn. Aangezien het veel spambronnen betreft heb je vier filters nodig. Deze filters hebben allemaal hun eigen filterpatroon:

  • offer|free\-|share\-|mercedes|buy|cheap|googlsucks|benz|sl500|hulfington|buttons|  darodar|pistonheads|motor|money|blackhat|backlink|webrank|seo|phd|crawler|anonymous
  • dailyrank|100dollars-seo|anticrawler|sitevaluation|buttons-for-website|buttons-for-your-website|-musicas*-gratis|best-seo-offer|best-seo-solution|savetubevideo|ranksonic|offers.bycontext|7makemoneyonline|kambasoft|medispainstitute
  • 127.0.0.1|justprofit.xyz|nexus.search-helper.ru|rankings-analytics.com|videos-for-your-business|adviceforum.info|video—production|success-seo|sharemyfile.ru|seo-platform|dbutton.net|wordpress-crew.net|rankscanner|doktoronline.no|o00.in
  • top1-seo-service.com|fast-wordpress-start.com|rankings-analytics.com|uptimebot.net|^scripted.com|uptimechecker.com
Referral spam filter

Het is overigens erg lastig om je data 100% spamvrij te maken, dus wees niet gepikeerd als je alsnog regelmatig spamverkeer langs ziet komen. Zolang dit geen aanzienlijk deel van je verkeer is hoef je je hier ook geen zorgen om te maken.

4. Language filter

Spamverkeer heeft een aantal kenmerken waaraan je het kan herkennen. Een hoge bounceratio en een gemiddelde tijd op pagina van onder één seconde bijvoorbeeld. Dit zijn vaak de eerste en meest herkenbare indicaties dat er sprake is van spamtraffic op je website. Zie je deze kenmerken dan is het zaak uit te zoeken waar het spamverkeer vandaan komt en hoe je het kunt filteren.

Één van de manieren om spamtraffic te blokkeren is dus de hostname filter. Toch is er ook spam wat wel een juiste hostname meegeeft en dus niet wordt opgepikt door de hostname filter. Komt je verkeer ook niet via een referral binnen dan houden ook de referral filters dit verkeer niet buiten de deur. Het is nu dus aan jezelf om een gedeelde voorwaarde van het spamverkeer te vinden. Vaak geeft spamverkeer geen schermresolutie mee en ontbreekt de geolocatie. Hier zou je dus op kunnen filteren. Helaas worden spambots ook een stuk slimmer en geven ze tegenwoordig niet snel prijs dat ze eigenlijk spamverkeer zijn. Één facet geven ze echter vaak niet of onjuist mee: taalinstellingen.

De taalinstellingen van een browser vind je in Google Analytics terug onder Audience > Geo > Language (Doelgroep > Geo > Taal). Doorgaans zul je hier veelal taalcodes terugvinden. Denk aan nl-nl, en-us en en-gb. Toch zie je hier vaak ook aparte dingen tussen staan. Een paar voorbeelden uit onze eigen, ongefilterde, Google Analytics weergave:

Referral spam 3
Referral spam 2
Referral spam 1

Verkeer met dergelijke language instellingen is in de meeste gevallen spamverkeer. Toch is niet alles zo duidelijk en zul je taalinstellingen tegenkomen die minder opvallen maar ook ongeldig zijn. Veelgebruikte zijn ‘’c’’ en ‘’s’’. Met een language filter kun je dit spamverkeer toch effectief uitsluiten. 

Dit doe je door in een nieuwe filter te kiezen voor Exclude > Language Settings (Uitsluiten > Taalinstellingen) en vervolgens het volgende patroon in te voeren:

\s[^\s]*\s|.{15,}|\.|,|^c$

5. Lowercase filters

Nu al je spamverkeer uit je data is gehaald zit je nog steeds met een hele hoop Google Analytics rapporten die heel veel informatie bevatten. Je wilt deze informatie zo gestructureerd en overzichtelijk mogelijk houden. Vooral om het jezelf makkelijk te maken. Ben je veel bezig met online campagnes, werk je met UTM tags, sleutel je aan je eigen tags en events of wil je gewoon zeker weten dat je data goed gestructureerd is? Dan zijn lowercase filters onmisbaar!

Lowercase filters zorgen ervoor dat alle inkomende informatie wordt omgezet naar kleine letters. Hierdoor maakt het niet uit of gegevens met hoofdletters of kleine letters worden doorgegeven. Vooral menselijke foutjes worden hierdoor onschadelijk gemaakt en dit kan je data een heel stuk gestructureerder maken. 

De filters zijn erg eenvoudig aan te maken en zijn te gebruiken voor vrijwel alle metrics in Google Analytics. De lowercase filters die ik het meest gebruik zijn:

lowercase filter voor event tracking
Events en tags worden vaak handmatig gemaakt en als doel aangemaakt in Google Analytics. Met deze filters voorkom je dat doelconversies niet werken als gevolg van foutief hoofdlettergebruik. 
Filter Field (en)Filterveld (NL)
Event CategoryGebeurteniscategorie
Event ActionGebeurtenisactie
Event LabelGebeurtenislabel
lowercase filter voor meestgebruikte rapporten
Sommige data komt in de meeste Google Analytics rapporten wel voor. Denk aan bron/medium of campagnenaam. Gebruik je UTM tagging in campagnes dan kunnen hier ook foutjes insluipen die je gedeeltelijk kunt opvangen met deze lower case filters.
Filter Field (en)Filterveld (NL)
Campaign NameCampagnenaam
SourceBron
MediumMedium
HostnameHostnaam
Request URIAanvraag-URI
Lowercase filter

Bekijk de juiste en betrouwbare data!

Naast de genoemde (en hopelijk inmiddels toegepaste) filters zijn er nog talloze manieren waarop je website data bevuild of verstoord wordt. Maar niet getreurd, (bijna) overal is een oplossing voor.

Heb je de filters aangemaakt en zie je nog steeds gekke data in je Google Analytics? Of wil je gewoon zeker weten dat alles goed staat en je naar betrouwbare data zit te kijken? Geef ons dan eens een belletje of stuur een mailtje!

Dit blog is ook verschenen bij Frankwatching

Daan-promovenster 

    Wil jij ook betrouwbare data? Neem snel contact op met Daan!