Meetup održan u Novom Sadu na temu sređivanja loših tj. polusirovih podataka u Google Analitici. Glavni deo predavanja bio je uvod u regularne izraze kako bi slušaoci naučili više o ovoj metodi filtriranja.
2. O čemu ćemo pričati
• Zašto podatke u Google Analitici uopšte treba filtrirati
• Regularni izrazi (RegEx) kao metoda filtriranja
• Šta je „Ghost“ saobraćaj i kako ga filtrirati
• Kako filtrirati interni saobraćaj
3. Zašto nam treba filtriranje podataka
u GA
• Ono što dobijamo u GA je obično u nekom polu-sirovom
formatu
• Google se trudi da izbaci sve poznate spamere, ali to
nije uvek lako
• Mi sami provodimo previše vremena na sajtu
• Filtriranje radi segmentacije
4. Šta su regularni izrazi
• Karakteri namenjeni za pretragu obrazaca u tekstu
• Počeci u ’50-ima
• Stariji i od samog interneta
36. Šta je to „Ghost“ saobraćaj
• Nisu sve zabeležene posete zaista posete
• Automatizovane skripte poput crawlera trigeruju GA kod
na vašoj stranici i šalju zahtev
37. Možda će vam delovati poznato...
• Languages report:
• Source:
38. Identifikacija obrazaca
• Svaka serija SPAMa ima neke obrasce koje je potrebno
identifikovati
• Obično je to Source, Language ili Event
• Konkretno prethodni primer je imao specifičan „jezik“
gde su to bile rečenice:
.{15,}
39. Hostname
• Jedna od stvari na koju se obično ne obraća pažnja
• U prevodu to je vaš domen
• Shodno tome filter bi bio:
^vasdomen.rs$
^www.vasdomen.rs$
40.
41. Uklanjanje internog saobraćaja
• Preduslov za ovo je statička IP adresa
• Broj sesija nastalih tokom rada na sajtu može biti
iznenađujuće velik
• Naročito vreme provedeno na sajtu