Nachlässig programmierte Spambots – eine Anekdote

584
-1

Published on

Diesen Lightning Talk habe ich im KunterBuntenSeminar der Fachschaft Informatik gehalten, es war der zweite des Abends und baute geringfügig auf dem auf, den ich direkt davor gehalten hatte.

Ich habe darin erzählt, wie ich aus meinen Analytics-Daten einen Spambot identifizieren konnte, der auf eine Weise auf Seiten zugriff, die Web-Standards verletzt und deshalb zu Fehlern führte. So nahm mir der Autor dieses Spambots die Hälfte der mühsamen Diagnose-Arbeit ab.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
584
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Nachlässig programmierte Spambots – eine Anekdote

  1. 1. Nachlässig programmierteSpambots – eine Anekdote Julian Fietkau am 1. Dezember 2011 im KunterBuntenSeminar
  2. 2. Der AnlassMein Piwik berichtete mir: ca. 10× pro Monat „Error 404“ Oh schreck! Hmmmm. . . Mal gucken wie es jeweils dazu kommt.Piwik allein konnte mir das nicht sagen, also begann ich, mitjedem 404er den Referrer zu loggen.
  3. 3. ErkenntnisseÜberraschung: Sämtliche 404er entstanden durch Fragment-Links! HTTP GET auf zum Beispiel „http://www.julian-fietkau.de/spambots#comments“ → 404 WTF? Mal schauen, was die IETF dazu sagt. . .
  4. 4. Was sind Fragment-Linksüberhaupt? Sie verweisen auf einen Teil eines Objekts (z.B. eines Dokuments im Web). Im Web werden sie u.A. verwendet, um Browser zu einer bestimmten Stelle auf einer Seite „springen“ zu lassen.
  5. 5. Aus RFC 3986 (URI-Syntax),Kap. 3.5 (. . . ) [T]he fragment identifier is separated from the rest of the URI prior to a dereference, and thus the identifying information within the fragment itself is dereferenced solely by the user agent, regardless of the URI scheme. (. . . ) it also serves to prevent information providers from denying reference authors the right to refer to information within a resource selectively.Siehe https://tools.ietf.org/html/rfc3986#section-3.5
  6. 6. Der Client ist schuldVielleicht handelt es sich um einen sehr schlechten Browser odereinen besonders dummen Crawler? Stellt sich dann so raus, dass die 404er zeitlich nahe an Spam-Kommentar-Einträgen auf meiner Website liegen. D’oh!
  7. 7. User AgentsNachdem ich wusste, dass sämtliche 404er von Spambotsstammten, loggte ich ihre User Agents:Mozilla/4.0 (compatible; MSIE 6.0; WindowsNT 5.1; SV1)Mozilla/5.0 (Windows; U; Windows NT5.1; en-US; rv:1.9.0.5) Gecko/2008120122Firefox/3.0.5Mozilla/5.0 (Windows; U; Windows NT 5.1;en-US; rv:1.9.0.10) Gecko/2009042316Firefox/3.0.10Mozilla/5.0 (Windows NT 5.1; U; en) Opera8.01
  8. 8. Was nun?Ich loggte die IPs der Spammer, sie waren immer verschieden.Vielleicht ein Botnet oder so.Konsequenzen für mich? Keine Großen. Meine Spam-Erkennungfür die Kommentare funktioniert gut genug.Dumme Spambot-Programmierer leben drei mal hoch, denn siemachen schon die Hälfte meiner Diagnose-Arbeit selbst. :-D
  9. 9. Danke für die Aufmerksamkeit! http://www.julian-fietkau.de/spambots
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×