Linkspam: Erkennung und Unterdrückung

472 views

Published on

12. 02. 2007: Linkspam: Erkennung und Unterdrückung – Seminar “Maschinelles Lernen“, Arbeitsgruppe Wissensmanagement, HU Berlin

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
472
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Linkspam: Erkennung und Unterdrückung

  1. 1. Link- SpamErkennung und Unterdrückung Florian Holzhauer fh@fholzhauer.de
  2. 2. Spam? „Kommerziell motivierter Datenmüll“ Mail, Telefon, Post, Web, .. Hier: Linkspam Ziel: Suchmaschinenranking verbessern Maschinenoptimiert
  3. 3. Warum Linkspam? Gutes Suchranking = $$$ Höhere Besucherzahlen Populärer als die Konkurrenz Viele Links auf beworbene Seite PageRank HITS Zusätzlich „Queryoptimierung“
  4. 4. PageRank „Google-Algorithmus“ Oft Verlinkt = Hoher PageRank PageRank der verlinkenden Seiten wichtig d = Damping factor (meist 0.85)
  5. 5. HITS Hub-Rank, Authority-Rank Rekursiv
  6. 6. Wie Spam? Häufig verlinkt Verlinkt durch hoch bewertete Seiten Spamseite selbst will nicht unbedingt hoch bewertet werden Automatisiert Selten manuelle Ansätze
  7. 7. Blogspam Trackbacks Kommentare Captchas/ Rechenaufgaben Auch Wikis, Gästebücher, Foren
  8. 8. Linkfarm Automatisch generiert Gegenseitig verlinkt Dynamische Inhalte
  9. 9. Erkennung Soziale Probleme, technische Lösung Neuer Algorithmus -> neuer Spam False Positives Definition?
  10. 10. Quantitative Eigenschaften Domain/URL Worthäufigkeiten Seiteneigenschaften Metatags Servereigenschaften „nearby duplicates“ Änderungsfrequenz
  11. 11. Sprachmodell Sprachliche Unterschiede Blogspam Blogbeitrag Kommentare Verlinkte Seiten Kullback Leibler Divergenz „Wahrscheinlichkeitsunterschiede“
  12. 12. SVM Support Vector Machine Trainierbarer Separationsalgorithmus Gruppiert in zwei Teile Nicht linear separierbar: „Möglichst“ gut
  13. 13. Graphen Links = Gerichteter Graph Verlinkungsanomalien Good Core Kombinierbar
  14. 14. Good Core Manuell erstellt Klein Unzuverlässig Subjektiv Teuer
  15. 15. TrustRank Good Core Enfernung = Score  1*β Dämpfungsfaktor (1/Linkzahl)*β Basiert auf „gewollten Links“?  Veraltete Links Spam!
  16. 16. BadRank „Umgedrehter Pagerank“ E(A) durch Spamfilter Nicht unbedingt nötig
  17. 17. ParentPenalty Schnittmenge eingehender und Ausgehender Links einer Domain Gross = Vermutlich Spam Matrix (A) = 1 wenn Anzahl > Treshold, sonst 0
  18. 18. ParentPenalty Iterieren durch A Anzahl eingehender Seiten mit An=1  > Treshold? -> An=1 Mehrfache Iteration Problem: Treshold-Wahl?
  19. 19. Ausblick Idee: Kein absoluter Pagerank? Unterschiedliche Benutzer wollen unterschiedliche Seiten Technischer Wettkampf Semantic Web?

×