Linkspam: Erkennung und Unterdrückung
Upcoming SlideShare
Loading in...5
×
 

Linkspam: Erkennung und Unterdrückung

on

  • 367 views

12. 02. 2007: Linkspam: Erkennung und Unterdrückung – Seminar “Maschinelles Lernen“, Arbeitsgruppe Wissensmanagement, HU Berlin

12. 02. 2007: Linkspam: Erkennung und Unterdrückung – Seminar “Maschinelles Lernen“, Arbeitsgruppe Wissensmanagement, HU Berlin

Statistics

Views

Total Views
367
Views on SlideShare
367
Embed Views
0

Actions

Likes
0
Downloads
0
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Linkspam: Erkennung und Unterdrückung Linkspam: Erkennung und Unterdrückung Presentation Transcript

  • Link- SpamErkennung und Unterdrückung Florian Holzhauer fh@fholzhauer.de
  • Spam? „Kommerziell motivierter Datenmüll“ Mail, Telefon, Post, Web, .. Hier: Linkspam Ziel: Suchmaschinenranking verbessern Maschinenoptimiert
  • Warum Linkspam? Gutes Suchranking = $$$ Höhere Besucherzahlen Populärer als die Konkurrenz Viele Links auf beworbene Seite PageRank HITS Zusätzlich „Queryoptimierung“ View slide
  • PageRank „Google-Algorithmus“ Oft Verlinkt = Hoher PageRank PageRank der verlinkenden Seiten wichtig d = Damping factor (meist 0.85) View slide
  • HITS Hub-Rank, Authority-Rank Rekursiv
  • Wie Spam? Häufig verlinkt Verlinkt durch hoch bewertete Seiten Spamseite selbst will nicht unbedingt hoch bewertet werden Automatisiert Selten manuelle Ansätze
  • Blogspam Trackbacks Kommentare Captchas/ Rechenaufgaben Auch Wikis, Gästebücher, Foren
  • Linkfarm Automatisch generiert Gegenseitig verlinkt Dynamische Inhalte
  • Erkennung Soziale Probleme, technische Lösung Neuer Algorithmus -> neuer Spam False Positives Definition?
  • Quantitative Eigenschaften Domain/URL Worthäufigkeiten Seiteneigenschaften Metatags Servereigenschaften „nearby duplicates“ Änderungsfrequenz
  • Sprachmodell Sprachliche Unterschiede Blogspam Blogbeitrag Kommentare Verlinkte Seiten Kullback Leibler Divergenz „Wahrscheinlichkeitsunterschiede“
  • SVM Support Vector Machine Trainierbarer Separationsalgorithmus Gruppiert in zwei Teile Nicht linear separierbar: „Möglichst“ gut
  • Graphen Links = Gerichteter Graph Verlinkungsanomalien Good Core Kombinierbar
  • Good Core Manuell erstellt Klein Unzuverlässig Subjektiv Teuer
  • TrustRank Good Core Enfernung = Score  1*β Dämpfungsfaktor (1/Linkzahl)*β Basiert auf „gewollten Links“?  Veraltete Links Spam!
  • BadRank „Umgedrehter Pagerank“ E(A) durch Spamfilter Nicht unbedingt nötig
  • ParentPenalty Schnittmenge eingehender und Ausgehender Links einer Domain Gross = Vermutlich Spam Matrix (A) = 1 wenn Anzahl > Treshold, sonst 0
  • ParentPenalty Iterieren durch A Anzahl eingehender Seiten mit An=1  > Treshold? -> An=1 Mehrfache Iteration Problem: Treshold-Wahl?
  • Ausblick Idee: Kein absoluter Pagerank? Unterschiedliche Benutzer wollen unterschiedliche Seiten Technischer Wettkampf Semantic Web?