Your SlideShare is downloading. ×
Adversarial Information Retrieval
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Adversarial Information Retrieval

499

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
499
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Adversarial IRe Social Spam ` UNIVERSITA DEGLI STUDI DI PADOVA Nesello Lorenzo Facolt` di Scienze MM.FF.NN a Corso di laurea in informaticaAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studio Adversarial IR e Social SpamFacebookAttackRiferimenti Nesello Lorenzo Universit` di Padova a 02-12-2009 Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 1 / 32
  • 2. Indice della presentazioneAdversarial IRe Social Spam Nesello Lorenzo 1 Adversarial Information RetrievalAdversarialInformationRetrieval 2 Social SpamSocial SpamSocial Spam -Casi di studio 3 Social Spam - Casi di studioFacebookAttackRiferimenti 4 Facebook Attack 5 Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 2 / 32
  • 3. Adversarial Information Retrieval - IntroduzioneAdversarial IRe Social Spam Nesello LorenzoAdversarialInformation L’Adversarial Information Retrieval ` un ambito di studio eRetrieval nell’Information Retrieval.Social Spam Tale disciplina opera nell’ambito della raccolta, indicizzazione,Social Spam -Casi di studio filtraggio e ranking di informazioni da collezioni che possonoFacebook essere state maliziosamente manipolate.Attack L’Adversarial IR include lo studio di metodi per scovare, isolareRiferimenti e sconfiggere queste manipolazioni. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 3 / 32
  • 4. Adversarial Information Retrieval - Topics IAdversarial IRe Social Spam Nesello Lorenzo Topics relativi al Web spam (spamdexing):AdversarialInformationRetrieval Link spamSocial Spam Keyword spammingSocial Spam -Casi di studio CloakingFacebookAttack Malicious taggingRiferimenti Spam relativo ai blogs, includendo comment spam, splogs e ping spam Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 4 / 32
  • 5. Adversarial Information Retrieval - Topics IIAdversarial IRe Social Spam Nesello Lorenzo Altri topics:AdversarialInformation Click fraud detectionRetrievalSocial Spam Reverse engineering di un search engine’s rankingSocial Spam - algorithmCasi di studio Web content filteringFacebookAttack Advertisement blockingRiferimenti Stealth crawling Malicious tagging o voting in social networks Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 5 / 32
  • 6. Adversarial Information Retrieval - AIRWebAdversarial IRe Social Spam AIRWeb ` un workshop internazionale che si occupa di e Nesello Lorenzo discutere l’avanzamento dello stato dell’arte nell’ambito dell’Adversarial Information Retrieval nel Web. AlcuniAdversarialInformation argomenti di interesse sono:RetrievalSocial Spam search engine spam e ottimizzazioniSocial Spam -Casi di studio link-bombing (a.k.a. Google-bombing)Facebook comment spam, referrer spamAttackRiferimenti blog spam (splogs) malicious tagging reverse engineering degli algoritmi di ranking Questa presentazione tratter` principalmente l’ambito a trasversale del Social Spam. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 6 / 32
  • 7. Social Spam - IntroduzioneAdversarial IRe Social Spam Nesello LorenzoAdversarialInformation Con il termine Social Spam si identificano alcune problematicheRetrievalSocial Spam presenti nel web attualmente, come ad esempio lo spam viaSocial Spam - email (che opprime la maggior parte degli utenti di internet), loCasi di studio spam fatto con i video di risposta, lo spam attraverso i SocialFacebookAttack Network (Facebook, MySpace ad esempio) e lo spam nei BlogRiferimenti (detto Splog). Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 7 / 32
  • 8. Social Spam - Definizione di SpamAdversarial IRe Social Spam Nesello Definizione I : “Internet spam is one or more unsolicited Lorenzo messages, sent or posted as part of a larger collection ofAdversarial messages, all having substantially identical content.”InformationRetrieval [monkeys.com]Social Spam Definizione II : “The term spam refers broadly to unsolicitedSocial Spam - bulk e-mail (or junk’ e-mail), which can be either commercialCasi di studio (such as an advertisement) or noncommercial (such as a jokeFacebookAttack or chain letter).” [Supreme Court of the State of Washington]Riferimenti Curiosit` : “Spam ` il titolo di un popolare sketch del gruppo a e comico inglese dei Monty Python, che prende il nome da una marca di carne in scatola chiamata Spam. Lo sketch dar` a sua a volta il nome al fenomeno della pubblicit` indesiderata ricevuta a tramite e-mail.” Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 8 / 32
  • 9. Social Spam - Email SpamAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrieval Lo spam via email ` uno degli argomenti trattati da questa eSocial Spam presentazione. L’utilizzo che ne viene attualmente fatto quelloSocial Spam -Casi di studio di attirare gli utenti verso siti poco affidabili per poterliFacebook attaccare oppure per semplice guadagno tramite le inserzioniAttack pubblicitarie presenti nella pagina.Riferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 9 / 32
  • 10. Social Spam - Percentuale di Email SpamAdversarial IRe Social Spam Nesello 1. Stati Uniti 15,6% Lorenzo 2. Brasile 11,1%Adversarial 3. Turchia 5,2%InformationRetrieval 4. India 5,0%Social Spam 5. Corea del Sud 4,7%Social Spam - 6. Polonia 4,2%Casi di studio 7. Cina (inclusa Hong Kong) 4,1%FacebookAttack 8. Spagna 3,4%Riferimenti 9. Russia 3,2% 10.Italia 2,8% 11.Argentina 2,5% 12.Vietnam 2,3% Altri 35,9% Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 10 / 32
  • 11. Social Spam - Definizioni e MotivazioniAdversarial IRe Social Spam Nesello Lorenzo Quali sono le motivazioni del Social Spam?Adversarial Motivi finanziariInformationRetrieval Siti di phisingSocial Spam Installazione di malwareSocial Spam -Casi di studio Per quanto riguarda i motivi finanziari (principali motivi diFacebookAttack spam) uno spammer probabilmente ricava soldi quando unRiferimenti utente visita un sito X; il social spam ` una semplice via per e attirare utenti. Alcuni metodi di guadagno nella rete sono i famosi Google AdSense e Yahoo APT. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 11 / 32
  • 12. Social Spam - Definizioni e MotivazioniAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrieval Uno dei principali metodi per attirare utenti verso un sito ` eSocial Spam quello del contenuto originale. Esistono vari metodi per creareSocial Spam - contenuto originaleCasi di studioFacebook Generazione automatica di testoAttack Copia di contenuti di altre pagine autorevoliRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 12 / 32
  • 13. Social Spam - Definizioni e MotivazioniAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studioFacebookAttackRiferimenti Generazione dinamica di un sito di un fake Gossip Search Engine Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 13 / 32
  • 14. Social Spam - FeaturesAdversarial IRe Social Spam Nesello Lorenzo TagSpam: rilevazione della presenza di falsi tag nei postAdversarial TagBlur: misura della similarit` fra tag aInformationRetrieval DomFp: probabilit` che una risorsa r sia spam basandosi aSocial Spam sulla struttura del documentoSocial Spam -Casi di studio NumAds: numero di volte in cui compare un ad serverFacebook all’interno di una paginaAttackRiferimenti Plagiarism: ricerca di contenuto di una pagina autorevole con un motore di ricerca al fine di trovare plagi ValidLinks: ricerca di quanti link validi sono riferibili a un profilo Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 14 / 32
  • 15. Social Spam - Spam detection on Social NetworksAdversarial IRe Social Spam Nesello Lorenzo Lo spam via posta elettronica ` sicuramente, come gi` indicato e aAdversarial nelle slide precedenti, un problema aperto nella navigazioneInformation quotidiana ed ` anche un ambito di ricerca da parte eRetrievalSocial Spam dell’Adversarial Information Retrieval.Social Spam - La formalizzazione del problema ` la seguente: eCasi di studio A = {a1 , ..., an } insieme di n email accountFacebookAttack S ⊂ A insieme dei mittentiRiferimenti R ⊂ A insieme dei destinatari yi = 1 se ai ` un mittente legittimo, −1 altrimenti e I classificatori cercano di assegnare i valori di yi nella maniera pi` corretta possibile. u Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 15 / 32
  • 16. Social Spam - Spam detection on Social NetworksAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studioFacebookAttackRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 16 / 32
  • 17. Social Spam - Spam detection on Social NetworksAdversarial IRe Social Spam Nesello Lorenzo Uno dei metodi per riconoscere le email di spam ` certamente e quello di controllare mail in entrata e mail in uscita per ogniAdversarialInformation account ai . Per fare questo basta tenere in considerazioneRetrieval alcune caratteristiche:Social SpamSocial Spam - uno spammer invia tante email e ne riceve pocheCasi di studioFacebook le mail di risposta sono meno frequenti verso uno spammerAttack uno spammer avr` un vicinato molto ampio gi` al primo a aRiferimenti livello gli spammer nel vicinato di un account ai non sono in grado di esibire una relazione di amicizia Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 17 / 32
  • 18. Social Spam - Spam detection on Social NetworksAdversarial IRe Social Spam Nesello Lorenzo Per risolvere il problema di classificazione di un mittenteAdversarialInformation sconosciuto si pu` utilizzare l’algoritmo di machine learning oRetrieval k-NN. Questo algoritmo assume che mittenti che condividonoSocial Spam features simili appartengano alla stessa classe. In questo modoSocial Spam -Casi di studio il punteggio ` assegnato come la media delle label (classi) eFacebook assegnate ai k vicini. Il segno del punteggio pu` essere usato oAttackRiferimenti per classificare un mittente e la magnitudine riflette la confidenza. Alternativamente un punteggio alto pu` classificare o un mittente come legittimo. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 18 / 32
  • 19. Social Spam - Spam detection on Social NetworksAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studioFacebookAttackRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 19 / 32
  • 20. Social Spam - Facebook attackAdversarial IRe Social Spam Nesello Lorenzo Un esempio di attacco via email pu` essere attraverso i Social oAdversarial Network. Le prossime slide parleranno delle vulnerabilit` verso aInformationRetrieval gli attacchi email partendo dalla informazioni presenti negliSocial Spam account di Facebook. Lo studio che verr` proposto fa aSocial Spam -Casi di studio riferimento al network “University of Michigan” dove gli utentiFacebook per poter essere accettati devono avere un indirizzo email conAttack dominio umich.edu. La scelta di Facebook rispetto ad altriRiferimenti Social Network (MySpace e Linkedln ad esempio) deriva dal fatto che uno studio ha dimostrato che in Facebook sono presenti pi` dati personali rispetto agli altri siti. u Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 20 / 32
  • 21. Social Spam - Facebook attackAdversarial IRe Social Spam Nesello Lorenzo Prima di analizzare tre diversi attacchi realizzabili partendo da dati presenti in Facebook bisogna fissare alcuni concetti come :AdversarialInformationRetrieval Open Profile: profilo le cui informazioni possono essereSocial Spam accedute da chiunque nella reteSocial Spam -Casi di studio Closed Profile: profilo le cui informazioni possono essereFacebook accedute solo da alcune persone (amici)AttackRiferimenti Le informazioni su cui si baseranno gli attacchi sono quelle condivise su Facebook come informazioni di contatto, residenza, istruzione, sesso, interesse, nome degli amici, compleanno, wall post e news feeds. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 21 / 32
  • 22. Social Spam - Facebook attackAdversarial IRe Social Spam Nesello Verranno analizzati tre tipi di attacco: Lorenzo Relationship-based attacks: questo attacco utilizzaAdversarialInformation solamente le informazioni relative al rapporto di amiciziaRetrieval (friend-to-friend relationship information)Social SpamSocial Spam - Unshared-attribute attacks: questo attacco utilizza leCasi di studio informazioni relative al rapporto di amicizia insieme a unFacebookAttack attributo di una delle due parti, come ad esempio la dataRiferimenti di compleanno di un utente Shared-attribute attacks: questo attacco utilizza le informazioni relative al rapporto di amicizia insieme a un attributo visibile da entrambe le parti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 22 / 32
  • 23. Social Spam - Relationship-based attacksAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studioFacebookAttackRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 23 / 32
  • 24. Social Spam - Relationship-based attacksAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrieval Per questo tipo di attacco basta conoscere il nome utente di unSocial Spam amico della vittima e ovviamente la mail della vittima. InfineSocial Spam -Casi di studio basta costruire una email sullo stile delle email di notifica diFacebook Facebook invitando cos` l’utente attaccato a cliccare su un link ıAttack che rimander` a un sito controllato dall’attaccante. aRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 24 / 32
  • 25. Social Spam - Unshared-attribute attacksAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studioFacebookAttackRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 25 / 32
  • 26. Social Spam - Unshared-attribute attacksAdversarial IRe Social Spam Nesello Lorenzo Per effettuare questo tipo di attacco bisogna conoscere la dataAdversarial di compleanno dell’utente che si vuole attaccare. In caso diInformationRetrieval profilo aperto questa solitamente ` facilmente reperibile. Esiste eSocial Spam una funzionalit` in Facebook che permette di visualizzare le aSocial Spam -Casi di studio date di compleanno all’interno di una rete. L’attacco consisteFacebook nell’inviare una e-card falsa da parte di un amico convincedoAttack cos` l’attaccato a cliccare sui link presenti nella email. Un’altro ıRiferimenti tipo di attacco detto birthday invitation attack che consiste nell’inviare una email agli amici con un finto invito a una festa di compleanno con il risultato di farli cliccare su link malevoli. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 26 / 32
  • 27. Social Spam - Shared-attribute attacksAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studioFacebookAttackRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 27 / 32
  • 28. Social Spam - Shared-attribute attacksAdversarial IRe Social Spam Nesello LorenzoAdversarialInformation Questo tipo di attacco si basa su di un falso sito di fotogallery.Retrieval Si finge che un amico abbia condiviso online un album di foto eSocial Spam si invia una email alla vittima. L’argomento dell’album pu` oSocial Spam -Casi di studio essere la partecipazione a un evento, facilmente reperibile daiFacebook post nel wall. La falsa veridicit` viene data dal fatto che aAttack Facebook permette di pubblicare album di foto linkandoli aRiferimenti degli eventi. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 28 / 32
  • 29. Social Spam - Facebook attackAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrievalSocial SpamSocial Spam -Casi di studioFacebookAttackRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 29 / 32
  • 30. Social Spam - Facebook attackAdversarial IRe Social Spam Nesello LorenzoAdversarialInformationRetrieval Un risultato interessante ` dato dal fatto che una parte eSocial Spam significante degli utenti con il profilo chiuso vulnerabile agliSocial Spam -Casi di studio attacchi. Questo ` dovuto dal fatto che almeno un amico ha il eFacebook profilo aperto.AttackRiferimenti Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 30 / 32
  • 31. Social Spam - Defense optionsAdversarial IRe Social Spam Nesello Esistono alcuni metodi che possono far diminuire la probabilit` a Lorenzo di un attacco:Adversarial profilo accessibile solamente dagli amici (attaccabileInformationRetrieval tramite birthday-invitation)Social Spam rimuovere il cognome (decade l’usabilit`) aSocial Spam -Casi di studio rendere immagine le informazioni personali (da realizzareFacebookAttack da parte del creatore del social network e attaccabileRiferimenti tramite un software OCR) rendere difficile la creazione di fake account (soluzione molto difficile da applicare) Tutte queste idee servono solamente per ridurre la probabilit` a di attacchi ma non li evitano totalmente. Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 31 / 32
  • 32. RiferimentiAdversarial IRe Social Spam Nesello LorenzoAdversarial http://en.wikipedia.org/wiki/Adversarial_InformationRetrieval information_retrievalSocial Spam http://airweb.cse.lehigh.edu/Social Spam - Social Spam Detection [Markines, Cattuto, Menczer 2009]Casi di studio A Learning Approach to Spam Detection based on SocialFacebookAttack Networks [Lam, Yeung 2007]Riferimenti Social Networks and Context-Aware Spam [Brown, Ihbe, Prakash, Borders 2008] Nesello Lorenzo (Universit` di Padova) a Adversarial IR e Social Spam 02-12-2009 32 / 32

×