Filtrado e-mail spam

5,147 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
5,147
On SlideShare
0
From Embeds
0
Number of Embeds
30
Actions
Shares
0
Downloads
63
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Filtrado e-mail spam

  1. 1. Filtrado de SPAM <ul><ul><li>Referencias: </li></ul></ul><ul><ul><li>Hulten & Goodman: Tutorial on Junk e-mail filtering. </li></ul></ul><ul><ul><li>Boykin: Personal Email Networks: An Effective Anti-Spam Tool, 2004 </li></ul></ul><ul><ul><li>Newman et al. : Email networks and the spread of computer viruses, 2002 </li></ul></ul><ul><ul><li>www.paulgraham.com </li></ul></ul><ul><ul><li>Curso: Recuperación de Información </li></ul></ul><ul><ul><li>-- ChaTo </li></ul></ul>
  2. 2. Adversarial – IR <ul><li>Recuperación de información cuando toda la colección, o una parte de la colección, contiene ítems maliciosamente diseñados para afectar los resultados. </li></ul>
  3. 3. Definición de spam <ul><li>Envío de numerosos mensajes no-solicitados </li></ul><ul><ul><li>“Unsolicited Bulk E-mail” (UBE) </li></ul></ul><ul><li>Mensajes comerciales son una categoría </li></ul><ul><ul><li>“Unsolicited Commercial E-Mail” (UCE) </li></ul></ul><ul><li>Pero mensajes no-comerciales también cuentan </li></ul><ul><li>Opt-in : yo elijo cuáles mensajes recibir </li></ul><ul><li>Opt-out : yo elijo cuáles mensajes dejar de recibir </li></ul><ul><ul><li>... después de recibirlos :( </li></ul></ul>
  4. 4. Origen de la palabra “spam” <ul><li>Carne de cerdo enlatada </li></ul><ul><li>Sketch de Monty Python: café donde todo en el menú contiene SPAM. El cliente pide algo sin SPAM, pero el mesero le lee de nuevo el menú completo con SPAM. </li></ul><ul><ul><li>El colmo es cuando los vikingos ( ! ) en el café empiezan a cantar “ &quot;SPAM, SPAM, wonderful SPAM, glorious SPAM&quot;. </li></ul></ul>
  5. 5. Tipos de spam <ul><li>SPAM a máquinas de búsqueda (spamdexing?) </li></ul><ul><ul><li>Links, blogs, palabras </li></ul></ul><ul><li>SPAM por e-mail </li></ul><ul><li>SPAM por mensajería instantánea (spim) </li></ul><ul><li>SPAM por SMS </li></ul><ul><li>SPAM en las News. </li></ul><ul><li>SPAM en chats. </li></ul>
  6. 6. Composición del spam por e-mail <ul><li>Viagra + similares 34% </li></ul><ul><li>Seguros 4% </li></ul><ul><li>Medicamentos 10% </li></ul><ul><li>Préstamos, etc. 13% </li></ul><ul><li>Viajes, casinos 3% </li></ul><ul><li>Fraude 6% </li></ul><ul><li>Pornografía 7% </li></ul><ul><li>Diplomas, software 10% </li></ul>
  7. 7. Causas del spam <ul><li>“Tragedia del bien comunitario” </li></ul><ul><ul><li>Cada uno trata de maximizar su utilidad, pero genera una externalidad que minimiza la satisfacción global </li></ul></ul><ul><ul><li>La acción del individuo produce una “externalidad” </li></ul></ul><ul><li>Dilema del prisionero colectivo </li></ul><ul><ul><li>Cada uno elije cooperar (ej.: no contaminar) o no cooperar (ej.: contaminar) </li></ul></ul><ul><ul><li>Si todos cooperan, hay un óptimo global </li></ul></ul><ul><ul><li>Si uno no coopera , esa persona obtiene un beneficio a costa de los otros </li></ul></ul>
  8. 8. Causas del spam (cont.) <ul><li>Bien colectivo : e-mail, libre de cargos </li></ul><ul><li>Ingenuidad de los que contestan el spam </li></ul><ul><li>Costos </li></ul><ul><ul><li>Uso de red </li></ul></ul><ul><ul><li>Tiempo perdido en leer el spam </li></ul></ul><ul><ul><li>Tiempo perdido en borrar el spam </li></ul></ul><ul><ul><li>40-80% de los mensajes en USA son spam </li></ul></ul><ul><li>Otros usos </li></ul><ul><ul><li>Uso malicioso (estafas), usos religiosos/políticos </li></ul></ul>
  9. 9. Obtención de destinatarios <ul><li>Crawlers orientados a e-mail </li></ul><ul><ul><li>Algunos incluso capturan palabras cerca de la dirección para asociarlas al e-mail </li></ul></ul><ul><li>Grupos, news, listas de correo, whois, búsqueda exhaustiva con validación (Web Bugs) </li></ul><ul><li>Compra de listas de correo </li></ul><ul><li>Protección </li></ul><ul><ul><li>Esconder la dirección en la Web (ej.: esconderla con javascript) </li></ul></ul><ul><ul><li>No dar la dirección real </li></ul></ul>
  10. 10. Creación de los mensajes <ul><li>Ingeniería social </li></ul><ul><ul><li>“old photos” </li></ul></ul><ul><ul><li>“I saw your profile” </li></ul></ul><ul><ul><li>“re: Request” </li></ul></ul><ul><li>Contra-ataque hacia filtros automáticos </li></ul><ul><ul><li>V.I.A.G.R.A. </li></ul></ul><ul><ul><li>/14GR4, V-IAGRA, V1A-GRA </li></ul></ul><ul><ul><li>Uso de HTML </li></ul></ul>
  11. 11. Técnicas más usadas <ul><li>Enredar las palabras 20% </li></ul><ul><li>Partir las palabras 15% </li></ul><ul><li>Incluír otras URLs 10% </li></ul><ul><li>Falsear el dominio 50% </li></ul><ul><li>MIME (text/html distintos) 11% </li></ul><ul><li>Texto legítimo al ppio/fin 56% </li></ul><ul><ul><li>Fuente: Hotmail, 2004 </li></ul></ul>
  12. 12. Envío de los mensajes <ul><li>Open relays </li></ul><ul><ul><li>Máquinas que admiten e-mail de cualquiera a cualquiera </li></ul></ul><ul><ul><li>Open proxies: proxies abiertos al puerto 25 </li></ul></ul><ul><li>Virus de spammer (ej.: SoBig, Mimail) </li></ul><ul><li>Cuentas de correo gratis </li></ul><ul><ul><li>Protección: imágen con texto </li></ul></ul><ul><ul><li>Ataque: pedir a usuarios de otros sitios que decifren la imágen (ej.: sitios de pornografía gratis) </li></ul></ul>
  13. 13. Cómo testear un open relay <ul><ul><ul><li>% telnet chato.cl 25 </li></ul></ul></ul><ul><ul><ul><li>Trying 192.80.24.37... </li></ul></ul></ul><ul><ul><ul><li>Connected to terminus.todocl.cl. </li></ul></ul></ul><ul><ul><ul><li>Escape character is '^]'. </li></ul></ul></ul><ul><ul><ul><li>220 terminus.todocl.cl ESMTP Sendmail 8.11.0/8.11.0; Tue, 22 Jun 2004 13:13:33 -0400 </li></ul></ul></ul><ul><ul><ul><li>mail from: vendo@viagra.com </li></ul></ul></ul><ul><ul><ul><li>250 2.1.0 vendo@viagra.com... Sender ok </li></ul></ul></ul><ul><ul><ul><li>rcpt to: ejemplo@example.com </li></ul></ul></ul><ul><ul><ul><li>550 5.7.1 ejemplo@example.com... Relaying denied </li></ul></ul></ul><ul><ul><ul><li>quit </li></ul></ul></ul><ul><ul><ul><li>221 2.0.0 terminus.todocl.cl closing connection </li></ul></ul></ul><ul><ul><ul><li>Connection closed by foreign host. </li></ul></ul></ul>
  14. 14. Algunas soluciones técnicas al spam <ul><li>Filtrado por similaridad </li></ul><ul><li>Lista blanca o Lista negra </li></ul><ul><ul><li>IP, segmentos, direcciones de e-mail, dominios </li></ul></ul><ul><li>Pago por enviar </li></ul><ul><li>Filtrado por aprendizaje automático </li></ul>
  15. 15. Solución: filtrado por similaridad <ul><li>Ej.: modelo vectorial </li></ul><ul><ul><li>El e-mail recibido es la consulta </li></ul></ul><ul><li>Necesita almacenar ejemplos de spam </li></ul><ul><ul><li>Direcciones “ honeypot ” para capturar mensaje que son 100% spam </li></ul></ul><ul><ul><li>Feedback del usuario </li></ul></ul><ul><li>Los e-mail son variaciones unos de otros </li></ul><ul><li>Se requiere una función robusta para similaridad (ej.: modelo vectorial + heurísticas) </li></ul>
  16. 16. Solución: lista negra de IPs <ul><li>Algunas listas son demasiado agresivas </li></ul><ul><ul><li>Ej.: la red de un cierto ISP tiene un subscriptor que envía spam, al mensaje número 1,000 detectado se bloquea el segmento de red completo </li></ul></ul><ul><li>Algunas listas reaccionan muy tarde </li></ul><ul><ul><li>Después de que ya muchos mensajes han sido recibidos </li></ul></ul>
  17. 17. Solución: pago por enviar <ul><li>Pago con test de turing </li></ul><ul><ul><li>Recibo el mensaje y envío una imágen con letras </li></ul></ul><ul><ul><li>El remitente debe enviarme las letras </li></ul></ul><ul><ul><li>Una vez que lo hace, leo su mensaje y lo agrego a lista blanca </li></ul></ul><ul><li>Pago con computación </li></ul><ul><ul><li>Recibo el mensaje y envío una operación matemática compleja </li></ul></ul><ul><ul><li>El remitente debe enviarme la respuesta </li></ul></ul><ul><li>Se usa en forma selectiva ( sólo sospechosos ) </li></ul>
  18. 18. Más soluciones ... <ul><li>Pago en dinero por enviar </li></ul><ul><ul><li>Micropagos </li></ul></ul><ul><ul><li>Autoridad certificadora: les pago y además deposito US$1,000, cuando me quiero ir me devuelven US$1,000 – (US$100 * número-de-reclamos) </li></ul></ul><ul><li>Direcciones efímeras </li></ul><ul><ul><li>www.sitio.com me pide mi e-mail </li></ul></ul><ul><ul><li>Le contesto “ [email_address] “ </li></ul></ul><ul><ul><li>Una vez que recibo el e-mail de ellos, sólo el sender de ese e-mail puede enviar a esta dirección </li></ul></ul>
  19. 19. Filtrado automático <ul><li>Se parte con un corpus de mensajes de spam y mensajes no-spam clasificados manualmente </li></ul><ul><li>Se entrena un clasificador </li></ul><ul><li>El clasificador entrega una probabilidad de que el mensaje sea spam </li></ul>
  20. 20. Filtrado automático (problemas) <ul><li>En la práctica </li></ul><ul><ul><li>Difícil que la gente entrene el filtro </li></ul></ul><ul><ul><li>¿Cómo damos un filtro pre-entrenado? (ej.: si le pido a académicos/investigadores que entrenen el filtro, pero sus e-mails son principalmente texto, el e-mail de la gente normal no) </li></ul></ul>
  21. 21. Evaluación <ul><li>Problema 1: “ falsos negativos ” </li></ul><ul><ul><li>Era spam pero el filtro no lo detectó </li></ul></ul><ul><ul><li>Equivalente a tener mal recall </li></ul></ul><ul><li>Problema 2: “ falsos positivos ” </li></ul><ul><ul><li>Era correo válido y quedó como spam </li></ul></ul><ul><ul><li>Equivalente a tener mala precisión </li></ul></ul><ul><li>Trade-off entre estos dos problemas </li></ul><ul><li>Difícil de comparar (¿2%-0.1% ó 0.5%-0.2%?) </li></ul>
  22. 22. Evaluación de filtrado automático spam que pasa el filtro (1-RECALL) falsos positivos (1-PRECISIÓN) filtro muy conservador filtro muy agresivo (óptimo) 1% 1% (valores usados)
  23. 23. Elección de parámetros para el filtro spam que pasa el filtro falsos positivos filtro muy conservador filtro muy agresivo (óptimo) 1% 1% Lo detectado como spam será borrado (> /dev/null), elijo un valor conservador
  24. 24. Elección de parámetros spam que pasa el filtro falsos positivos filtro muy conservador filtro muy agresivo (óptimo) 1% 1% Lo detectado como spam será sólo marcado [SPAM], me arriesgo más
  25. 25. Filtrado bayesiano de spam <ul><li>Teorema de Bayes </li></ul><ul><ul><li>P(B|A) = ( P(A|B) * P(B) ) / P(A) </li></ul></ul><ul><li>Teorema de Bayes para filtro de e-mail </li></ul><ul><ul><li>Evento “spam” = mensaje es spam </li></ul></ul><ul><ul><li>Evento “palabras” = mensaje contiene palabras malas </li></ul></ul><ul><li>P(spam|palabras) = </li></ul><ul><ul><ul><li>P(palabras|spam) * P(spam) / P(palabras) </li></ul></ul></ul><ul><ul><li>Probabilidad de que un mensaje es spam, dado que contiene palabras malas </li></ul></ul>
  26. 26. Naïve bayesiano <ul><li>Asumimos que las palabras son independientes </li></ul><ul><ul><li>P(spam | x, y) = P(spam | x) * P(spam | y) </li></ul></ul><ul><li>Probabilidad de que sea spam dado que aparecen las palabras x e y, es el producto de las probabilidades. </li></ul><ul><li>Esto no es cierto en general (las ocurrencias de las palabras no son independientes) </li></ul>
  27. 27. Ejemplo <ul><li>P( credit, thank | spam ) = </li></ul><ul><ul><li>0.4 * 0.4 = 0.16 </li></ul></ul><ul><li>P( credit, thank | nospam ) = </li></ul><ul><ul><li>0.2 * 0.4 = 0.08 </li></ul></ul><ul><li>En ausencia de más evidencia, el mensaje es spam </li></ul><ul><li>Más probable si recibo mucho spam </li></ul><ul><li>Más probable si las palabras son poco usadas </li></ul>
  28. 28. Problemas de filtros bayesianos <ul><li>Usuarios tienen que clasificar mensajes </li></ul><ul><ul><li>A veces se equivocan clasificando </li></ul></ul><ul><li>Degradación del filtro en ciertos casos </li></ul><ul><ul><li>Ej.: siempre recibo correo en español, así que todo el correo en inglés lo considero spam. PERO cuando empiezo a recibir correo en inglés el filtro lo considera spam. </li></ul></ul><ul><li>Frases “ Click here to enter ”, la frase es buena para separar spam, los términos individuales no . </li></ul>
  29. 29. Lo bueno de los filtros bayesianos <ul><li>No necesitas guardar los mensajes </li></ul><ul><ul><li>Privacidad </li></ul></ul><ul><ul><li>Espacio en disco </li></ul></ul><ul><li>Buena precisión y recall </li></ul><ul><li>Se pueden dar pre-entrenados con un set básico </li></ul>
  30. 30. Otro filtraje automático <ul><li>Separación lineal de mensajes </li></ul>Hiper-plano separador Razgo-1 Razgo-N
  31. 31. Otro filtraje automático (cont.) <ul><li>A veces no son linealmente separables, y además es computacionalmente difícil </li></ul>Hiper-plano separador Razgo-1 Razgo-N
  32. 32. Mejora de filtros automáticos <ul><li>No sólo las palabras </li></ul><ul><li>Usar otra evidencia: </li></ul><ul><ul><li>Frases a mano “free money”, etc. </li></ul></ul><ul><ul><li>% de caracteres no-alfanuméricos </li></ul></ul><ul><ul><li>Encoding </li></ul></ul><ul><ul><li>Attachments </li></ul></ul><ul><ul><li>Hora en que fue enviado/recibido </li></ul></ul><ul><ul><li>Texto grande en HTML </li></ul></ul><ul><ul><li>Texto invisible </li></ul></ul>
  33. 33. Heurística buena: re-definición de tokens <ul><li>Preservar mayúsculas/minúsculas </li></ul><ul><ul><li>“FREE” es peor que “free” </li></ul></ul><ul><li>Incluir los signos de exclamación </li></ul><ul><ul><li>“WIN!!!!” es peor que “win” </li></ul></ul><ul><li>Números precedidos de un $ y con puntos y comas son tokens </li></ul><ul><ul><li>$20,000 y US$18.00 son tokens </li></ul></ul><ul><li>Marcar los tokens del encabezado </li></ul><ul><ul><li>“Subject*Free”, “To*Friend” son tokens </li></ul></ul><ul><li>También usado: lematización </li></ul>
  34. 34. Esta heurística ayuda: <ul><li>Subject*FREE 0.9999 </li></ul><ul><li>free!! 0.9999 </li></ul><ul><li>To*free 0.9998 </li></ul><ul><li>Subject*free 0.9782 </li></ul><ul><li>free! 0.9199 </li></ul><ul><li>Free 0.9198 </li></ul><ul><li>Url*free 0.9091 </li></ul><ul><li>FREE 0.8747 </li></ul><ul><li>From*free 0.7636 </li></ul><ul><li>free 0.6546 </li></ul>
  35. 35. Problema: tokens no vistos <ul><li>Transformación del token, ej.: “Free!!!!” </li></ul><ul><ul><li>Subject*Free!!! </li></ul></ul><ul><ul><li>Subject*free!!! </li></ul></ul><ul><ul><li>Subject*FREE! </li></ul></ul><ul><ul><li>Subject*Free! </li></ul></ul><ul><ul><li>Subject*free! </li></ul></ul><ul><ul><li>Subject*FREE </li></ul></ul><ul><ul><li>Subject*Free </li></ul></ul><ul><ul><li>Subject*free </li></ul></ul><ul><ul><li>FREE!!! </li></ul></ul><ul><ul><li>Free!!! </li></ul></ul><ul><ul><li>free!!! </li></ul></ul><ul><ul><li>FREE! </li></ul></ul><ul><ul><li>Free! </li></ul></ul><ul><ul><li>free! </li></ul></ul><ul><ul><li>FREE </li></ul></ul><ul><ul><li>Free </li></ul></ul><ul><ul><li>free </li></ul></ul>
  36. 36. Múltiple evidencia (SpamAssasin) 1.3 X_PRIORITY_HIGH Sent with 'X-Priority' set to high 1.0 FROM_ENDS_IN_NUMS From: ends in numbers 1.9 REMOVE_REMOVAL_1WORD BODY: List removal information 0.1 HTML_FONTCOLOR_BLUE BODY: HTML font color is blue 0.1 HTML_MESSAGE BODY: HTML included in message 0.1 HTML_FONTCOLOR_RED BODY: HTML font color is red -4.9 BAYES_00 BODY: Bayesian spam probability is 0 to 1% [score: 0.0048] 0.9 MAILTO_SUBJ_REMOVE BODY: mailto URI includes removal text 0.1 RCVD_IN_SORBS RBL: SORBS: sender is listed in SORBS [200.112.35.101 listed in dnsbl.sorbs.net] 0.1 RCVD_IN_RFCI RBL: Sent via a relay in ipwhois.rfc-ignorant.org [200.112.35.101 has inaccurate or missing WHOIS] [data at the RIR] 1.0 FROM_HAS_ULINE_NUMS From: contains an underline and numbers/letters 0.7 PLING_PLING Subject has lots of exclamation marks 0.5 MIME_BOUND_NEXTPART Spam tool pattern in MIME boundary 1.2 PRIORITY_NO_NAME Message has priority setting, but no X-Mailer Subject: Vier. 25 fiesta gratis en Viña!! [...]Viernes 25 Fiesta GRATIS en VI&Ntilde;A:: ::No te pierdas este viernes 25, la mejor fiesta de la V Region. Vi&ntilde;a y Santiago se reunen en un solo y exclusivo lugar: Puerto Madero, unico con su terraza bailable con vista al mar:: [...] Content analysis details: ( 4.0 points, 3.5 required )
  37. 37. Más heurísticas <ul><li>HTML </li></ul><ul><ul><li>Formularios </li></ul></ul><ul><ul><li>Texto en color/grande/chico </li></ul></ul><ul><li>Instrucciones para salir de la lista </li></ul><ul><ul><li>mailto:email?Subject=remove </li></ul></ul><ul><ul><li>To remove, ... </li></ul></ul><ul><li>“This is a one time mailing” </li></ul><ul><li>Encabezado To: vacío </li></ul><ul><li>From terminado en números </li></ul>
  38. 38. Más heurísticas (cont.) <ul><li>Lista blanca - negra - gris (amigos de amigos) </li></ul><ul><li>Mensajes muy grandes no son spam, pero pueden ser virus </li></ul><ul><li>Listas a mano, ejemplo de SpamBouncer: </li></ul><ul><li>* ^From:.*[^-_0-9a-z](ABACHA| </li></ul><ul><li>momoh abdul| </li></ul><ul><li>Rebecca Abdulmalik| </li></ul><ul><li>remmy abu| </li></ul><ul><li>Abdulsalami Abubakar| </li></ul><ul><li>Haruna Abubakar| </li></ul><ul><li>FRANK ABUDU| </li></ul><ul><ul><ul><ul><ul><li>(¡300 líneas más!) </li></ul></ul></ul></ul></ul>
  39. 39. Pesos para las reglas <ul><li>Cuando hay 500 reglas o más, ¿cómo se asignan los pesos? </li></ul><ul><li>Método 1: algoritmo genético </li></ul><ul><ul><li>Individuo = vector de pesos de las reglas </li></ul></ul><ul><ul><li>Aptitud = f( falsos_negativos, falsos_positivos) </li></ul></ul><ul><ul><li>Cruce = intercambio de reglas </li></ul></ul><ul><li>En cada generación cada individuo es testeado contra todos los mensajes para ver su probabilidad de sobrevivir -> LENTO </li></ul>
  40. 40. Pesos para las reglas (cont.) <ul><li>Mejor: red neuronal con retropropagación de gradiente (el truco más antiguo en la caja de herramientas). </li></ul>Reglas SPAM NO SPAM Si el resultado es correcto, se refuerza positivamente Si el resultado es incorrecto, se refuerza negativamente El corpus completo pasa por el perceptron k=15 veces (cada vez en orden aleatorio) El resultado son pesos positivos y negativos
  41. 41. Análisis de enlaces <ul><li>Nodos = Usuarios </li></ul><ul><li>Enlace desde u1 a u2 si: </li></ul><ul><ul><li>u1 envió un mensaje To:u2 </li></ul></ul><ul><ul><li>u1 envió un mensaje Cc:u2 </li></ul></ul>
  42. 42. Caracterización enlaces <ul><li>Difícil de obtener datos </li></ul><ul><li>Boykin: Personal Email Networks: An Effective Anti-Spam Tool, 2004 </li></ul><ul><li>Newman et al. : Email networks and the spread of computer viruses, 2002 </li></ul><ul><ul><li>Intercambio de correo interno en una universidad (entre miembros de la misma universidad, descartando mensajes hacia/desde el exterior) </li></ul></ul>
  43. 43. Estadísticas grafo E-Mail <ul><li>¡ Es scale-free ! --- Grado promedio = 3.4 </li></ul><ul><li>Reciprocidad (cuántos de los que yo le escribo me escriben también) 0.23 </li></ul><ul><li>Correlación(grado interno,grado externo)=0.5 </li></ul>
  44. 44. Detección spam con grafo Boykin & Roychowdhury '04 <ul><li>Grafo típico de SPAM </li></ul><ul><ul><li>Spammers en rojo </li></ul></ul><ul><ul><li>Direcciones comunes al centro </li></ul></ul><ul><li>Grafo típico de NO-SPAM </li></ul><ul><ul><li>Hay muchos triángulos, que son comunidades </li></ul></ul>
  45. 45. Detección spam con grafo ... <ul><li>SPAM </li></ul><ul><ul><li>Bajo coeficiente de clustering </li></ul></ul><ul><li>NO-SPAM </li></ul><ul><ul><li>Alto coeficiente de clustering </li></ul></ul><ul><ul><li>Muchos triángulos y cuadrados </li></ul></ul>
  46. 46. Software <ul><li>SpamAssasin </li></ul><ul><ul><li>Incluye un daemon para acelerar el proceso, si está corriendo, el mensaje es enviado de ida y vuelta al daemon </li></ul></ul><ul><li>SpamBouncer </li></ul><ul><ul><li>Reglas basadas en procmail </li></ul></ul><ul><li>Bogofilter </li></ul><ul><ul><li>Principalmente bayesiano sobre el texto </li></ul></ul>
  47. 47. ¿Cuando termina el SPAM? <ul><li>Beneficio de enviar mensaje = $b per mensaje </li></ul><ul><ul><li>b = (costo envío) * (tasa respuesta) * (profit) </li></ul></ul><ul><li>Si una fracción de los usuarios usa un filtro que es 99% efectivo, la tasa de respuesta baja </li></ul><ul><ul><li>Ejemplo: 10% de los usuarios usa filtro => un 9.9% de los mensajes de SPAM será perdido, los spammers pierden ahora un 9.9% del negocio </li></ul></ul><ul><ul><li>Ejemplo: 50% de los usuarios usa filtro => 49.5% de los mensajes de SPAM se pierden, el beneficio ahora es la mitad, quizás en estas condiciones ya no es negocio </li></ul></ul>
  48. 48. Conclusion <ul><li>Problema difícil </li></ul><ul><li>¿Por cuánto tiempo será problema? </li></ul><ul><ul><li>Mientras haya la posibilidad de avisar casi-gratis y la gente siga comprando </li></ul></ul><ul><li>La tasa de respuesta tiene que descender </li></ul><ul><ul><li>Solución autoritaria : “ si alguien contesta un spam, se le cierra la cuenta ”, porque nos perjudica a todos </li></ul></ul><ul><li>Un filtro será absolutamente necesario </li></ul>

×