Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Author Profiling en Social Media. En la Academia... y en la Industria.

83 views

Published on

Diapositivas utilizadas en mi charla a los alumnos del máster Universitario en Sistemas Inteligentes de la Universitat Jaume I de Castellón. En la charla presento dos aproximaciones a los problemas de author profiling de identificación de sexo y edad, y de variedad del lenguaje, haciendo hincapié en la doble perspectiva universidad-empresa cuando se trata del rendimiento de los métodos aplicados: precisos y/o rápidos.

Published in: Data & Analytics
  • Be the first to comment

Author Profiling en Social Media. En la Academia... y en la Industria.

  1. 1. Author Profiling en Social Media En la academia... y en la industria UNIVERSITAT JAUME I 26 febrero 2019 Francisco Rangel & Paolo Rosso
  2. 2. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Author Profiling
  3. 3. ¿Cuál es el perfil de la comunidad de usuarios de tu organización? AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  4. 4. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Arabic Author Profiling for Cyber Security Aim: Detection of suspicious threatening messages and their author profiling. Fund: Qatar National Research Fund NPRP 9-175-1-033 (2017-2020) Carnegie Mellon University Qatar POTENTIAL THREATENING MESSAGE Deceptive or ironic? AUTHOR PROFILING DISCARD PROFILE YES NO
  5. 5. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  6. 6. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Aprendizaje automático (machine learning)
  7. 7. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Modelo de espacio vectorial
  8. 8. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 AUTORES CORPUS IDIOMA APROXIMACIONES Argamon et al. 2003 Koppel et al. 2003 BNC inglés ● Palabras de función ● POS y n-gramas POS ● Signos de puntuación ● Diccionario ● BOW ● n-gramas palabras y caracteres ● LIWC ● ¿y las emociones? ● ¿y las estructuras del lenguaje? ● ¿y la informalidad de los medios sociales? Schler et al. 2006 Goswami et al. (2009) Argamon et al. (2009) ... blogs inglés Peersman et al. (2011) Nguyen et al. (2011-13) Schartz et al. (2013) ... Netlog Twitter Facebook holandés inglés inglés Pennebaker (2003-...) ● Relación entre uso del lenguaje y rasgos de la persona (edad, sexo, ...) ● LIWC: Linguistic Inquiry and Word Count Los orígenes
  9. 9. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 La experiencia 2013-2019 PAN@CLEF Author profiling: - Age, gender, personality traits and language variety identification in Arabic, Spanish, Dutch, English, Italian and Portuguese. - Robots vs. Human identification, besides gender identification in the last case in English and Spanish. ● Estilísticas ● Emoticonos ● POS ● n-gramas ● LSA ● Diccionario ● IR ● Colocaciones ● 2º orden ● … ● ¿y las emociones? 2016-2017 PAN@FIRE Author profiling: - Personality detection in source code (Java/Python) - Gender identification in Russian. - Native language identification in Bengali, Hindi, Kannada, Malay, Tamil and Telugu. 2017-2018 STANCECAT @IBEREVAL Stance identification towards the Catalan independence and the Referendum in Catalan and Spanish, and the gender of the authors.
  10. 10. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 La tendencia
  11. 11. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 La realidad (en NLP) NLP available data?
  12. 12. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Al final... ...embeddings para todo!!
  13. 13. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  14. 14. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  15. 15. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ¿Quién es mujer/hombre?
  16. 16. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Algunas claves psico-lingüísticas
  17. 17. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ¿Quién es mujer/hombre?
  18. 18. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ¿Quién es mujer/hombre?
  19. 19. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ¿Quién es mujer/hombre?
  20. 20. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ¿Quién es mujer/hombre?
  21. 21. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ¿Quién es mujer/hombre?
  22. 22. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  23. 23. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  24. 24. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ● Partiendo de nuestra hipótesis: discurso + emociones --> sexo y edad ● Pretendemos modelar su papel no sólo en base a su frecuencia de aparición, sino por su posición con y en relación con el resto de elementos del discurso: eg. preposición + determinante + nombre + adjetivo ● Limitaciones del estado del arte: ○ Modelos basados en frecuencias no capturan la relación entre elementos. ○ Modelos basados en n-gramas limitados por la elección de la ventana n. ○ Modelos de análisis del discurso fallan en textos altamente informales. (Rangel & Rosso, IP&M 2016) Hipótesis
  25. 25. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Y los siguientes recursos: Dado un texto: He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. Freeling http://nlp.lsi.upc.edu/freeling WordNet Domains + EuroWordNet http://wndomains.fbk.eu http://www.illc.uva.nl/EuroWordNet Clasificación semántica de verbos Levin, B. English Verb Classes and Alternations. University of Chicago Press, Chicago. (1993) Lexicón de polaridad Hu, M., Liu, B. Mining and Summarizing Customer Reviews. In: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, Seattle, Washington, USA, pp. 168-177 (2004) Lexicón de emociones Sidorov,G.,Miranda,S.,Viveros,F.,Gelbukh,A.,Castro,N.,Velásquez,F.,Díaz,I.,Suárez, S., Treviño, A., Gordon, J.: Empirical Study of Opinion Mining in Spanish Tweets. 11th Mexican International Conference on Artificial Intelligence, MICAI, pp. 1-14 (2012) Construcción de EmoGraph
  26. 26. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Análisis morfosintáctico con Freeling
  27. 27. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Construcción del grafo
  28. 28. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Enriquecimiento semántico con Wordnet Domains
  29. 29. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Clasificación semántica de los verbos (Levin)
  30. 30. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Polaridad
  31. 31. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Emociones
  32. 32. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  33. 33. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  34. 34. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  35. 35. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  36. 36. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  37. 37. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  38. 38. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  39. 39. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  40. 40. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  41. 41. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  42. 42. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  43. 43. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  44. 44. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  45. 45. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  46. 46. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  47. 47. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  48. 48. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  49. 49. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  50. 50. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  51. 51. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  52. 52. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  53. 53. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  54. 54. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  55. 55. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  56. 56. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  57. 57. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  58. 58. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  59. 59. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  60. 60. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  61. 61. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 He estado tomando cursos en línea sobre temas valiosos que disfruto estudiando y que podrían ayudarme a hablar en público. EmoGraph
  62. 62. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Dado un grafo G={N,E} dónde, ○ N es el conjunto de nodos ○ E es el conjunto de ejes Obtenemos dos conjuntos de características: ○ características basadas en la estructura general del grafo ○ características específicas de los nodos Características
  63. 63. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Características estructurales del grafo
  64. 64. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Características locales de los nodos
  65. 65. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Estructura del grafo 8 características ENRatio Degree WeightedDegree Diameter Density Modularity Clustering PathLength Ratio nodos-arcos Grado medio del grafo Grado medio ponderado Diámetro del grafo Densidad del grafo Grado de modularidad Coeficiente de agrupamiento Longitud media del camino Específicas de los nodos 944 características (472 nodos) BTW-xx EIGEN-xx Valor de intermediación (betweenness) de cada nodo (xx) Valor de vector propio (eigenvector) de cada nodo (xx) Características Rangel-S 59 características Representación vectorial EmoGraph
  66. 66. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Pos. Equipo Accuracy 1 EmoGraph 66,24% 2 Pastor 65,58% 3 Santosh 64,30% 4 Rangel-S 63,50% 5 Haro 62,19% 6 Rangel-nG 61,62% ... 21 Mechti 5,12% Pos. Equipo Accuracy 1 Santosh 64,73% 2 EmoGraph 63,65% 3 Pastor 62,99% ... 7 Rangel-nG 60,16% ... 9 Rangel-S 57,13% ... 24 Gillam 47,84% Resultados de identificación de Sexo y Edad (PAN-AP'13)
  67. 67. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Análisis del error
  68. 68. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ● Características eigen en sexo vs. betweenness en edad. ● Verbos, nombres y adjetivos en sexo vs. preposiciones y signos de puntuación en edad. ● Alta presencia de características de emoción en identificación de sexo. Características más discriminantes
  69. 69. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Robustez frente a medios e idiomas (PAN-AP'14)
  70. 70. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 W: número de palabras en el documento S: número de etiquetas morfosintácticas N: número de nodos en el grafo E: número de ejes en el grafo Análisis de costes
  71. 71. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Conclusiones ● EmoGraph (grafos + emociones) permite corroborar nuestra hipótesis: discurso + emociones --> edad y sexo ○ Independiente del medio social y del idioma. ● En línea con los estudios referentes: ○ El sexo difiere en el modo de organizar el discurso en torno a determinadas categorías gramaticales, temas y emociones. ○ La edad difiere en el modo de articular el discurso, según el modo de conectar sus diferentes elementos. ● EmoGraph requiere de un mínimo de palabras para funcionar de manera óptima. ● Su complejidad computacional permite aplicarlo a entornos Big Data como son los medios sociales.
  72. 72. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Language Variety Identification
  73. 73. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Motivación: En los medios sociales no existen fronteras geográficas. ¿Cómo podemos segmentar por regiones? (no sólo marketing, también lingüística forense/seguridad). - ¿Cómo se distribuye geográficamente la opinión pública? - ¿Qué influencias culturales tiene el autor de una nota de amenaza? El problema puede consistir discriminar entre variedades de una misma lengua. Se considera una tarea de author profiling: influencia de la idiosincrasia cultural en el autor (e.g. diferentes expresiones, vocabulario…). Restricción: Big Data 4Vs (velocidad, volumen, variedad, valor) Identificación de variedad del lenguaje
  74. 74. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 ¿Nos diferenciamos los hablantes de una lengua, en sus distintos dialectos o variedades, al momento de expresar nuestras emociones?, ¿o las variaciones se producen a otro nivel, como por ejemplo en las palabras usadas para hacerlo? emociones (EmoGraph) vs. contenido (Rangel et al., CICLing 2016) Hipótesis
  75. 75. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Paso 1. Matriz de pesos tf-idf de los términos de los documentos: Paso 2. Peso de los términos dependiente de la clase: Paso 3. Representación de los documentos dependiente de la clase: - Cada columna es un término t del vocabulario - Cada fila representa a un documento d - wij es el peso tf-idf del término j en el documento i - representa la clase c asignada al documento i Low Dimensionality Statistical Embedding (LDSE)
  76. 76. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 avg El peso medio de un documento se calcula como la suma de todos los pesos W(t,c) de sus términos, dividido por el número total de términos del vocabulario en el documento. std La desviación estándar de los pesos de un documento se calcula como la raíz cuadrada de la suma de todos los términos W(t,c) menos la media. min El peso mínimo de un documento es el menor valor de los pesos W(t,c) del documento. max El peso máximo de un documento es el mayor valor de los pesos W(t,c) del documento. prob El peso global de un documento es la suma de pesos W(t,c) de los términos del documento dividido por el número total de términos del documento. prop Proporción entre el número de términos del vocabulario presentes en el documento y el número total de términos en el documento. Low Dimensionality Statistical Embedding (LDSE) NOTA: En la versión 2 incorporamos Kurtosis, Skewness y momentos.
  77. 77. * ** * ** Representation Accuracy (%) Skip-gram 72,2 LDSE 71,1 SenVec 70,8 BOW 52,7 Char 4-grams 51,5 EmoGraph 39,3 tf-idf 2-grams 32,2 Random baseline 20,0 Resultados de identificación de variedad (HispaBlogs) AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  78. 78. Complexity of obtaining the features: Number of features: Representation # Features LDSE (l=5) 30 Skip-gram 300 SenVec 300 EmoGraph 1,100 BOW 10,000 Char 4-grams 10,000 tf-idf 2-grams 10,000 l: number of varieties n: number of terms of the document m: number of terms in the document that coincides with some term in the vocabulary n m & l<<n AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Análisis de costes
  79. 79. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Robustez frente a otros idiomas (DSLCC) Lengua LDSE Skip-gram SenVec Búlgaro 99,9 100 100 Macedonio 99,9 100 100 Español-España 84,7* 82,1 86,3* Español-Argentina 88,0 90,3* 87,6 Portugués-Portugal 87,4* 83,2 90,0* Portugués-Brasil 90,0* 94,5* 87,6 Otras lenguas 99,9 99,8 99,8 Lengua LDSE Skip-gram SenVec Bosnio 78,0* 80,3 74,4 Croata 85,8 85,9 84,7 Serbio 86,4* 75,1 91,2 Indonesio 99,4 99,3 99,4 Malayo 99,2 99,2 99,8* Checo 99,8 99,9 99,8 Eslovaco 99,3 100* 99,3 * Resultados significativos con respecto al siguiente resultado
  80. 80. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Robustez frente a otros idiomas (PAN-AP'17) Árabe (l=4) Español (l=7) Inglés (l=5) Portugués (l=2) Media LDR 82.50% 96.25% 89.96% 98.75% 91.87% Basile et al. 83.13% 96.21% 89.88% 98.13% 91.84% Tellez et al. 82.75% 95.54% 90.04% 98.50% 91.71% Martinc et al. 82.88% 95.25% 86.88% 98.38% 90.85% Markov et al. 81.69% 94.39% 87.67% 98.50% 90.56% López-Monroy et al. 81.19% 94.32% 85.67% 98.25% 89.86% Miura et al. 81.25% 92.71% 87.17% 98.13% 89.82% Sierra et al. 79.50% 94.50% 83.92% 98.50% 89.11% Schaetti 81.31% 93.36% 81.50% 98.38% 88.64% ...hasta un total de 22 participantes
  81. 81. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Robustez frente a otros idiomas (CMUQ) 15 variedades de árabe
  82. 82. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Impacto del número de textos disponibles (CMUQ)
  83. 83. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Impacto del número de textos disponibles (CMUQ)
  84. 84. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Impacto del número de textos disponibles (CMUQ)
  85. 85. Dataset Genre Lang Age Pos. Gender Pos. Nº Partici. EmoGraph LDSE EmoGraph LDSE PAN-AP-2013 Social Media ES 66,24* 62,70 3 63,65* 60,75 6 21 PAN-AP-2014 Social Media ES 45,9 38,16 6 68,6* 56,89 9 9 PAN-AP-2014 Social Media EN 34,2* 31,63 6 53,4 51,42 9 10 PAN-AP-2014 Blogs ES 46,4 46,43 3 64,3 50,00 5 9 PAN-AP-2014 Blogs EN 46,2 38,46 3 71,3 67,95 1 10 PAN-AP-2014 Twitter ES 58,9 56,67 2 73,3 63,33 2 8 PAN-AP-2014 Twitter EN 45,5 52,60 1 72,1 67,53 3 9 AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 LDSE en identificación de sexo y edad
  86. 86. LDSE outperforms common state-of-the-art representations by 35% increase in accuracy. LDSE obtains competitive results compared with two distributed representation-based approaches that employed the popular continuous Skip-gram model. LDSE remains competitive with different languages and media. The dimensionality reduction is from thousands to only 6 features per language variety. This allows to deal with big data in social media. We have applied LDSE to age and gender identification with competitive results with respect to the well-behaved EmoGraph. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Conclusiones
  87. 87. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Pro n o no r in ?
  88. 88. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Foros de evaluación 2013-2019 PAN@CLEF Author profiling: - Age, gender, personality traits and language variety identification in Arabic, Spanish, Dutch, English, Italian and Portuguese. - Robots vs. Human identification, besides gender identification in the last case in English and Spanish. 2016-2017 PAN@FIRE Author profiling: - Personality detection in source code (Java/Python) - Gender identification in Russian. - Native language identification in Bengali, Hindi, Kannada, Malay, Tamil and Telugu. 2017-2018 STANCECAT @IBEREVAL Stance identification towards the Catalan independence and the Referendum in Catalan and Spanish, and the gender of the authors.
  89. 89. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Author Profiling task at PAN@CLEF 2019
  90. 90. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Task goal Given a Twitter feed, determine whether its author is a bot or a human. In case of human, identify her/his gender. Two languages: English Spanish
  91. 91. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Corpus (EN) English (ES) Spanish Bots Humans Total Bots Humans Total F M F M Training Training 1,440 720 720 2,880 1,040 520 520 2,080 Development 620 310 310 1,240 460 230 230 920 Total 2,060 1,030 1,030 4,120 1,500 750 750 3,000 https://s3.amazonaws.com/autoritas.pan/pan19-author-profiling-training-2019-02-18.zip Ask francisco.rangel@autoritas.es for the PASSWORD
  92. 92. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Corpus The uncompressed dataset consists in a folder per language (en, es). Each folder contains: ● A XML file per author (Twitter user) with 100 tweets. ○ The name of the XML file correspond to the unique author id. ● A truth.txt file with the list of authors and the ground truth. ○ truth-train.txt and truth-dev.txt The format of the XML files is:
  93. 93. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Corpus The format of the truth.txt file is as follows. ● The first column corresponds to the author id. ● The second and third columns contain the truth for the human/bot and bot/male/female tasks.
  94. 94. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Evaluation Your software must take as input the absolute path to an unpacked dataset, and has to output for each document of the dataset a corresponding XML file that looks like this: The naming of the output files is up to you. However, we recommend to use the author-id as filename and "xml" as extension. IMPORTANT! Languages should not be mixed. A folder should be created for each language and place inside only the files with the prediction for this language.
  95. 95. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 The accuracy is calculated per language and task: Evaluation measures Bot or human? Female or male? human acc acc
  96. 96. 9797 @kicorangel ...and I’ll profile you! Write to me...
  97. 97. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Material adicional
  98. 98. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Inteligencia colectiva ● Grandes cambios socioculturales. Revolución tecnológica. ● Nuevos medios sociales. Nuevos modelos de relación. ● Multitudes inteligentes. Inteligencia colectiva. Problemática ● Afán de influencia. Usuarios fake. ● Ciberdelincuentes. Acosadores. Pederastas. ● Spammers. Author Profiling ● Dime cómo escribes y te diré quién eres. Beneficios ● Lingüística forense. ● Mercadotecnia.
  99. 99. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Nuestra intuición (y nuestra experiencia preliminar)
  100. 100. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 CARACTERÍSTICAS ESTILÍSTICAS ● Frecuencias (palabras únicas, nº palabras, mayúsculas…) ● Signos de Puntuación ● Categorías Gramaticales con Información Morfosintáctica EMOCIONES ● Emoticonos ● 6 emociones básicas de Ekman (alegría, sorpresa, disgusto, enfado, tristeza, miedo) (SEL) (Sidorov et at., 2012) + Conjunto de 59 características basadas en la combinación de: Nos referiremos a esta representación como Rangel-S Nuestra propia experiencia
  101. 101. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Nuestra propia experiencia Emociones y Sexo en Facebook (Rangel & Rosso, ESSEM 2013) Emociones, Sexo y Edad en PAN (Rangel & Rosso, NLPCS 2013) Emociones y Tendencias en Twitter (Volgmann et al., ECAI 2014) Emociones, Sexo e Ironía en Facebook (Rangel et al., LREC 2014) - Las emociones permite detectar tendencias. - Estas características permiten identificar: - Emociones. - Sexo y edad. - Hemos descubierto* que: - Las mujeres usan más emociones. - Los hombres son más irónicos. - En política se expresan: - Más emociones negativas. - Más ironía. Recursos construidos: - Bárcenas (Twitter) - EmIroGeFB (Facebook) *en el dataset EmIroGeFB
  102. 102. Corpus PAN-AP13 103 ● Social Media en español. Gran tamaño, mucho ruido. Edad* Nº de Autores Entrenamiento Pruebas 10s 2.500 288 20s 42.600 4.608 30s 30.800 3.264 TOTAL 75.900 8.160 *Equilibrado por sexo
  103. 103. Aproximación combinada EmoGraph 104 ● Características: ○ Rangel-S ○ n-Gramas de POS (Rangel-nG) ○ EmoGraph ● Algoritmos de aprendizaje automático (Weka): ● Medida de evaluación: ○ Accuracy ○ t-Student (H0 :p1 =p2 ) Identificación de sexo Máquinas de Vectores Soporte Núcleo Gausiano: g=0.20 c=1 Identificación de edad Máquinas de Vectores Soporte Núcleo Gausiano: g=0.08 c=1
  104. 104. Corpus PAN-AP14 105 ● Corpus PAN-AP14 - Múltiples medios. Inglés y español. Edad* Social Media Blogs Twitter Revisiones Inglés Español Inglés Español Inglés Español Inglés 18-24 680 150 10 4 12 4 74 25-34 900 180 24 12 56 26 200 35-49 980 138 32 26 58 46 200 50-64 790 70 10 10 26 12 200 65+ 26 28 2 2 2 2 147 TOTAL 3.376 566 78 54 154 90 821 *Equilibrado por sexo. Se muestra sólo test(Rangel & Rosso, CLEF 2015)
  105. 105. EmoGraph: Robustez frente a medios e idiomas 106 ● Características: ○ 6-gramas caracteres (1.000 más frecuentes) + EmoGraph ● Algoritmos de aprendizaje automático (Weka): ● Medida de evaluación: ○ Accuracy Identificación de sexo Twitter inglés Regresión Logística Identificación de sexo y edad revisiones y social media en inglés Máquinas de Vectores Soporte Identificación de edad Twitter español Máquinas de Vectores Soporte El resto Adaboost (Decision Stump)
  106. 106. Dataset - EmIroGeFB ● Etiquetados con las 6 emociones básicas de Ekman. ● Tres anotadores. Concordancia: 14,55% 107 4 páginas por tema Miles de posts 200 comentarios por página y sexo. Total 1.200 comentarios Resultados ● r=18 y accuracy=59% - Valor comparativo al PAN. Conclusiones ● Las características usadas para identificar emociones, permiten identificar el sexo, lo que sugiere cierta correlación entre el uso de emociones y el sexo del autor. MUJERES HOMBRES Determinante 6,81 7,74 Interjección 0,18 0,30 Preposición 6,25 5,85 Pronombres 2,24 2,67 Emociones ● Etiquetados con las 6 emociones básicas de Ekman. ● Tres anotadores. Concordancia: 14,55% Emociones y Sexo en Facebook (Rangel & Rosso, ESSEM 2013)
  107. 107. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Características Accuracy F + P 52,92% C 55,42% F + P + C 56,25% F + P + C + E + SEL 59,09% Simple Graph 50,83% Complete Graph 51,92% Semantic Graph 55,01% EmoGraph 65,96% z0.05 = 3.4764 >> 1.960 LEYENDA - F: Frecuencias - P: Signos de puntuación - C: Categorías gramaticales - E: Emoticonos - SEL: Lexicón emociones - Simple Graph: Grafo categorías gramaticales - Complete Graph: Simple + info. morfosintáctica - Semantic Graph: Complete + info. semántica - EmoGraph: Semantic + emociones Contribución de EmoGraph en EmIroGeFB
  108. 108. Hispablogs https://github.com/autoritas/RD-Lab/tree/master/data/HispaBlogs - - Completely independent authors between training and test sets - - Manually collected by social media experts of Autoritas AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19
  109. 109. LDSE: Representaciones del estado del arte 110 ● Modelos basados en n-gramas. ● Iteramos n entre 1 y 10. ● Seleccionamos los 1.000, 5.000 y 10.000 n-gramas más frecuentes (o de mayor peso). ● Los mejores resultados se obtienen con: ○ 4-gramas de caracteres; los 10.000 más frecuentes. ○ 1-gramas de palabras (bag-of-words); los 10.000 más frecuentes. ○ 2-gramas de palabras; los 10.000 con mayor tf-idf.
  110. 110. LDSE: Representaciones distribuidas 111 Dos variantes del modelo skip-gramas continuo de Mikolov et al.: - Skip-gram - Vectores de frases (SenVec) (Franco et al., CLEF 2015)
  111. 111. Significance of the results wrt. the two systems with the highest performance AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Efecto del algoritmo de aprendizaje
  112. 112. Accuracy obtained after removing words with frequency equal or lower than n (a) Continuous scale (b) Non-continuous scale AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Efecto del preprocesamiento en el rendimiento
  113. 113. Number of words after removing those with frequency equal or lower than n, and some examples of very infrequent words. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Efecto del preprocesamiento en el tamaño
  114. 114. Accuracy obtained with different combinations of features AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Contribución de las características
  115. 115. DSLCC corpus 116 Grupo Lengua Código Eslavo sudoriental Búlgaro Macedonio bg mk Eslavo sudoccidental Bosnio Croata Serbio bs hr sr Eslavo occidental Checo Eslovaco cz sk Español Argentino Peninsular es-AR es-ES Portugués Brasileño Europeo pt-BR pt-PT Austranesio Indonesio Malayo id my Otros xx Entrenamiento Desarrollo Pruebas 252.000 28.000 14.000 DSLCC ● Frases extraídas de noticias. ● Frases de entre 20 y 100 tokens. ● Número de instancias por conjunto: (Franco et al., DSL 2015; Fabra et al., DSL 2015) (Zampieri et al., 2014)
  116. 116. CMUQ corpus 117 Variedad Región Variedad Región Algeria Maghreb Palestine Jordan Levantine Egypt Egypt Qatar Gulf Iraq Iraq Saudi Arabia Gulf Kuwait Gulf Sudan Maghreb Lebanon Syria Levantine Tunisia Maghreb Libya Libya UAE Gulf Morocco Maghreb Yemen Gulf Oman Gulf Entrenamiento Pruebas 1 170 360 ● 22 países árabes ○ 15 variedades ● 102 autores por variedad ○ 78 entrenamiento / 24 evaluación ● Más de 2000 tuits por autor ● Etiquetado con: ○ Sexo (mujer / hombre) ○ Edad (25-, 25-35, 35+) (Zaghouani et al., 2018)
  117. 117. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Robustez frente a otros idiomas (CMUQ)
  118. 118. AUTHORPROFILINGENSOCIALMEDIAUJIfeb'19 Referencias ● Rangel, F., Rosso, P., Koppel, M., Stamatatos, E., Inches, G. Overview of the Author Profiling Task at PAN 2013. In: Forner P., Navigli R., Tufis D. (Eds.)Notebook Papers of CLEF 2013 LABs and Workshops. CEUR-WS.org, vol. 1179 (2013) ● Rangel, F., Rosso, P., Chugur, I., Potthast, M., Trenkmann, M., Stein, B., Verhoeven, B., Daelemans, W. Overview of the 2nd AuthorProfiling Task at PAN 2014. In: Cappellato L., Ferro N., Halvey M., Kraaij W. (Eds.) CLEF 2014 Labs and Workshops, Notebook Papers. CEUR-WS.org, vol. 1180, pp. 898-827. (2014) ● Rangel F., Rosso P., Potthast M., Stein B. (2017). Overview of the 5th Author Profiling Task at PAN 2017: Gender and Language Variety Identification in Twitter. In: Cappellato L., Ferro N., Goeuriot L, Mandl T. (Eds.) CLEF 2017 Labs and Workshops, Notebook Papers. CEUR Workshop Proceedings. CEUR-WS.org, vol. 1866. (2017) ● Rangel F., Rosso P. On the Impact of Emotions on Author Profiling. In: Information Processing & Management 52(1):73-92 (2016) ● Rangel, F., Rosso, P., Franco, M. A Low Dimensionality Representation for Language Variety Identification. In: Proceedings of the 17th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing’16), Springer-Verlag, (arXiv:1705.10754) (2016) ● Zampieri, Marcos and Tan, Liling and Ljubeˇsi ́c, Nikola and Tiedemann, J ̈org. A reporton the DSL shared task 2014. Proceedings of the first workshop on applying NLP toolsto similar languages, varieties and dialects, pp. 58–67 (2014) ● Zaghouani, Wajdi and Charfi, Anis. ArapTweet: A Large MultiDialect Twitter Corpusfor Gender, Age and Language Variety Identification. In Proceedings of the 11th Inter-national Conference on Language Resources and Evaluation (LREC), Miyazaki, Japan (2018)

×