El documento describe una consultora tecnológica llamada Autoritas que se especializa en inteligencia artificial y análisis de grandes datos. La compañía tiene oficinas en varios países y regiones del mundo. Autoritas realiza investigaciones activas en colaboración con universidades y centros de investigación para desarrollar nuevas tecnologías en áreas como la recuperación de información, el procesamiento de lenguaje natural y el aprendizaje automático.
2. AUTORITAS
Autoritas es una
consultora tecnológica
con profesionales
multidisciplinares de
diferentes países del
mundo:
- Ingenieros en
Informática y
Telecomunicaciones
- Psicólogos
- Economistas
- Abogados
- Politólogos
3. Nuestra sede central
está en Madrid
(España), y tenemos
oficinas en Argentina,
Brasil, Chile, México,
Panamá y Reino Unido.
AUTORITAS
4. Nos especializamos
en :
- Español
- Portugués
- Inglés
Estamos empezando a
trabajar con:
- Italiano
- Alemán
- Francés
AUTORITAS
5. La formación y la
comunicación son muy
importantes para
nosotros.
La Escucha Activa es
una nueva disciplina y
nosotros estamos
comprometidos con su
difusión y formación a
los profesionales
interesados en el
campo.
Iberolabs
AUTORITAS
6. En Autoritas hacemos
una investigación
activa en colaboración
con reputadas
universidades y
centros de
investigación.
‣ 2008-2009: Avanza AL4Tour (ITC/464/2008)
Objective: Develop an Active Listening platform specialized in the
Tourism Sector
Budget: 744,681.83 €
‣ 2011-2012: Avanza Competitividad HCE (TSI-020100-2011-156)
Objective: Specialize the Active Listening platform in the Healthcare
Sector by developing an automatic coder of diseases expressed in
natural language into ICD-9 MC codes.
Budget: 432,129.25€
‣ 2012: Innpacto Ecoportunity (IPT-2012-1220-430000)
Objective: Combine macroeconomic indicators with social media
information to predict trends.
Budget: 576,629.00€
AUTORITAS
8. autoritas
8
¿Qué es Social Business Intelligence?
http://hdwall.co/facebook-wallpaper-digg/
DATOS -> INFORMACIÓN -> CONOCIMIENTO -> INTELIGENCIA
Herramientas y
métodos
Interpretación
humana
Aplicación
estratégica
14. consulting, s.a.autoritas
• > 500 millones de usuarios de
Facebook
• > 150 millones de usuarios de Twitter
• > 90 millones de Webs
• > 150 millones de blogs
• aprox. 1000 exabytes anuales
EXCESO DE INFORMACIÓN
DESESTRUCTURADA
Algunas cifras... (muy antiguas)
16. consulting, s.a.autoritas
API vs.
Crawler
‣API restringe el acceso a los datos:
Facilitan sólo una muestra de la información
existente y accesible a través de buscador
‣API restringe la cantidad de peticiones
realizables
‣Crawler requiere infraestructura y solución
a problemas IR (periodicidad, fechas,
idiomas, almacenamiento...)
‣Crawler puede generar problemas legales
API gratuita
vs. pago
‣Restricción de resultados: las APIs gratuítas
restringen en exceso los resultados frente a la
interfaz del buscador
‣Limitaciones de licencia de las APIs
gratuítas, no permitiendo por ejemplo la
reordenación, mezclado y almacenamiento de
datos
17. consulting, s.a.autoritas
(Re)Clasificar lo recuperado
¿Qué pasa cuando entra una noticia desde
un buscador generalista?
¿Qué canal es la url que se enlaza desde otro
canal?
¿Cómo diferenciar un blog de una web
corporativa?
¿Cómo determinar de qué dominio es una
determinada página?
Identificar
Acotar
Clasificar
Desambiguar
18. consulting, s.a.autoritas
Sección de
anuncios sin
relevancia para el
contenido
Sección de última
hora que
distorsiona la
semántica de la
página
Contenido útil
Recuperar contenido útil
19. consulting, s.a.autoritas
Inglés
estoy sin internet ¬¬ fuuuuck!!!
Finlandés
... euskocaja, como euskolabel, euskotren,
euskomueble... XDDD
Portugués
Flowah Powah!
Alemán
Vierrrrrrrrrrrrnes, egunon!!
Modelos del lenguaje vs. n-Gramms vs. Machine Learning
Filtrar por idioma
24. consulting, s.a.autoritas
7.000 recuperados
54 incorrectos
99.23% precisión
3.000 recuperados
50 no recuperados
98.36% alcance
Evaluación de la Recuperación de Información...
...en la empresa
¡¡Estamos
perdiendo
credibilidad!!
33. autoritas
33
Si la fecha va
en la url es fácil saberla
Eso es relativo,
esta URL es de Julio o de
Enero:
http://xxx/07/01/2010/
crawler-403-
forbidden.html
35. autoritas
35
¿Cómo? -> No sólo sentiment analysis
La polaridad es sólo
una dimensión, la
emocional, la de
valores, DAFO...
todas ellas
responden a la
cuestión ¿cómo?
37. autoritas
37
Un ejemplo: “La prima de riesgo en España está a 235”
¿Positivo, negativo, neutro o none?
Mi pregunta: ¿Para quién?
- ¿Para el presidente del país?
- ¿Para el líder de la oposición?
- ¿Para el director del Banco de España?
- ¿Para el inversor extranjero?
- ¿Para el capitalista nacional?
- ¿Para el que tiene una hipoteca?
38. autoritas
38
¿Quién? -> Análisis de Red Social
Si quiero
transmitir con
éxito un mensaje,
¿quién me puede
ayudar?
Si hay un
conflicto,¿a
quién tengo que
vigilar?
40. autoritas
TIEMPO REAL ES CUANDO EL USUARIO ASÍ LO PERCIBE
NOCHE DE ELECCIONES
GENERALES
216.000 documentos analizados (picos
de 120 docs/seg)
‣Tweets: 176.815
‣Posts: 7.034
‣News: 2013
‣Facebook: 2.184
‣Multimedia: 671
283.000 etiquetas generadas
1.900.000 términos indexados
-Elevado número usuarios concurrentes
Por supuesto, en ¡¡tiempo real!!
43. autoritas
43
El big data es la solución, el problema... y la oportunidad
https://github.com/autoritas/RD-Lab/blob/master/doc/presentations/ataque.mov
59. autoritas
59
Resultados con HispaBlogs
• Algoritmos de aprendizaje
• Impacto del preprocesamiento en la precisión
• Impacto del preprocesamiento en la dimensionalidad
• Resultados de identificación
• Análisis del error
• Características más discriminantes
• Análisis de costes
Rangel et al., 2016
76. consulting, s.a.autoritas
SKILLS
TÉCNICOS
Aprendizaje
Automático: Para
inferir nuevos modelos a
partir de los datos
existentes, para dotar de
inteligencia a nuestras
aplicaciones
Recuperación de
Información: Para
acceder a las enormes
cantidades de
información disponibles
en Internet
Data Mining: Para
identificar patrones
válidos, novedosos,
potencialmente útiles y
deseablemente
comprensibles a partir
de los datos
Natural Language
Processing: Porque el
contenido textual de la
Web está escrito en el
lenguaje humano
Data
Visualization
Collective
Intelligence
System
Architecture
User
eXperience
Social
Investigation
Social Network
Analysis
79. autoritas
79
Referencias
• Rangel, F., Franco, M., Rosso, P. A Low Dimensionality Representation for Language Variety
Identification. In: Proc. of the 17th. Int. Conf. on Intelligent Text Processing and Computational
Linguistics (CICLing’16), Springer-Verlag, LNCS (??)
• Fabra, R. Language Variety Identification to Improve Geotagging. Master thesis in Artificial
Intelligence, Pattern Recognition and Digital Imaging, Universitat Politècnica de València 2016?.
Advisors: Francisco Rangel and Paolo Rosso.
• Franco, M., Rosso, P., Rangel, F. Language Variety Identification using Distributed Representations of
Words and Documents. In: 6th. Int. Conf. of CLEF on Experimental IR meets Multilinguality,
Multimodality, and Interaction. CLEF 2015, Springer-Verlag, LNCS(9283)
• Rangel, F., Rosso, P., Koppel, M., Stamatatos, E., Inches, G. Overview of the Author Profiling Task at
PAN 2013. In: Forner P., Navigli, R., Tufis, D. (Eds.). Note-book Papers of CLEF 2013 LABs and
Workshops, CLEF-2013, CEUR-WS.org (1179)