• Like
  • Save
Big Data: Análisis y Modelos
Upcoming SlideShare
Loading in...5
×
 

Big Data: Análisis y Modelos

on

  • 3,700 views

Esteban Moro introduce el tratamiento de datos georeferenciados para crear aplicaciones a partir de la API pública de BBVA

Esteban Moro introduce el tratamiento de datos georeferenciados para crear aplicaciones a partir de la API pública de BBVA

Statistics

Views

Total Views
3,700
Views on SlideShare
1,239
Embed Views
2,461

Actions

Likes
0
Downloads
56
Comments
0

4 Embeds 2,461

https://www.centrodeinnovacionbbva.com 2448
http://bbva-innovacion.aspgd.net 10
http://bbva-innovacion3.dev.aspgems.com 2
https://translate.googleusercontent.com 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Big Data: Análisis y Modelos Big Data: Análisis y Modelos Presentation Transcript

    • Esteban Moro Alejandro Llorente Análisis y Modelos
    • INNOVA CHALLENGE Taller 8 Octubre Mapas Actividad Estructura/Lugares Análisis Modelos App Contenido Visualización Análisis y Datos El “roadmap” del participante Datos Análisis Desarrollo
    • INNOVA CHALLENGE Taller 8 Octubre Introducción a datos georeferenciados Acceso a datos georeferenciados Ejemplo: desarrollo de un motor de recomendación geolocalizado Resumen
    • Introducción a datos georeferenciados
    • INNOVA CHALLENGE Taller 8 Octubre Introducción a datos geoespaciales Información: Persona, evento , suceso, infraes tructura, Geografía: Coordenadas GPS, zona, muni cipio
    • INNOVA CHALLENGE Taller 8 Octubre Geospatial BigData Social Media Sensors Satellite Images Maps Activity (Transport) Bigdata Geoespacial
    • INNOVA CHALLENGE Taller 8 Octubre Con datos geoespaciales podemos: Medir ocupación de zonas Identificar movimientos / flujos entre zonas Describir la actividad por zonas … Y con ello podemos construir aplicaciones en Análisis geo-social Geomarketing Distribución óptima de recursos Detección de fraude Detección de eventos … Aplicaciones del big data geoespacial
    • INNOVA CHALLENGE Taller 8 Octubre Uso de sensores pervasivos (móviles, social media) para modelizar movimiento y comunicación de la gente en las ciudades. Análsis geo-social
    • INNOVA CHALLENGE Taller 8 Octubre !! Estudio de geolocalización en Madrid ! 34! Localización:!!Puerta!del!Sol! ! Número!de!checkins!totales:!2651!(30.5!al!día)! Número!de!usuarios!únicos!en!la!zona:!1231! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! hora count 0 100 200 300 400 500 600 700 0 5 10 15 20 25 factor(tipo) arts_entertainment food nightlife shops dia count 0 500 1000 1500 lunes martes miércoles jueves viernes sábado domingo factor(tipo) arts_entertainment food nightlife shops timedays count 0 50 100 150 abr−11 may−11 jun−11 factor(tipo0) arts_entertainment food nightlife shops 1 2 3 4 5 6 7 8 9 10 place fnac starbuckscoffee mercadodesanmiguel elcorteinglés mercadodesanantón yelmocinesideal3d vips mcdonald's cafédeoriente salajoyeslava n_checkins 316 269 251 136 113 87 84 78 77 71 1 2 3 4 5 6 7 8 9 10 user amazel666 runway4 edaindil maestrodarius ivo_campos despop edumaiza dalogu8 desdealbert0 mmetafetan n_checkins 121 73 40 39 35 33 33 32 32 30 Describir las zonas urbanas por su uso social/come rcial Analisis geo-social
    • INNOVA CHALLENGE Taller 8 Octubre Usar las coordenadas del merchant /IP pago con tarjeta para detectar fraude Detección de fraude
    • INNOVA CHALLENGE Taller 8 Octubre Bares Tiendas Geomarketing
    • INNOVA CHALLENGE Taller 8 Octubre Bares Tiendas Identificar la situación óptima para una nueva tienda Reducir costes en la gestión de efectivo Distribución óptima de recursos
    • INNOVA CHALLENGE Taller 8 Octubre Detectar comportamiento no usual utilizando sensores urbanos (pervasivos) Detección de eventos
    • Acceso a datos georeferenciados
    • INNOVA CHALLENGE Taller 8 Octubre Map Infrastructure/place s Activity Datos georeferenciados
    • INNOVA CHALLENGE Taller 8 Octubre Tipos de datos Mapas Demográficos/Económicos Otros Google POIs Predicción metereológica Actividad Twitter BBVA API
    • INNOVA CHALLENGE Taller 8 Octubre Mapas :: Google Maps Google Maps tiene muchos servicios webs con restricciones y protocolos diferentes. Permite definir rutas, marcadores, … Ejemplo: obtención de un mapa estático. Sin necesidad de autenticación. URL Base: http://maps.google.com/maps/api/staticmap Parámetros: • center: 40.4153,-3.6875 • size: 640x640 • maptype: mobile • format: png32 • sensor: true
    • INNOVA CHALLENGE Taller 8 Octubre Mapas :: OpenStreetMap Proyecto libre y colaborativo para crear mapas libres y editables. Dispone de APIs para guardar información sobre puntos, rutas, etc. Existen aplicaciones construidas sobre OSM con diferentes propósitos. Ejemplo: obtención de una ruta entre dos puntos. MapQuest. URL Base: http://open.mapquestapi.com/guidance/v1/ Parámetros: • Key: authentication key • From: latitud y longitud del origen en JSON. • To: latitud y longitud del destino en JSON.
    • INNOVA CHALLENGE Taller 8 Octubre Formato de información geográfica • Regiones y elementos definidos como polígonos. • Atributos asociados a cada elemento. Código ISO de región, población, … http://www.naturalearthdata.com/downloads/ pyshp: http://code.google.com/p/pyshp/ maptools: http://cran.r-project.org/web/packages/maptools Mapas :: shapefiles
    • INNOVA CHALLENGE Taller 8 Octubre Edición y visualización de Shapefiles: http://www.qgis.org Mapas :: shapefiles
    • INNOVA CHALLENGE Taller 8 Octubre Nomecalles (CAM): shapefiles, puntos de interés (museos, teatros, servicios de salud), metro (bocas, estaciones)… http://www.madrid.org/nomecalles/DescargaBDTCorte.icm Delimitaciones a nivel de municipio, barrios, codigos postales, distritos, etc. Mapas :: datos cartográficos de Madrid
    • INNOVA CHALLENGE Taller 8 Octubre Plan territorial metropolitano de Barcelona – Generalitat de Catalunya Enlace Mapas :: datos cartográficos de Barcelona
    • INNOVA CHALLENGE Taller 8 Octubre Datos abiertos gencat Cartografíca de Cataluña Enlace Mapas :: datos cartográficos de Barcelona
    • INNOVA CHALLENGE Taller 8 Octubre Plan territorial metropolitano de Barcelona – Generalitat de Catalunya Enlace En esta web también hay datos sobre movilidad, economía, población, etc. por los diferentes barrios de Barcelona. En Madrid no hay nada a ese nivel de detalle. Solución: Utilizar otras fuentes de datos para estimarlas (más adelante). Mapas :: datos cartográficos de Barcelona
    • INNOVA CHALLENGE Taller 8 Octubre Datos demográficos / económicos :: España Datos demográficos: Instituto Nacional de Estadística Padrón por municipio Enlace Datos económicos: Servicio Público de Empleo Estatal. Paro por municipio. Enlace
    • INNOVA CHALLENGE Taller 8 Octubre Datos demográficos / económicos :: Madrid A nivel de la ciudad de Madrid Banco de datos del Ayuntamiento de Madrid http://www-2.munimadrid.es/CSE6/jsps/menuBancoDatos.jsp Población por distritos, barrios y secciones A nivel de la comunidad de Madrid Banco de datos de la Comunidad de Madrid http://www.madrid.org/desvan/Inicio.icm?enlace=almudena Población por municipios Datos económicos por municipio.
    • INNOVA CHALLENGE Taller 8 Octubre Datos demográficos / económicos :: Barcelona A nivel de la ciudad de Barcelona Departament d’Estadística http://www.bcn.cat/estadistica/castella/ Población por barrios Paro registrado por barrios A nivel de la comunidad de Cataluña Idescat (Institut d’Estadística de Catalunya) http://www.idescat.cat/es/ Población por municipios Datos económicos por municipio.
    • INNOVA CHALLENGE Taller 8 Octubre Google API Console Otros datos :: Google points of Interest
    • INNOVA CHALLENGE Taller 8 Octubre Google API Console Otros datos :: Google points of Interest
    • INNOVA CHALLENGE Taller 8 Octubre Google API Console Otros datos :: Google points of Interest
    • INNOVA CHALLENGE Taller 8 Octubre Puntos de Interés Puerta del Sol Servicio 1: Places Search Parámetros: location: 40.417, -3.703 radius: 1000 Servicio 2: Places Details Parámetros: reference: código del place Otros datos :: Google points of Interest
    • INNOVA CHALLENGE Taller 8 Octubre GFS: Global Forecast System Datos a través de protocolo OpeNDAP. Implementación en Python: pydap Formato de las peticiones: SERVER = http://nomads.ncep.noaa.gov:9090/dods/gfs_hd/ DATE = AAAAMMDD HOUR = HH VAR = variable meteorológica a capturar (tmp2m, ugrd10m, pressfc, …) LAT = intervalo de latitud [259:263] (pasos de 0.5º desde el Polo Sur) LON = intervalo de longitud [710:714] (pasos de 0.5º hacia el este de Greenwich) QUERY = SERVERgfs_hdDATE/gfs_hd_HOURz.dods?VAR[0:0][LAT][LON] dataset = open_dods(QUERY) Otros datos :: Metereología
    • INNOVA CHALLENGE Taller 8 Octubre Página de Desarrolladores http://dev.twitter.com Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Página de Desarrolladores http://dev.twitter.com Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Página de Desarrolladores http://dev.twitter.com Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Página de Desarrolladores http://dev.twitter.com Consumer Key Consumer Secret Access token Access token secret Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Consumer Key Consumer Secret Access token Access token secret OAuth Authentication Rest API Stream API “Muchas” queries parametrizables Límite de uso 1 query parametrizable Sin límite de tiempo Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Stream API Ejemplo: Tweets localizados en la Comunidad de Madrid Servicio API: POST statuses/filter Parámetros: locations: -4.59, 39.90, -3.04, 41.17 Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Anteriormente, mostramos que en Madrid no hay datos a nivel de zonas administrativas más pequeñas que el municipio. Podemos estimar algunas con Twitter • Ejemplo: población por códigos postales 1. Redondeamos coordenadas de cada tweet geolocalizado al tercer decimal (aprox. celdas 100 metros). 2. Analizamos el código postal más visitado por usuario y se le asignamos como su lugar de residencia. 3. Visualizamos. Stream API Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Stream API Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre Stream API Actividad :: datos de Twitter API
    • INNOVA CHALLENGE Taller 8 Octubre https://www.centrodeinnovacionbbva.com/signup Actividad :: datos de la API BBVA
    • INNOVA CHALLENGE Taller 8 Octubre https://developer.bbva.com/panel Actividad :: datos de la API BBVA
    • INNOVA CHALLENGE Taller 8 Octubre https://developer.bbva.com/panel Actividad :: datos de la API BBVA
    • INNOVA CHALLENGE Taller 8 Octubre https://developer.bbva.com/panel Actividad :: datos de la API BBVA
    • INNOVA CHALLENGE Taller 8 Octubre Generando la autenticación Ejemplo: APP_ID = "iic_formacion_innovachallenge" APP_KEY = "0f1d750a5baea6c7022452d0d2ece01fc5901ad7” str_to_encode="iic_formacion_innovachallenge:0f1d750a5baea6c7022452d0d2ece01fc5901ad7” auth = strToBase64(str_to_encode) Request = HttpRequest(SERVICIO, PARAMETROS, header = {‘Authorization’ : auth}) 1. Con la APP_ID y la APP_KEY generamos la autorización concatenando ambas con un “:” en medio y codificando a base64. 2. Esta autorización se añade al HEADER de la petición HTTP con el parámetro “Authorization”. Actividad :: datos de la API BBVA
    • INNOVA CHALLENGE Taller 8 Octubre Flujos económicos Puerta del Sol Servicio API: customer_zipcodes Parámetros: date_min:201304 date_max:201304 zipcode:28013 by:cards group_by:month Actividad :: datos de la API BBVA
    • Ejemplo: desarrollo de un motor de recomendación geolocalizado
    • INNOVA CHALLENGE Taller 8 Octubre Objetivo: recomendarle a un cliente qué zonas son más adecuadas según su perfil, su residencia, sus preferencias, etc. Utilizando la información de lo que hacen otros usuarios Datos usados: 1. Datos de Twitter. 2. API Innova Challenge – CARDS_CUBE. 3. API Innova Challenge – CUSTOMER_ZIPCODES. Sistemas de recomendación :: Introducción
    • INNOVA CHALLENGE Taller 8 Octubre Utilizar datos de Twitter para 1. Ver qué se está hablando en cada zona de Madrid. 2. Analizar el habla de un usuario para el que queremos recomendar un determinado lugar. 3. Comparar el habla del usuario con las zonas y recomendar el área que más se le parece. Sistemas de recomendación :: lenguaje del usuario
    • INNOVA CHALLENGE Taller 8 Octubre CP 28013: Centro de Madrid Sistemas de recomendación :: lenguaje del usuario
    • INNOVA CHALLENGE Taller 8 Octubre CP 28009 : Retiro Sistemas de recomendación :: lenguaje del usuario
    • INNOVA CHALLENGE Taller 8 Octubre Utilizar el servicio CARDS_CUBE de la API de Innova Challenge Sistemas de recomendación :: perfil demográfico del usuario
    • INNOVA CHALLENGE Taller 8 Octubre • Usando los datos procedentes del servicio CARDS_CUBE • Para cada categoría de merchant (bares, moda, salud, hogar, etc.) construimos una matriz donde cada elemento representa el número de tarjetas diferentes de determinado perfil (dado por sexo y rango de edad) X que han ido a comprar al código postal Y en un merchant de dicha categoría. ¿Dónde van a comprar ropa la gente que es cómo yo? ¿A qué restaurantes van la gente parecida a mí? Sistemas de recomendación :: perfil demográfico del usuario
    • INNOVA CHALLENGE Taller 8 Octubre Ejemplo: hombre entre 36 y 45 años Moda Bares y restaurantes Sistemas de recomendación :: perfil demográfico del usuario
    • INNOVA CHALLENGE Taller 8 Octubre Utilizar el servicio CUSTOMER_ZIPCODES de la API Sistemas de recomendación :: basados en movilidad geográfica
    • INNOVA CHALLENGE Taller 8 Octubre • Usando los datos procedentes del servicio CUSTOMER_ZIPCODES • Para cada categoría de merchant (bares, moda, salud, hogar, etc.) construimos una matriz donde cada elemento representa el número de tarjetas diferentes de un código postal X han ido a comprar al código postal Y en un merchant de dicha categoría. ¿Dónde van a comprar ropa la gente de mi barrio? ¿A qué restaurantes van los que viven cerca de mí? Sistemas de recomendación :: basados en movilidad geográfica
    • INNOVA CHALLENGE Taller 8 Octubre Moda Bares y restaurantes Ejemplo: código postal 28045 Sistemas de recomendación :: basados en movilidad geográfica
    • INNOVA CHALLENGE Taller 8 Octubre Sistema de recomendación geográfico y basado en perfiles Sistemas de recomendación :: combinación
    • INNOVA CHALLENGE Taller 8 Octubre Moda Bares y restaurantes Ejemplo: hombre entre 36 y 45 años del código postal 28045. Sistemas de recomendación :: combinación
    • De los datos a la aplicación
    • INNOVA CHALLENGE Taller 8 Octubre De los datos a la aplicación 1. Una idea. 2. ¿Qué datos necesito para llevar a cabo esa idea? ¿Qué servicios de la API del BBVA necesito? ¿Puedo complementarlo con otras fuentes de información? 3. Análisis: refinamiento de la idea y viabilidad. Extracción del valor oculto en el análisis y los modelos. 4. ¿Cómo puede aprovechar un usuario final ese valor? 5. Iterar 2, 3 y 4 hasta que la idea aparezca definida y el valor del usuario esté claro. 6. Convertir el valor del análisis en una aplicación.