Big data
Upcoming SlideShare
Loading in...5
×
 

Big data

on

  • 849 views

El diluvio de información que nos inunda no parara, al contrario se incrementara de una manera vertiginosa. La pregunta es: ¿Cómo enfrentar esa avalancha de información? ...

El diluvio de información que nos inunda no parara, al contrario se incrementara de una manera vertiginosa. La pregunta es: ¿Cómo enfrentar esa avalancha de información?

Las herramientas tecnológicas y estadísticas están evolucionando para dar respuesta a las preguntas que nos asaltan, cuando el volumen, la variedad o la velocidad de la información que tenemos que enfrentar nos saca de nuestra zona de confort, cuando las herramientas que tenemos al alcance no son suficientes para dar respuesta a las necesidades de análisis que se nos demandan nuestros clientes, jefes o conciencias.

Big data es la colisión amistosa entre la estadística y las tecnologías de la información, es tiempo de reflexionar: ¿Qué es Big Data? y ¿Cómo nos adaptaremos a el diluvio de información que viene?

Statistics

Views

Total Views
849
Views on SlideShare
457
Embed Views
392

Actions

Likes
0
Downloads
21
Comments
0

1 Embed 392

http://sg.com.mx 392

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs LicenseCC Attribution-NonCommercial-NoDerivs License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Big data Big data Presentation Transcript

  • #sgvirtual   h"p://en.wikipedia.org/wiki/File:Blind_men_and_elephant3.jpg     @abxda  
  • #sgvirtual   @abxda  
  • #sgvirtual   Según  Gartner:       Big  data  is  high-­‐volume,  high-­‐velocity  and  high-­‐ variety  informaEon  assets  that  demand  cost-­‐ effecEve,  innovaEve  forms  of  informaEon   processing  for  enhanced  insight  and  decision   making.   h"p://www.G.com/intl/cms/e91a32d0-­‐2bac-­‐11e3-­‐bfe2-­‐00144feab7de.pdf     @abxda  
  • #sgvirtual   Big  Data  y  Ciencia  de  Datos   ¿quién?   ¿cuántos?   ¿por  qué?   ¿qué?   ¿dónde?   Internet  de  las  Cosas   Internet  de  las  Personas   Volumen   Internet  de  las  Ideas   Internet  de  todo   …   Datos     Crudos   d   Ciencia  de   Datos   (Transforma  =>)   Información   (Significado)   da Varie Análisis  de  Datos   EstadísEca   Minería  de  Datos   h"p://www.datascienceassn.org/     h"p://en.wikipedia.org/wiki/DIKW_Pyramid     Machine  Learning   Análisis  de  Redes  (Grafos)   Muestreo   EstraEficaciones   Mucho  mas…   Análisis  de  Regresión   Tomar   Decisiones   Y  Actuar   @abxda  
  • #sgvirtual   Cienjfico  de  Datos   h"p://drewconway.com/zia/2013/3/26/the-­‐data-­‐science-­‐venn-­‐diagram     @abxda  
  • #sgvirtual   ¿Qué  tanto  es  tanEto?   8 Bits = 1Byte! 1024 Bytes = 1 Kilobyte! 1024 Kilobytes = 1 Megabyte! 1024 Megabytes = 1 Gigabyte! 1024 Gigabytes = 1 Terabyte! 1024 Terabytes = 1 Petabyte! 1024 Petabytes = 1 Exabyte! @abxda  
  • #sgvirtual   Era  MulEcore   35  años  de  Historia  del  Microprocesador   Primavera  2005  Inicia  la  era  mulEcore   Diciembre  2004  -­‐>  MapReduce   @abxda  
  • #sgvirtual   Computo  en  Paralelo   Discil  de   Programar   MapReduce   (2004)   Google,  Inc.   Fácil  de   Programar     h"p://theory.stanford.edu/~sergei/papers/soda10-­‐mrc.pdf     h"p://www.sciencedirect.com/science/arEcle/pii/S1877050912001470     h"p://research.google.com/archive/mapreduce.html     @abxda  
  • #sgvirtual   MapReduce   Cientos  o  Miles   De  Computadoras   Cientos  o  Miles   De  Computadoras   h"p://research.google.com/archive/mapreduce.html     @abxda  
  • #sgvirtual   MapReduce   (Pseudocódigo  para  contar  palabras)   map(String input_key, String input_value):! // input_key: document name! // input_value: document contents! for each word w in input_value:! EmitIntermediate(w, "1");! ! ! reduce(String output_key, Iterator intermediate_values):! // output_key: a word! // output_values: a list of counts! int result = 0;! for each v in intermediate_values:! result += ParseInt(v);! Emit(AsString(result));! @abxda  
  • #sgvirtual   Herramientas   STANDALONE     MULTICORE     CLUSTER     BIG  DATA       PARALLEL  PROGRAMMING   PARALLEL  PROGRAMMING   HADOOP   MAPREDUCE   SCALA,PYTHON,JAVA     SPARK   RDD,  MAPREDUCE   SCALA,PYTHON,JAVA     •  FAULT  TOLERANCE   •  LOAD  BALANCING   •  SYNCHRONISATION   R   h"p://hadoop.apache.org/     h"p://spark.incubator.apache.org/     PYTHON   JAVA   •  FAULT  TOLERANCE   •  LOAD  BALANCING   •  SYNCHRONISATION   R   PYTHON   JAVA   @abxda  
  • #sgvirtual   Spark  una  plataforma  Big  Data   h"ps://amplab.cs.berkeley.edu/soGware/     h"p://strataconf.com/strata2013/public/schedule/detail/27438     @abxda  
  • #sgvirtual   Ciencia  de  Datos  en  Acción   www.inegi.org.mx/est/contenidos/Proyectos/estraEficador/     @abxda  
  • #sgvirtual   Tecnologías  Involucradas   @abxda  
  • #sgvirtual   Big  Data  en  el  Laboratorio   @abxda  
  • #sgvirtual   Tecnologías  Involucradas   @abxda  
  • #sgvirtual   Spark  y  MLBase     import org.apache.spark.mllib.clustering._! ! val manzanas = sc.textFile("/Users/abxda/…/datos.csv")! val subconjunto = manzanas.map(manzana => extractColumn(manzana))! points_nacional.cache! var modelo = KMeans.train(subconjunto, k=5, maxIterations=10)! val out = new PrintWriter("/Users/abxda/…/salida.csv")! subconjunto.collect.foreach(x => out.println(modelo.predict(x)))! out.close()! @abxda  
  • #sgvirtual   Shark   select ! estrato,! avg(p_autom),! avg(p_pc),! avg(p_cel),! avg(p_inter),! count(*) ! from salida group by estrato;! ! estrato   4   3   2   1   0   p_autom   0.536577059   0.851219807   0.254049418   0.20981258   0.693759231   p_pc   0.46087735   0.777557128   0.139711048   0.055136755   0.176546203   0.9" 0.8" 0.7" 0.6" 4" 0.5" 3" 2" 0.4" 1" 0" 0.3" 0.2" 0.1" 0" p_autom" p_cel   0.76176366   0.833951292   0.683405158   0.160281722   0.788936165   p_inter   0.340057367   0.712273104   0.076031984   0.030043591   0.084017414   p_pc" p_cel" p_inter" count(*)   308206   192934   376060   169243   174737   1’221,180   @abxda  
  • #sgvirtual   Promedios  por  variable   @abxda  
  • #sgvirtual   Equipo  Big  Data   –  CienBficos  de  Datos,  expertos  en  integracion  de  soluciones  Big   Data  (MapReduce,  Scala,  Machine  Learning,  Spark,  R,  EstadísEca).   –  EstadísBcos,  expertos  en  modelado  estadisEco,  enfoque  en   aprendizaje  estadísEco  (R).   –  Desarrolladores  de  SoGware,  expertos  en  desarrollo  de  soGware   (JavaScript,  Arquitecturas  de  SoGware,  Patrones  de  Diseño,  Api’s   REST).   –  Diseñadores  Gráficos,  expertos  en  presentación  de  información   (HTML5,  CSS3,  JavaScript,  Twi"er  Bootstrap).   –  Administradores  de  Sistemas,  expertos  en  arquitecturas  de   computo,  infraestructura.  Desde  redes  a  clusters  de   computadoras  (Linux).   @abxda  
  • #sgvirtual   La  tarea   •  Programación  funcional   –  Scala   –  Akka   •  EstadísEca   –  –  –  –  Probabilidad  y  EstadísEca   Muestreo   Machine  Learning   R   •  Almacenes  de  Datos  NoSQL   –  –  –  –  Cassandra   MongoDB   Hbase   Neo4j   •  Plataformas  Big  Data     –  Hadoop   –  Spark   •  Visualización  de  Datos   –  D3.js   @abxda  
  • GRACIAS       Abel  Alejandro  Coronado  Iruegas   Twi"er  :  @abxda   h"p://abxda.wordpress.com/