• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Conferencia Cloud Computing y Big Data: los pilares del científico de datos
 

Conferencia Cloud Computing y Big Data: los pilares del científico de datos

on

  • 1,612 views

Los pilares del científico de datos: Big Data y Cloud Computing. 31 de mayo de 2013. Universidad Distrital Francisco José de Caldas, Bogotá.

Los pilares del científico de datos: Big Data y Cloud Computing. 31 de mayo de 2013. Universidad Distrital Francisco José de Caldas, Bogotá.

Statistics

Views

Total Views
1,612
Views on SlideShare
681
Embed Views
931

Actions

Likes
0
Downloads
31
Comments
0

1 Embed 931

http://luisjoyanes.wordpress.com 931

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Conferencia Cloud Computing y Big Data: los pilares del científico de datos Conferencia Cloud Computing y Big Data: los pilares del científico de datos Presentation Transcript

    • 11Prof. Luis Joyanes AguilarCOMPUTACIÓN EN LA NUBEY BIG DATA: pilares delCientífico de DatosCloud Computing,Big Data: Data ScienceBogotá, COLOMBIA31 de mayo, 2013
    • 22ESTADO DEL ARTE DECLOUD COMPUTINGProf. Luis Joyanes AguilarCOMPUTACIÓNEN LA NUBELa nueva era de lacomputación
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá, Colombia, 31 de may0 de 2013Página –3–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá, Colombia, 31 de may0 de 2013Página –4–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá, Colombia, 31 de may0 de 2013LA NUBE: ESE GRAN INVENTOPágina –5–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá, Colombia, 31 de may0 de 2013TENDENCIAS TECNOLÓGICAS DELA DÉCADA LAS CONSULTORAS IDC, GARTNER, FORRESTER y otras,están de acuerdo:Cloud ComputingSocial Media (Medios sociales)MovilidadInternet de las cosas (objetos) NFC, Bluetooth, RFID, QR, ZigBee, Sensores…Big DataPágina –6–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013INTRODUCCIÓNLa Nube o la Computación en Nube (CloudComputing) es uno de los términos tecnológicos(buzzwords) que más se repite en todo tipo demedios de comunicación en los tres últimos años.Las empresas, las organizaciones y los negocios en general,están viendo en esta tecnología la resolución de muchos desus problemas, sobre todo, económicos pero también deinfraestructuras tecnológicas.EL MODELO DE LA NUBE ES UN MODELO DESERVICIOS COMO LA LUZ, EL AGUA, EL TELÉFONO,EL GAS…Página –7–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013 Empresas TIC: IBM, Microsoft, Oracle,Hewlett-Packard, Cisco, EMC, VMWare etc. Operadoras de telecomunicaciones: europeas(Telefónica, Vodafone, France Telecom,Deutch Telecom, …) , americanas (Verizon,ATT, Telmex...), etc. Empresas de Internet que ya son, per se, empresas de la nube:Google, Yahoo¡, Amazon o redes sociales, tales comoFacebook, LinkedIn, Twitter, Pinterest, FoursquareTuenti…Página –8–COMPUTACIÓN EN LA NUBE
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013 Pero ¿cómo influirá la computación en nube en la sociedad y en sus camposmás sobresalientes: educación, salud, administración pública,organizaciones, empresas, … y en general, en la población? Sinlugar a dudas muy positivamente… en estos momentos muchossectores de dicha población estamos utilizando la Nube cuandoenviamos un correo electrónico por Gmail, Yahoo oHotmail, escuchamos música en Spotify (elinnovador servicio sueco de streaming audio, oír músicasin descarga), vemos una fotografía en Flickr oconsultamos nuestra posición geográfica en GoogleMaps en nuestro escritorio o en nuestro teléfono móvilinteligente, o utilizamos aplicaciones de geolocalización(StreetMaps) o de almacenamiento Dropbox.Página –9–COMPUTACIÓN EN LA NUBE
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Un ejemplo de la nubePágina –10–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013 Sin embargo, la computación en nube, nos traerá grandes interrogantes ygrandes problemas en temas tan controvertidos como la protección de datos yprivacidad de los usuarios. Otra pregunta que cada día se hacen más los analistas sociales y tecnológicos¿desaparecerá el PC tal cómo hoy loconocemos? ¿Será sustituido por el teléfonomóvil o dispositivos tales como las tabletaselectrónicas, como el iPad de Apple o algunode sus competidores, o incluso otrosdispositivos electrónicos como unavideoconsola, un frigorífico o el coche?Página –11–LA ERA POS-PC
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Los datos y las aplicaciones se reparten ennubes de máquinas, cientos de miles deservidores de ordenadores pertenecientesa los gigantes de Internet, Google, Microsoft,IBM, Sun Microsystems, Oracle, Amazon,.. ypoco a poco a cientos de grandes empresas,universidades, administraciones, que deseantener sus propios centros de datos a disposiciónde sus empleados, investigadores, doctorandos,etc. Luis JOYANES. Icade, nº 76, enero-abril, 2009, pp. 95-111.Página –12–“Computación en la nube(cloud computing)»
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013HISTORIA DE LA NUBE -1- El concepto de la computación en la nube, o cloudcomputing, empezó con proveedores de servicios deInternet a gran escala como Google, Amazon AWS y otrosque construyeron su propia infraestructura. De entretodos ellos emergió una arquitectura: un sistema derecursos distribuidos horizontalmente introducidoscomo servicios virtuales de TI escaladosmasivamente y manejados como recursosconfigurados y mancomunados de maneracontinua. En el año 2006 se produjo una primera alianza entre IBM,Google y grandes universidades norteamericanasPágina –13–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013HISTORIA DE LA NUBE -2- Este modelo de arquitectura fue inmortalizado porGeorge Gilder en su artículo de octubre 2006 en larevista Wired titulado "Las fábricas de información".Las granjas de servidores, sobre las que escribióGilder, eran similares en su arquitectura al procesamiento“grid” (red, parrilla), pero mientras que las redes seutilizan para aplicaciones de procesamiento técnicodébilmente acoplados (loosely coupled, un sistemacompuesto de subsistemas con cierta autonomía deacción, que mantienen una interrelación continua entreellos), este nuevo modelo de nube se estaba aplicando alos servicios de Internet.Página –14–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013HISTORIA DE LA NUBE -3-Dos de las grandes cabeceras mundiales de revistas económicas,Business Week (4 de agosto de 2008) y TheEconomist (25 de Octubre, 2008) ya preveían en2008 el pronto advenimiento de esta arquitectura y le dedicaronsendos suplementos a analizar con detalleY en el año 2010, The Economist volvió a insistir en elimpacto de la nube y Forbes , la prestigiosa revistaeconómica de Estados Unidos, se hizo eco también enun número especial dedicado al Cloud Computing, sincontar naturalmente el sin fin de publicaciones económicas,generalistas, tecnológicas de Europa, América del Norte, Asia, AméricaLatina y el CaribePágina –15–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BusinessWeek, Rachael King, August 04, 2008Página –16–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013The Economist . Octubre 2008.http://www.economist.com/node/12411882?zid=291&ah=906e69ad01d2ee51960100b7fa502595Página –17–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013The Economist, octubre 2008Página –18–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Battle of the cloudsThe fight to dominate cloud computing willincrease competition and innovationThe Economist. Oct 15th 2008Página –19–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Definición de la nube No existe una definición estándar aceptadauniversalmente; sin embargo, existen organismosinternacionales cuyos objetivos son la estandarización deTecnologías de la Información y, en particular, de CloudComputing. Uno de estos organismos más reconocido esel National Institute of Standards andTechnology (NIST) y su InformationTechnology Laboratory, que define lacomputación en nube (cloud computing) como:Página –20–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013DEFINICIÓN DE CLOUD COMPUTINGPágina –21–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013DEFINICIÓN DE CLOUD COMPUTING Para una definición más técnica de Cloud Computing onube sin más, podríamos decir que se trata del conjuntode programas y servicios alojados en un servidorconectado a la Red, accesible desde cualquiercomputador (sea cual sea el sistema operativo queeste ejecute) con conexión a Internet sin necesidadde instalar aplicaciones ejecutables en su disco duro ydonde también se almacena la información generadapor estas mismas aplicaciones o servicios.Cloud Computing ha transformado de forma radicalel modelo de negocio, "Este modelo de tecnología seadapta a las necesidades de la empresa en todomomento, que sólo paga por los servicios que usa"Página –22–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –23–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Terminología de la NUBE (NIST) El NIST recomienda utilizar los siguientes términosConsumidor de la nube o cliente: unapersona u organización que es cliente de unanube: observes que un cliente de una nubepuede ser de una nube y de otras nubes queofrecen otros serviciosDispositivo Cliente: Una máquina o aplicaciónde software que accede a una nube en unaconexión de redProveedor de la nube o proveedor: unaorganización que proporciona servicios de la nubePágina –24–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013FUENTE: Computación en la nube.Joyanes (2012): adaptado del NISTPágina –25–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013FUENTE: Computación en la nube.Joyanes (2012): adaptado del NISTPágina –26–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013FUENTE: Computación en la nube.Joyanes (2012): adaptado del NIST 1. Autoservicio bajo demanda. El usuario puede accedera capacidades de computación en la nube de maneraautomática a medida que las vaya requiriendo, sin necesidadde una interacción humana con su proveedor o susproveedores de servicios cloud, con servicios tales comotiempo de servidor y almacenamiento en red. 2. Múltiples formas de acceso a la red. Los recursos sonaccesibles a través de la red y por medio de mecanismosestándar que son utilizados por una amplia variedad dedispositivos de usuario (p. e. teléfonos móviles inteligentes, laptops,ulltrabooks, tabletas, PCs de escritorio, estaciones de trabajo, aparatos detelevisión con SmartTV, videoconsolas…). Esta característica tambiénse conoce como acceso ubicuo a la RedPágina –27–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013FUENTE: Computación en la nube.Joyanes (2012): adaptado del NIST 3. Agrupación de recursos. Los recursos decomputación del proveedor se agrupan para servir a múltiplesconsumidores (almacenamiento, memoria, ancho debanda, capacidad de procesamiento, máquinas virtuales, etc.y son compartidos por múltiples usuarios, a los que sevan asignando capacidades en forma dinámica según suspeticiones. Existe una independencia de la posición de modoque el cliente generalmente no tiene control ni conocimientosobre la posición exactas de los recursos proporcionados peropuede ser capaz de especificar la posición a un alto nivelde abstracción (p. e. país, estado o centro de datos).Ejemplos de recursos incluyen almacenamiento,procesamiento, memoria y ancho de banda de red.Página –28–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013FUENTE: Computación en la nube.Joyanes (2012): adaptado del NIST 4. Escalabilidad - Elasticidad rápida. Los recursos seprovisionan y liberan elásticamente, muchas veces demanera automática, lo que da al usuario la impresión deque los recursos a su alcance son ilimitados y estánsiempre disponibles en tiempo y cantidad. 5. Pago por uso (Servicio medido). El proveedor escapaz de medir, a determinado nivel, el servicioefectivamente entregado a cada usuario, de modo quetanto proveedor como usuario tienen acceso transparenteal consumo real de los recursos, lo que posibilita el pagopor el uso efectivo de los servicios.Página –29–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –30–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013CARACTERÍSTICAS DE LA NUBEPágina –31–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013MODELOS DE NUBEPágina –32–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LA NUBE: DESPLIEGUE DE SERVICIOSPágina –33–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013SaaSPágina –34–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013SaaS El término software como servicio se refiere esencialmente alsoftware residente (instalado) en la nube, aunque no todoslos sistemas SaaS son sistemas instalados en la nube, si sonla mayoría. SaaS (Software as a Service)es la evolución natural del términosoftware bajo demanda (Software ondemand) por el que era conocido haceunos años y cuyo representante másgenuino es salesforce.com, unaempresa que proporciona software degestión empresarial (CRM)Página –35–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013SaaSSaaS es un modelo de softwarebasado en la Web que provee elsoftware totalmente disponible através de un navegador web. Lasaplicaciones son accesibles desde diferentes dispositivoscliente a través de una interfaz cliente ligera tal como elcitado navegador (p.e correo electrónico basado en web).Aplicaciones típicas: Gmail, GoogleApps, ZOHO, Windows Office 365,Salesforce.com, Evernote… …Página –36–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Plataforma como servicio PaaS En el modelo de plataforma como servicio, elproveedor ofrece un entorno dedesarrollo a los desarrolladores deaplicaciones, quienes desarrollanaplicaciones y ofrecen sus servicios através de la plataforma del proveedor.El proveedor normalmente ofrece para el desarrollo “kitsde herramientas (toolkits) lenguajes de programación,herramientas y estándares de desarrollo y canales dedistribución y pago” y recibe un pago por proporcionar laplataforma y los servicios de distribución y ventas.Página –37–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Plataforma como servicio PaaSMicrosoft AzureGoogle Application Engine (GAE)Salesforce.com …. Plataforma FORCEPágina –38–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Infraestructura como servicio(IaaS)El modelo IaaS proporciona lainfraestructura necesaria para ejecutaraplicaciones. Este modelo ofrece espacio dealmacenamiento, capacidad de proceso, servidoresy otro equipamiento físico, en pago por uso. Puedeincluir también, la entrega de sistemas operativos, redes ytecnología de virtualización para gestionar los recursos, endonde dicho consumidor es capaz de desplegar y ejecutar softwareespecifico que puede incluir sistemas operativos y aplicaciones. --ARSYS, AWS de Amazon, IBM Cloud. Cisco,EMC,Página –39–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013PROVEEDORES DE IaaSCisco, EMC, VMwareCitrixNetApp Microsoft GoogleAmazon AWS, IBM Cloud,ARSYS, Acens, Telvent, Interxion …UCS Cloud Services…Página –40–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013MODELOS DE DESPLIEGUESERVICIOS EN LA NUBEPágina –41–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Modelos de servicio de la nubePágina –42–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013MODELOS DE DESPLIEGUE . Por otra parte los modelos de despliegue que se puedenimplementar en las organizaciones y empresas son:nube privada, nube comunitaria, nubepública y nube híbrida, aunque el modelo denube comunitaria que propone el NIST no hasido muy aceptado por la industria informática y los tresmodelos más aceptados en la bibliografía técnica,proveedores, organizaciones y empresas son:privada, pública e híbrida, taxonomíaque también nosotros proponemos.Página –43–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013MODELOS DE DESPLIEGUE 1. Nube privada. La infraestructura de la nube seprovisiona para uso exclusivo de una único organizacióncomprendiendo múltiples consumidores. Los servicios dela nube no se ofrecen al público en general. Lainfraestructura es íntegramente gestionada por unaorganización. 2. Nube pública. La infraestructura es operadapor un proveedor que ofrece servicios al público engeneral. Puede ser administrada, operada y de propiedadde una organización académica, empresa o gobierno, oalguna combinación de ellas. Existe en la propiainfraestructura (on premises) del proveedor de la nube.Página –44–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013MODELOS DE DESPLIEGUE3. Nube híbrida. La infraestructura de lanube es una combinación de dos o másnubes individuales que pueden ser a su vezpropias, comunitarias o públicas quepermanecen como entidades únicas, peropermite portar datos o aplicaciones entreellas.Página –45–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013MODELOS DE DESPLIEGUE 4. Nube comunitaria. Una nube comunitaria(community) es aquella nube que ha sido organizada paraservir a una función o propósito común de una comunidad deconsumidores. Puede ser para una organización o variasorganizaciones, pero que comparten objetivoscomunes como su misión, políticas, seguridad,necesidades de cumplimientos regulatorios(compliances). Una nube de comunidad puede seradministrada por la organización u organizacionesconstituyentes o bien por terceras partes. Este modelo sólosuele ser recogido por el NIST; la mayoría de organizaciones,asociaciones, relacionadas con la nube, dividen los modelos dedespliegue en tres: pública, privada e híbridaPágina –46–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Cloud Gis EsriPágina –47–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Cloud Storage Un caso de estudio: Nirvanix. Los datos del cliente sereplican en dos o tres centros de datos Amazon, Gmail, en España varias empresasproveedoras , han tenido caídas de varias horas queafectó a las aplicaciones web de sus clientes. Algunascausas: elevado número de peticiones simultáneas deautenticación. Amazon aseguró que el incidente no provocó lapérdida de ningún dato, ya que almacena múltiples copias de cadaobjeto en varios emplazamientos Hay que considerar la posibilidad de que los datos sean robados oconsultados por personas no autorizadas. Quizá sea mejor noconfiar en cloud storage los datos y aplicaciones críticospara la actividad de la empresa hasta que los proveedores hayaneliminados estos riesgos potenciales.Página –48–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Servicios OnLine (AlmacenamientoWeb). Gratuitos / PagoStrato, 5 GB gratis (Proveedor de Cloud con implantación mundial)Dropbox (ofrece 2 GB gratuitos que se pueden convertir en 8-16 GB si se invita a otros contactos y utilizan el programa)Box.com (5 GB gratis); SkyDrive de Microsoft(7- GB gratuitos)Wuala (Lacie… www.wuala.com/es..., 2GB como Dropbox) ;GlideOs (50 GB gratuitos), SugarSync (5 GB)Amazon Drive (5GB gratuitos; 20 GB por compra de un álbum deMP3) y Amazon S3 (Almacenamiento IaaS, GB a TB e incluso PB).iCloud (5 GB gratuito clientes)Página –49–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013OTROS MODELELOS DE SERVICIOS.Computación en la nube, Joyanes (p. 82-85) Almacenamiento como servicio Bases de datos como servicio Información como servicio Procesos como servicio Integración como servicio Seguridad como servicio Gestión y gobierno como servicio Pruebas como servicio …Página –50–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013VIRTUALIZACIÓN DE SERVICIOS.Computación en la nube, Joyanes (p. 151-160)Escritorios VirtualesServidores virtualesCentralitas U-PBXCall CentersRedesServicios TIC en generalPágina –51–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013ESCRITORIOS VIRTUALES Un escritorio virtual (WebTop) es un espaciovirtual vía Web, al cual puede acceder el usuarioremotamente a sus datos, ejecutar programas,crear o modificar documentos, editar o reproducirarchivos y prácticamente todas aquellas funcionesque hace normalmente desde su equipo Un servidor Web pone a disposición ciertacapacidad de almacenamiento para los usuariosque mediante registro y sus correspondientespermisos, acceden a un espacio virtual o cuenta deusuario en donde alojan una copia de sus datosPágina –52–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Web Desktop… Escritorios virtualesIDÓNEOS EN EDUCACIÓN,ADMINISTRACIÓN PÚBLICA, PYMES… Las prestaciones son las básicas: procesador detexto, reproductor multimedia, navegador, gestorde correo, y otras menores, como agenda,calendarios, etc. Lo más interesante el la función dealmacenamiento de cualquier tipo de archivo,siempre y cuando no se exceda la capacidadofrecida y la disponibilidad para acceder y trabajarcon ellos.Página –53–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013¿Qué es la tecnología VDI? El ESCRITORIO VIRTUAL es una de las tecnologíasdel cloud computing, y es una de las que más van acambiar la forma en que trabajamos. Básicamente, la tecnología de escritorio virtual VDI(virtual desktop infrastructure) resulta de laconfluencia de dos tecnologías, la tecnología de virtualizaciónde servidores, y la tecnología de escritorio remoto. Aunquecomparte mucho de ambas, tiene sus propias características .Esta tecnología no es nueva, ya que fabricantes como CITRIXya hace más de diez años que disponen de productos en elmercado, pero en este momento se puede decir que haalcanzado un grado de plena madurez.Página –54–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Ventajas del Escritorio Virtual (organización)Mejora y simplifica la gestión de los PC deescritorio. Puesto que básicamente son todos iguales,y no tienen disco duro local, se reducen enormemente lasaverías, y las reparaciones son mucho más sencillas yrápidas. Todo ello, además de mejorar el servicio, reducelos costes de mantenimiento.Reducen el coste de inversión en PC, pues elThin Client tiene una vida útil mucho más larga, ya quedependen menos de las evoluciones de los sistemasoperativos y de las aplicaciones.Página –55–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Ventajas del Escritorio Virtual(organización) Permiten reutilizar equipos PC existentes, alargando lavida útil de los mismos, lo que es otro factor de reducciónde costes adicional. En ocasiones es posible obtener también ahorro enlicencias de software de los PC, si éstas tienen en cuentael uso concurrente en los equipos. Simplifican también la evolución obligada comoconsecuencia de la obsolescencia, por ejemplo lasmigraciones de la gran cantidad de equipos actualmentecon Windows XP, cuya vida útil soportada está a punto definalizar. ahorro energético de los equipos, si se utiliza la soluciónbasada en thin client.Página –56–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Ventajas del Escritorio Virtual (organización) Permiten abordar soluciones de virtualización yservicios cloud sobre aplicacionesheredadas, típicamente cliente/servidor.Mejoran la seguridad de la información al nocontener datos locales que puedan ser robados o dañadospor averías. Como parte de un Plan de Continuidad deNegocio (BCP), permiten mantener operativos lospuestos de trabajo de los empleados en caso de desastre,que afecte a alguna de las sedes de la organizaciónPágina –57–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Ventajas del Escritorio Virtual (Usuarios) Al haber menos averías y ser las reparaciones mucho másrápidas, aumenta la productividad de lostrabajadores derivada de las averías de sus PC, pues lasinterrupciones por este motivo son mucho menores. Se elimina la pérdida de datos del usuariopor averías de los discos locales del PC. Habilita la movilidad del trabajador, facilitando lacontinuidad de los trabajos realizados, por ejemplo para elcaso de los teletrabajadores a tiempo parcial.También facilita la movilidad de los trabajadoresentre sedes y edificios corporativos.Página –58–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013CONCLUSIONES ESCRITORIO VIRTUAL En esencia, la virtualización de escritorio se basa en lacreación de un PC virtual una máquina virtual que seejecuta en un servidor de virtualización (VDI Server),cuyas características (memoria, CPU, disco, etc.) son lastípicas de un PC, con un sistema operativo, y de unsistema de comunicaciones que permite acceder a estePC virtual desde la distancia. Para este acceso, se puede utilizar cualquier PC que ejecute elsoftware de cliente de terminal remoto, o bien un equipoespecializado que dispone del software de terminal remoto,“cliente ligero” (Thin Client), que consiste en procesador,memoria, y periféricos, y un sistema operativo empotrado, queúnicamente sirve para arrancar el equipo e iniciar sesión en unservidor de VDI.Página –59–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Ventajas del Escritorio Virtual (organización) Para el usuario, y por supuesto en un sistemacorrectamente configurado, tanto en el servidor como enel cliente como en la red de comunicaciones que los une,el sistema y su manejo se parecen mucho a un PCtradicional. No obstante, los discos duros de este PCvirtual ya no están en su ordenador, sino en el servidor devirtualización, es decir, si su dispositivo se avería o seextravía, no se pierden los datos guardados en estosdiscos locales. Por otra parte, es posible iniciar sesióndesde varios lugares, bien remotamente, bien localmente,en aquellos dispositivos que tengan la conectividad y elsoftware apropiado, lo que permite la continuidad de lostrabajos iniciados en un lugar desde otro distinto.Página –60–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013ESCRITORIOS VIRTUALESeYEos 2.5 (//www.eyeos.org/es) …GRATUITO… blog.eyesos.orgSistema operativo orientado 100% a la Nube.Escritorio virtual compatible con las principalesaplicaciones ofimáticas. Permite sincronizar con datoslocales utilizando eyeOS Gala Sync. Reproduce video yaudio. Cliente FTP, juegos, correo.-e y navegador .Funciona con software libre y si se instala en unservidor propio se pueden añadir múltiplesaplicaciones. Se instala y ejecuta en el propioservidor, basta con contar con APACHE Y PHP.Página –61–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Glide OSPágina –62–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013MultiTabberPágina –63–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013CubeDesktop En el mercado hay muchos programas, de pago y gratuitos, quete proporcionan varios escritorios virtuales para organizar mejortus ventanas y disponer de más espacio. Pero, ¿qué te pareceríapoder ver el contenido de tus escritorios como si de un cubo setratara , Se requiere una tarjeta con aceleración 3D.CubeDesktop crea hasta 6 escritorios virtuales accesiblesdesde la bandeja de sistema, mediante combinaciones deteclas o desde las esquinas de la pantalla con distintos efectosen tres dimensiones.Página –64–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Dexpot (Softonic)Dexpot multiplica el área de pantalla del monitor hasta por veinte,gracias a la creación y gestión de una serie de escritorios virtuales con losque podrás mejorar sensiblemente tu capacidad de trabajo y organizacióncon el PC. Dexpot coloca un icono en la bandeja de sistema desde el que puedes acceder atodos tus escritorios virtuales, así como a las opciones de configuración delprograma, gestor de escritorios, lista de ventanas en cada uno de ellos, reglas deescritorios, herramientas y demás. El sistema te permite copiar o mover ventanasde un escritorio a otro. Cada uno de ellos es totalmente independiente, y puedetener su propio fondo de pantalla, resolución e iconos. Es uno de los gestores de múltiples escritorios más completos y a la vez mássencillos de usar.Página –65–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –66–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013RETOS Y OPRTUNIDADES DE LANUBELos conceptos público y privado de lainformática en nube deben facilitar lasrelaciones entre los proveedores y los clientesmediante las tasas acordadas previamente ogratuitas, en su caso, pero siempre las ofertascomerciales deben cumplir la calidad de losrequisitos de servicio de los clientes ynormalmente ofrecer acuerdos de nivel deservicio, tipo SLA (Service LevelAgreements).Página –67–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013RETOS Y OPORTUNIDADES DEL CLOUDCOMPUTING Privacidad de los datos. El peligro aumentacuando los datos se alojan en “la nube”, Los datos puedenresidir en cualquier lugar o centro de datos. Esto puedesuponer hasta un problema legal ya que las legislacionesde muchos países obligan a que determinados datosdeben estar en territorio nacional.Seguridad. Es necesario tener la mayor seguridadante amenazas externas y corrupción de datos. Esimportante que los proveedores de servicios garanticentransparencia, confianza y la realización de auditorías alos sistemas de información.Página –68–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013RETOS Y OPORTUNIDADES DEL CLOUDCOMPUTINGLicencias de software. Es preciso estudiar lacompatibilidad del software bajo licencia con el softwareen la nube.Interoperabilidad. Es preciso que estégarantizada la interoperabilidad entre todos los servicios- SLA (Services Level Agreement). Es necesario elcumplimiento de acuerdos a nivel de servicio (SLA) antesde confiar a una empresa las aplicaciones de la misma. Aplicaciones. Es necesario tener presente que lasaplicaciones del modelo “cloud computing” deben estardiseñadas de modo que se puedan dividir entre múltiplesservidores.Página –69–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Consejos antes de confiar los datos desu empresa a un proveedor externo¿Quién puede ver los datos? En muchasempresas y organizaciones, los correos-e de losempleados son privados y no pueden verse más que consentencia judicial. Los rastros de navegación de losusuarios, las búsquedas realizadas, etc… ¿Cómo segarantiza la privacidad?¿Qué pasa si no se paga la factura mensual,anual,…? Se pueden borrar bruscamente todos losdatos del cliente por este motivo.Página –70–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Consejos antes de confiar los datos desu empresa a un proveedor externo¿Hace la nube copia de seguridad de susdatos? ¿Qué sucede si se pierden?¿Existe un contrato de garantía? Si suproveedor se introduce en su negocio, cómo se garantiza lalibre competencia y el no uso de información privilegiada.¿Cómo le tratará la “nube” ante hábitosnormales? ¿Se puede discriminar por razón deraza, sexo, religión, nacionalidad,…? ¿sepuede infringir el copyright? ¿Qué sucede con lalicencia copyleft de Creative Commons?Página –71–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013RIESGOS DE LA NUBECaidas del sistema «fallos dehardware/software»Temor a la pérdida de datosFalta de privacidadMercado no consolidado, aunque losproveedores son los grandes delmundo del software, por ahora.…Página –72–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013¿CÓMO AFRONTAR LA MIGRACIÓN ALA COMPUTACIÓN EN NUBE?Recomendaciones para migrara la NubeLa computación en la Nube enEspaña y resto del mundo.Página –73–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013EMPRESAS QUE HAN MIGRADO A LA NUBEEl Banco español BBVA. A principios de 2012 firmó unaalianza con Google para comenzar a utilizar el servicio GoogleApps (especialmente correo-e, agenda, etc) de la nube deGoogle en todas sus sucursales de España, Latinoamérica yCaribe, y resto países donde tiene presencia.La OMT (Organización Mundial del Turismo)también a primeros de 2012 firmó un acuerdo para implantar lassoluciones de Nube de Microsotf en su sede central de Madrid ypaulatinamente resto del mundo y recomendaciones a agenciasde viaje, hoteles… Bastantes universidades españolas también han cerradoacuerdos con Google para la solución de la Nube (correo-e)Página –74–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Estrategias de Cloud Computing de laUnión Europea, septiembre de 2012 En septiembre de 2012, la Comisión Europea adoptó laEstrategia Europea de Cloud Computing conello busca habilitar y facilitar la adopción de lastecnologías Cloud Computing en todos los sectores de laeconomía como palanca de productividad, crecimiento yempleo. En esta estrategia, juega un papel angularel impulso y adopción del nuevo modelo deservicios TI por el sector público.Página –75–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Comisión Europea publica la Estrategia deCloud-Computing (diciembre 2012)Objetivo principal: creación de empleo y deriqueza. Para la Comisión, las nuevas estimaciones señalan que, sila política tiene éxito, los ingresos procedentesde la computación en nube en la UE podríanascender en 2020 a casi 80 000 millonesEUR (lo que supondría más que duplicar el crecimientodel sector). Es decir, que con esta estrategia se estaríacreando un nuevo sector y se podría hacer frente a lacompetencia, en especial de los EEUU.Página –76–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Estrategia Europea de CloudComputing de la Comisión Europea La Estrategia Europea de Cloud Computing de la ComisiónEuropea está recogida en la comunicación «Liberar elpotencial de la computación en nube en Europa»*.Se proponen medidas para obtener 2,5 millones denuevos puestos de trabajo en Europa, así como unincremento anual del PIB en la Unión igual a160.000 millones de euros (en torno a un 1 %) deaquí a 2020. Acciones claves de la estrategia son*http://administracionelectronica.gob.es/?_nfpb=true&_pageLabel=P480245061355221561934&langPae=es Fuente: http://europa.eu (29 de septiembre de 2012)Página –77–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Estrategia Europea de CloudComputing de la Comisión Europea Clarificación de normas y estándaresLos trabajos en éste ámbito se desarrollarán durante 2013. LaComisión trabajará con el apoyo de ENISA y otros órganospertinentes para ayudar al desarrollo de toda la UE esquemasvoluntarios de certificación así como una lista de dichosprogramas en 2014. Creación de términos justos de contratación Establecimiento de un Partenariado Europeo de CloudComputing. El European Cloud Partnership (ECP) reúne aexpertos de la industria y de los usuarios del sector público paratrabajar en los requisitos de contratación comunes para lacomputación en nube en forma abierta y completamentetransparente.Página –78–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Estrategia Europea de CloudComputing de la Comisión Europea En este sentido, si se desarrolla la totalidad de laestrategia sobre la nube, se prevén unos ingresos anualessuplementarios netos en la UE de 160 000 millones EURpara 2020 (o unos ingresos totales de casi 600 000millones entre 2015 y 2020). De lo contrario, elincremento económico sería inferior en dos tercios. Los beneficios procederían del ahorro que las empresaspodrían realizar o de la productividad que podríanalcanzar gracias al acceso a la tecnología. Por lo que se refiere al empleo, es de prever la generaciónde 3,8 millones de puestos de trabajo tras un desplieguecompleto de la estrategia (frente a 1,3 millones si no seeliminan las barreras legislativas, políticas o de otro tipo).Página –79–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Estrategia Europea de CloudComputing de la Comisión Europea Por otro lado, la adopción del cloud computingpodría llegar a generar en Europa 2,5 millones denuevos puestos de trabajo y potenciar la economíade la región en us$ 160.000 millones anuales para2020, según la Comisión Europea. Para conseguirtal objetivo, el ETSI (EuropeanTelecommunications Standards Institute) estátrabajando en definir estándares de calidad parafacilitar la portabilidad de datos y lainteroperabilidad en 2013. Además del potencial delcloud, la migración a la nube propiciará lahomogeneización de leyes de protección de datos a escalaeuropea y la legislación sobre ciberseguridad.Página –80–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013PRIORIDADES DE LA CE EN CLOUDCloud computing y empleo TIC, entre lasprioridades de la Comisión Europea para elperiodo 2013-2014 Entre las nuevas prioridades destacan aquellasrelacionadas con el cloud computing y con lascompetencias digitales y el empleo. En materia de cloud computing, la Comisión Europea promocionará lacomputación en nube mediante el poder de compra del sector público. En estesentido, pondrá en marcha acciones piloto en la nuevaAsociación Europea de Computación en Nube (AECN) para,apoyándose en el poder de compra público, contribuir a crear el mayormercado de TIC relacionadas con la nube del mundo, desmantelando losactuales reductos nacionales y las percepciones negativas de losconsumidores.Página –81–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Estudio de ONTSI para España, mayo 2012 Estudio “Cloud Computing. Retos yoportunidades”, que ha elaborado el Observatorio Nacionalde las Telecomunicaciones y la SI (ONTSI), con la asistenciatécnica de Deloitte, para analizar la situación actual y el impactoque está teniendo el cloud computing en España. El impacto que tendrá sobre la inversión y el mantenimiento deempleo y, que se prevé puede alcanzar los 65.000 puestosde trabajo en un año. Iimplica que la generación de PIBderivada del cloud computing por empleo mantenido es de46.700 euros / empleo, lo que significa que el aporte de laindustria cloud a la economía española es muyventajoso.Página –82–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013EL MERCADO DE CLOUD ENLATINOAMÉRICA Según la consultora internacional IDC (marzo 2013), elmercado del cloud computing en Latinoamérica se puedevalorar en US$ 280 millones y tendrá una tasa decrecimiento anual de un 70% entre el 2012 y 2016. La empresa IDC confirmó que el cloud computing es unfactor clave de crecimiento del gasto en tecnologías enlos próximos cinco años. El estudio muestra que el gastoglobal de los proveedores de servicios cloud en hardwarede almacenamiento, software y servicios profesionales seincrementará un 23,6% anual de aquí al 2015. Mientrasque el gasto en almacenamiento en entornos de nubesprivadas tendrá un crecimiento anual del 28,9% en elperíodo estudiado.Página –83–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013EL MERCADO DE CLOUD ENLATINOAMÉRICA En el marco del Kloud Camp 2012, un eventoeducativo organizado por KIO Networks para compartirconocimientos sobre la nube, se dieron a conocercifras sobre el futuro del cloud computing en AméricaLatina con datos obtenidos por IDC, empresa dedicada aestudios de mercado. Entre los datos divulgados se encuentra que la inversiónen servicios de tecnologías de la información (TI)en la nube generarán 214.412 empleos en Méxicopara 2015, una cifra que contrasta notoriamentecon los 44.505 plazas laborales que se esperalograr durante 2012; es decir, habrá uncrecimiento del 382%.Página –84–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013EL MERCADO DE CLOUD ENLATINOAMÉRICA En América Latina se espera que Brasil, México yArgentina generen más de 700 mil nuevos empleosrelacionados con el cómputo en la nube para lamisma fecha. A nivel mundial, la expansión de estatendencia debería haber logrado 14 millones de empleosentre 2011 y 2015. En estos países, las industrias que se verán másbeneficiadas por el uso de la nube serán: comunicacióny medios de comunicación, con 2.4 millones deempleos; bancos, con 1.4 millones de empleos, ymanufactura, con 1.3 millones de empleos.Página –85–
    • 8686UNIVERSIDAD AUTÓNOMADE BAJA CALIFORNNIAProf. Luis Joyanes AguilarBIG DATAEl universo digital dedatos
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LA ERA DEL PETABYTE (1.000 TB),Wired , julio 2008 (www.wired.com)Sensores en todas partes, almacenamiento infinitoy Nubes (clouds) de procesadores Nuestra capacidad para capturar, almacenar y comprendercantidades masivas de datos está cambiando la ciencia,medicina, negocios y tecnología. A medida que aumentanuestra colección de hechos y figuras, crece la oportunidadde encontrar respuestas a preguntas fundamentales.Because in the era of big data,more isn´t just more. More isdifferentPágina –87–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LA ERA DEL PETABYTE -2- . Wired ,julio 2008 (www.wired.com) 1TB (250.000 canciones)20 TB (fotos “uploaded” a Facebookcada mes) 120 TB (todos los datos e imágenes recogidos por el telescopioespacial Hubble) ; 460 TB (todos los datos del tiempo climático enEEUÜ compilados por el National Climatic Data Center); 530 TB(Todos los vídeos de YouTube); 600 TB (base de datos degenealogía, incluye todos los censos de EEUU 1790-2000)1 PB (datos procesados por losservidores de Google cada 75 minutos)Página –88–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013http://www.economist.com/specialreports/displaystory.cfm?story_id=15557421Página –89–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Tabla de unidades de almacenamiento(The Economist, febrero 2010): “data, data everywhere”www.economist.com/specialreports/displaystory.cfm?story_id=15557421Página –90–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013El Universo Digital – EMC / IDCPágina –91–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013El Universo Digital – EMC / IDCPágina –92–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013OPEN DATA (Datos abiertos)Página –93–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013OPEN DATA (Datos abiertos)Las administraciones públicas [decualquier organismo nacional einternacional] generan gran cantidad deinformación en formatos propios de difícilacceso para la mayoría de los ciudadanos.Bases de datos, listas, estudios, informes,estadísticas, etc. son datos abiertos (opendata) en formatos propios que son dedifícil acceso para la mayoría de losciudadanos.Página –94–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013OPEN DATA (Datos abiertos)Evidentemente estos datos se almacenannormalmente en centros de datos propiosde las administraciones que a su vez sealmacenan y gestionan en nubes públicas oprivadas¿Qué necesitan los profesionales o lasempresas para sacar rentabilidad a esosdatos públicos? Evidentemente lacolaboración de las entidades públicas paraliberar cada día más información y crearmás oportunidades de negocioPágina –95–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013OPEN DATA (Datos abiertos)La administración de Estados Unidosinició la iniciativa Open Data y enparalelo la Unión Europea ha idoadoptando también la iniciativa.En España los primeros gobiernos hansido los Gobiernos Autonómicos de ElPrincipado de Asturias y el PaísVasco.Página –96–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013OPEN DATA (Datos abiertos)La iniciativa del Gobierno Vasco se haplasmado en la puesta en funcionamientode Open Data Euskadi que pretende crearun sitio web donde la informaciónreutilizable (contenidos abiertos) estén alalcance de cualquier ciudadano.Un estudio de la UE(2010) estima que elmercado de información pública podríagenerar riqueza por valor de 27.000millones de euros.Página –97–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013INICIATIVAS PIONERS INTERNACIONALESEN OPEN DATAEn España… además de los gobiernos autonómicosde Asturias, País Vasco y Cataluña, la fundación CTICligada al consorcio W3C (www.fundacionctic.org)En Estados Unidos data.govEn Gran Bretaña data.gov.uk En Google (presentación la semana pasada, abril2011, del número 1) la revista de negocios//thinkquarterly.co.uk. El número 1 dedicado a OPENDATAEn la Unión Europea (Iniciativa OPEN DATA)Página –98–
    • 9999UNIVERSIDAD DISTRITALFRANCISCO JOSÉ DE CALDASProf. Luis Joyanes AguilarEL PROCESAMIENTO DEBIG DATA Y ANALÍTICADE DATOS.Nuevas bases de datosNoSQL, “In-Memory”…
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –100–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –101–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LA AVALANCHA DE DATOS Según Eric Schmidt, presidente ejecutivo de Google, entre elorigen de la tierra y el 2003 se crearon cinco exabytes deinformación. Hoy en día creamos la misma cifra cada dosdías2. Las previsiones aseguran que en esta décadacrearemos alrededor de 35 zettabytes (40 ZB, informe dediciembre de 2012) Según la consultora IDC, cifran en 1,8 Zettabytes lainformación generada en 2011. Si tratáramos de almacenaresa información en iPads (del modelo de 32GB)necesitaríamos 57.500 millones; puestos unos al lado deotro formaríamos una línea que daría 3 veces la vuelta almundo y, si tratáramos de apilarlos, la “montaña” resultantesería 25 veces más alta que el monte Fuji.Página –102–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013EL UNIVERSO DIGITAL DE DATOSPágina –103–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LA AVALANCHA DE DATOS Twitter: (redes sociales) 90 millones de Tweets por día que representa 8Terabytes. Boeing: (industria) Vuelo transoceánico de un jumbo puede generar 640Terabytes. Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima quealimenta una base de datos de 2.5 petabytes. Google procesa al día 20 petabytes de informaciónPágina –104–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Estructura de Big Data: tipos de datosEstructuradosNo estructurados No estructurados (texto, datos de vídeo, datos de audio,,,) Semiestructurados ( a veces se conocen como“multiestructurados”. Tienen un formato y flujo lógico de modoque pueden ser entendidos pero el formato no es amistoso alusuario(HTML. XML…, datos de web logs) Normalmente, se suelen asociar los datosestructurados a los tradicionales y los datos noestructurados a los Big Data Objetivo principal de los sistemas de gestión dedatos: Integración de datos estructurados y noestructuradosPágina –105–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Bases de datos In-Memory (en-memoria) SAP Hana Oracle Times Ten In.Memory Database IBM solidDB Relacional Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft… Transeferencia de datos entre Hadoop y bases de datosrelacionales Legacy (jerárquicas, en red… primeras relacionales…) In-Memory (SAP, Oracle, Microsoft…)Página –106–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 20131. Almacenamiento Hacen falta nuevas tecnologías de almacenamiento RAM vs HHD HHD 100 más barato que RAM Pero 1000 veces más lento Solución actual: Solid- state drive (SSD) además no volátil Investigación: Storage Class Memory (SCM)Página –107–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 20132. Base de datos Las BD relacionales no pueden con todo Base de datos volumen de la información GBs PBs Tiempo de ejecución Limitadas para almacenar “big data” (ACID, SQL, …) ACID: Atomicity, Consistency, Isolation & DurabilityPágina –108–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 20132. Bases de datosIn-Memory (en-memoria) SAP Hana Oracle Times Ten In-Memory Database IBM solidDB NoSQL (Not only SQL)Relacional Sistemas RDBMS Transferencia de datos entre Hadoop y bases de datosrelacionalesLegacy (heredadas, antiguas…)Página –109–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 20133. Procesado Se requieren nuevos modelos de programaciónpara manejarse con estos datos Solución: Para conseguir procesar grandes conjuntos dedatos: MapReduce Pero fue el desarrollo de Hadoop MapReduce,por parte de Yahoo, el que ha propiciado un ecosistemade herramientas open source os Google creó el modelode programación MapReducePágina –110–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 20134. Obtención de valor los datos no se pueden comer crudos lainformación no es conocimiento accionable Para ello tenemos técnicas de Data Mining • Asociación • Clasificación • Clustering • Predicción • ... Pero la mayoría de algoritmos se ejecutan bien enmiles de registros, pero son hoy por hoyimpracticables en miles de millones.Página –111–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Arquitectura de BIG DATA La explosión creciente de grandes volúmenes de datos está configurando en unióncon la implantación de cloud computing nuevas tecnologías y herramientas para lagestión y dirección de Big Data. Tecnologías como Bases de Datos NoSQL, Bases de datos“in-memory”, unido a frameworks en torno a Hadoop,MapReduce y otras soluciones de big data, requierenespecialistas en esta tecnologías Proveedores como Cloudera, Hortonwork, etc. estánofreciendo soluciones de Big Data que cada día más populares Soluciones como HANA de SAP, InfoSphere de IBM,Exadata/Exalytics de Oracle, EMC, Teradata,Microsoft … se requieren para hacer frente a las avalanchas de datos. …Página –112–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS ANALÍTICAS Analíticas: para permitir a múltiples usuarios contestarrápidamente preguntas de negocio que requieran de grandesvolúmenes de información.Bases de datos de procesamientoparalelo masivo (MPP)Bases de datos “en memoria”Almacenamiento en columnas Históricamente estas bases de datos tan especializadastenían un costo muy elevado, pero hoy el mercado nosofrece varias alternativas que se adaptan al presupuesto decada organización.Página –113–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Bases de datos analíticas Bases de datos diseñadas específicamente para serutilizadas como motores de Data Warehouse. Estas bases de datos logran procesar grandes volúmenes deinformación a velocidades asombrosas, gracias a la aplicación dediferentes conceptos y tecnologías: Almacenamiento en columnas en lugar de filas (registros) Massively parallel processing (MPP) In-Memory AnalyticsPágina –114–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013In-Memory Computing (IBM) In-memory computing is a technology that allows theprocessing of massive quantities of data in main memoryto provide immediate results from analysis andtransaction. The data to be processed is ideally real-timedata (that is, data that is available for processing oranalysis immediately after it is created). To achieve the desired performance, in-memorycomputing follows these basic concepts:Página –115–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013In-Memory Computing (IBM) Keep data in main memory to speed up data access. Minimize data movement by leveraging the columnarstorage concept, compression, and performingcalculations at the database level. Divide and conquer. Leverage the multi-corearchitecture of modern processors and multi-processorservers, or even scale out into a distributed landscape, tobe able to grow beyond what can be supplied by a singleserver. Las bases de datos en memoria de SAP HANA utilizandiferentes tecnologías in-memoryPágina –116–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013In-Memory Computing (IBM) 2.1 Keeping data in-memory Today, a single enterprise class server can hold severalterabytes of main memory. At the same time, prices forserver main memory dramatically dropped over the lastfew decades. This increase in capacity and reduction incost makes it a viable approach to keep huge amounts ofbusiness data in memory. This section discusses thebenefits and challenges. 2.1.1 Using main memory as the data store The most obvious reason to use main memory as the data store for adatabase is because accessing data in main memory is much fasterthan accessing data on disk. Figure 2-1 compares the access times fordata in several locations.Página –117–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013In-Memory Computing (IBM)Keep data in main memory to speed up dataaccess.Minimize data movement by leveraging thecolumnar storage concept, compression, and performingcalculations at the database level. Divide and conquer. Leverage the multi-corearchitecture of modern processors and multi-processorservers, or even scale out into a distributed landscape, tobe able to grow beyond what can be supplied by a singleserver. Las bases de datos en memoria de SAP HANAutilizan diferentes tecnologías in-memory Página –118–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –119–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Illustration of dictionary compressionPágina –120–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Row-based and column-based storage models: IBMPágina –121–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Almacenamiento por filas vs columnasPágina –122–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Almacenamiento en columnas, no filas:FUENTE: datalytics.comPágina –123–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Computación en memoria “In-Memory”La computación en memoria es unatecnología que permite el procesamiento de cantidadesmasivas de datos en memoria principal para proporcionarresultados inmediatos del análisis y de las transacciones.Los datos a procesar, idealmente son datos en tiemporeal (es decir, datos que están disponibles para suprocesamiento o análisis inmediatamente despuésque se han creado).Existen un amplio conjunto de tecnologías que empleanbases de datos en memoria. SAP HANA es una de lasmás acreditadas y populares… (Oracle, IBM,…)Página –124–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Categorías de bases de datos en BIG DATA El concepto de base de datos que utilizábamos hasta hace 2 años HACAMBIADO. Distintos tipos de bases de datos, para distintos tipos denecesidades.Bases de datos transaccionales: para almacenarinformación crítica del negocio, con origen en las aplicaciones desiempre (CRM, ERP, sistemas legacy, …)NoSQL: para capturar de manera segura y escalable, grandesvolúmenes de información continua generados por eventos.Analíticas (In-Memory): para permitir a múltiplesusuarios contestar rápidamente preguntas de negocio que requierande grandes volúmenes de información.Hadoop (HDFS & Hive): para almacenar y procesargrandes volúmenes de información estructurada o semi-estructurada.Página –125–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Bases de datosIn-Memory (en-memoria) SAP Hana Oracle Times Ten In-Memory Database IBM solidDBRelacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft… Transferencia de datos entre Hadoop y bases de datosrelacionalesLegacy (jerárquicas, en red… primeras relacionales…)NoSQL (Cassandra, Hive, mongoDB,CouchDB, Hbase…)Página –126–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS RELACIONALES (REPASO) La mayoría de las bases de datos cumplen con laspropiedades ACID (atomicity, consistency,isolation, durability). Estas propiedades garantizan uncomportamiento de las base de datos relacionales y el mejor de losargumentos para su utilización.Página –127–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS RELACIONALES (REPASO)Atomicidad (Atomicity) garantiza que lastransacciones (sean una consulta, o grupos de sentenciasSQL) no se puedan subdividir, es decir, se ejecutarantotalmente, o no se ejecutaran. Esta propiedad implica que en caso de fallo de hardware,fallo de la base de datos, o fallo de la aplicación, seactualizarán todos los datos o ninguno y se impide que labase de datos se corrompa o pierda el sincronismo lógicoentre los datos.Página –128–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS RELACIONALES (REPASO)Consistencia (Consistency). Garantiza que labase de datos siempre estará en un estado consistente.De hecho, garantiza que cada transacción lleve a la basede datos de un estado consistente a otro estadoconsistente. En este caso, consistencia se refiere a laconsistencia interna de relación entre tablas, y laconsistencia en los datos almacenados. La propiedad deconsistencia no permitiría guardar un entero en un campofloat, o no permitiría borrar una fila que es referenciadapor otra. Esta última forma de consistencia se le llama integridadreferencial.Página –129–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS RELACIONALES (REPASO)Aislamiento (Isolation). Garantiza que los datosde una operación no puede afectar a otra. Cuando se ejecutan dos transacciones sobre los mismosdatos, estas son independientes, de esta manera no segeneran errores en ninguna de las dos transacciones. Estohace que los datos que manejan cada una de lastransacciones no estén disponibles hasta que latransacción ha finalizado. Generalmente esto se consiguecon bloqueosPágina –130–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS RELACIONALES (REPASO) Durabilidad (Durability). Garantiza que una vez que latransacción se haya completado, siempre se podrárecuperar independientemente de cualquier fallo dehardware o software. Una vez la base de datos manda la señal de que latransacción ha sido ejecutada correctamente, se puedetener la certeza de que esa transacción esta aplicadacorrectamente a los datos y se va a poder recuperar. Lamayoría de las bases de datos utilizan un log detransacciones, y no consideran que una transacción estacompletada hasta que no esté escrita en el log.Este log secuencial permite recuperar los datos de la transacción encaso de un fallo del sistema, y de esta forma asegurar la consistencia delos datos.Página –131–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS TRANSACCIONALES Utilizadas en la mayoría de las empresas en la actualidadMotores transaccionales, diseñados y desarrollados parasoportar transacciones y trabajar con pocos registros poroperación.Las soluciones de Business Intelligence involucran cientos demiles (e inclusive millones) de registros en una única operación, ydeben responder en un tiempo adecuado.Las bases de datos transaccionales no fueron diseñadas pararesponder a consultas analíticas sobre grandes volúmenes deinformación. La irrupción de Big Data comienza a dejar enevidencia estas carencias, debiendo utilizar complejos índices,tablas agregadas, tablas particionadas, etc., aumentando el costode desarrollo y mantenimiento, obteniendo tiemposPágina –132–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS RELACIONALES (REPASO) Las bases de datos relacionales funcionan con el lenguajeSQL (Structured Query Language) Conceptos clave: creación de bases de datos,organización de esquemas de datos, normalización,creación de índices y optimización de instalaciones. Las bases de datos relacionales permiten separar la capade datos de la capa de aplicación. Al cumplir el estándarSQL son intercambiables entre sí (en su mayor parte) ypermiten un acceso rápido y fiable a los datos.Página –133–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS NoSQL Las bases de datos no-relacionales son comúnmentellamadas bases de datos NoSQL ya que la gran mayoríade ellas comparte el hecho de no utilizar el lenguaje SQLpara realizar las consultas Es una definición controvertida, aunque la definición másaceptada es “Not only SQL”. Una de las características de las bases de datos norelacionales es que la mayoría de ellas no utilizanesquemas de datos rígidos como las bases de datosrelacionales. Esto hace que estas bases de datos tambiénse les llame “Schema-less” o “Schema-free(“almacenamiento des-estructurado”).Página –134–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS NoSQL Distintos tipos de bases de datos para distintos tipos de aplicaciones:documentales, grafos, clave/valor, orientadas a objetos, tabulares, … NoSQL:para capturar de manera segura y escalable, grandes volúmenes deinformación continua generados por eventos.Características  SQL: Sin (o muy poco) soporte para SQL.Datos accedidos a través de programas Java, no consultas  ACID: Sin integridad referencial, poco soporte transaccional Definición de estructuras de datos flexibles (sobre la marcha)Página –135–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BASES DE DATOS NoSQL Beneficios Facilidad de escalamiento horizontal (clusters baratos) Almacenamiento de grandes volúmenes (no generancuellos de botella) Excelentes para lecturas masivas de registros tipoclave/valor. Desafíos… Son de distintos vendedores y no están integradas Estos tipos de DBs se utilizan por lo general en conjunto Se utilizan y administran de distinta manera; utilizandistintos lenguajes: no SQL! Dependencia de sistemas: vuelta a las raíces?Página –136–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Taxonomía de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con suimplementación son los siguientes: – Almacenes de Clave-Valor – Almacenes de Familia de Columnas (columnares) – Almacenes de documentos (orientadas adocumentos) – Almacenes de Grafos (orientadas a grafos) - Cachés de memoriaPágina –137–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013SOLUCIONES DE BASES DE DATOS NoSQLPágina –138–
    • 139139INGENIERÍA INFORMÁTICAProf. Luis Joyanes AguilarTecnologías BIG DATAHADOOP
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Logo de HADOOPPágina –140–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Logo de HADOOPPágina –141–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Fundación Apache: proyectos open source The Apache Software Foundation provides supportfor the Apache community of open-source softwareprojects, which provide software products for thepublic good The Apache Software Foundation provides support for theApache community of open-source software projects,which provide software products for the public goodPágina –142–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Fundación Apache: proyectos open source The Apache Software Foundation provides supportfor the Apache community of open-source softwareprojects, which provide software products for thepublic good The Apache projects are defined by collaborativeconsensus based processes, an open, pragmaticsoftware license and a desire to create high qualitysoftware that leads the way in its field Community-led development since 1999. We consider ourselves not simply a group ofprojects sharing a server, but rather a communityof developers and users.Página –143–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Historia de Hadoop: Doug CuttingPágina –144–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013TECNOLOGÍAS BIG DATA (HADOOP) Datos de la consultora IDC de agosto de 2012 prevén que elmercado del software relacionado con los frameworkopen source Apache Hadoop y el MapReduce deGoogle crecerá a un ritmo anual de más del 60% hasta elaño 2016. La popularidad de Hadoop se ha ido incrementando durantelos últimos meses, a medida que las empresas necesitanmanejar grandes cantidades de datos estructurados y noestructurados para después analizarlos y ser capaces detomar decisiones lo más favorables posible para sus negocios. IDC también espera que el mercado de Hadoop-MapReduce evolucione yque poco a poco comienza a introducirse en los sistemas empresariales.Página –145–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Hadoop“The Apache Hadoop software library is aframework that allows for the distributedprocessing of large data sets acrossclusters of computers using a simpleProgramming model” De la página de HadoopPágina –146–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Componentes fundamentales de OpenSource Apache Hadoop (biblioteca de software de open source) Apache Hadoop consta de los siguientes subproyectos HDFS (Haoop Distributed File System) MapReduce Hadoop Commonsy de las siguientes tecnologíasHbaseHivePigOtrasPágina –147–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013TECNOLOGÍAS BIG DATA (HADOOP) Hadoop es un proyecto de software open source queprovee un framework para habilitar el procesamientodistribuido de grandes conjuntos de datos sobre clustersconstruidos con hardware genérico. En esencia, Hadoopconsta de dos elementos base: un sistema de archivosdistribuido (Hadoop Distributed File System, HDFS) yun motor de procesamiento de datos que implementa elmodelo Map/Reduce (Hadoop MapReduce). Sinembargo, conforme ha ido ganando adopción y madurez,también se han ido creando tecnologías paracomplementarlo y ampliar sus escenarios de uso, de talforma que hoy en día el nombre “Hadoop” no se refiere auna sola herramienta sino a una familia de herramientasalrededor de HDFS y MapReduce.Página –148–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013What Is Apache Hadoop? (Fundación Apache) The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributedcomputing. The Apache Hadoop software library is a frameworkthat allows for the distributed processing of large datasets across clusters of computers using simpleprogramming models. It is designed to scale up fromsingle servers to thousands of machines, each offeringlocal computation and storage. Rather than rely onhardware to deliver high-avaiability, the library itself isdesigned to detect and handle failures at the applicationlayer, so delivering a highly-availabile service on top of acluster of computers, each of which may be prone tofailures.Página –149–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Historia de HADOOP ● 2004-2006 – Google publica los papers de GFS y MapReduce – Doug Cutting implementa una versión Open Source enNutch ● 2006-2008 – Hadoop se separa de Nutch – Se alcanza la escala web en 2008 ● 2008-Hasta ahora – Hadoop se populariza y se comienza a explotarcomercialmente. Fuente: Hadoop: a brief history. Doug CuttingPágina –150–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Componentes HADOOP (Apache) The project includes these modules: Hadoop Common: The common utilities that supportthe other Hadoop modules. Hadoop Distributed File System (HDFS™): Adistributed file system that provides high-throughputaccess to application data. Hadoop YARN: A framework for job scheduling andcluster resource management. Hadoop MapReduce: A YARN-based system for parallelprocessing of large data sets.Página –151–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013APACHE HADOOP Other Hadoop-related projects at Apache include:Avro™: A data serialization system.Cassandra™: A scalable multi-master database withno single points of failure.Chukwa™: A data collection system for managing largedistributed systems.HBase™: A scalable, distributed database that supportsstructured data storage for large tables.Página –152–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013APACHE HADOOPHive™: A data warehouse infrastructure that providesdata summarization and ad hoc querying.Mahout™: A Scalable machine learning and datamining library.Pig™: A high-level data-flow language and executionframework for parallel computation.ZooKeeper™: A high-performance coordinationservice for distributed applications.Página –153–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Hadoop Apache Hadoop es un framework que permite eltratamiento distribuido de grandes cantidades de datos(del orden de peta bytes) y trabajar con miles demáquinas de forma distribuida. Se inspiró en losdocumentos sobre MapReduce y Google File Systempublicados por Google. Está desarrollado en Java y se ejecuta dentro de la JVM. Actualmente está soportado por Google, Yahoo e IBMentre otros. También existen empresas como Cloudera(http://www.cloudera.com/) que ofrecen solucionesempresariales Open Source basadas en Hadoop.Página –154–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Hadoop Las características principales de Hadoop son: Económico: Está diseñado para ejecutarse en equipos debajo coste formando clústeres. Estos clústeres puedenllevarnos a pensar en miles de nodos de procesamientodisponibles para el procesado de información. • Escalable: Si se necesita más poder de procesamiento ocapacidad de almacenamiento solo hay que añadir másnodos al clúster de forma sencilla. • Eficiente: Hadoop distribuye los datos y los procesa enparalelo en los nodos donde los datos se encuentranlocalizados. • Confiable: Es capaz de mantener múltiples copias de los datos yautomáticamente hacer un re-despliegue de las tareasPágina –155–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Hadoop El diseño de Hadoop se divide en dos partesprincipales: Por un lado está el sistema de ficheros distribuidoHadoop Distributed File System (HDFS) quese encarga de almacenar todos los datos repartiéndolosentre cada nodo de la red Hadoop. Por otro lado la implementación de MapReduce que seencarga del procesamiento de la información de formadistribuida.Página –156–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Integración con Big Data. FUENTE: datalytics.comPágina –157–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Integración con Big Data. FUENTE: datalytics.comPágina –158–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Hadoop en la actualidad Actualmente Hadoop es un framework muy extendido enel ámbito empresarial, sobre todo en compañías quemanejan grandes volúmenes de datos. Entre las quepodemos descarta las siguientes empresas: Yahoo: La aplicación Yahoo! Search Webmap estáimplementado con Hadoop sobre un clúster de mas de10.000 nodos Linux y la información que produce es lautilizada por el buscador de Yahoo. Facebook: Tiene a día de hoy el mayor clúster Hadoopdel mundo que almacena hasta 30 petabytes deinformación Amazon A9: Se utiliza para la generar índices de búsqueda de losproductos ofertados en el portal. Disponen de varios clústeres de entre 1 y100 nodos cada uno.Página –159–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Hadoop en la actualidad The New York Times: Utiliza Hadoop y EC2 (AmazonElastic Compute Cloud) para convertir 4 Terabytes deimágenes TIFF en imágenes PNG de 800 K para sermostradas en la Web en 36 horas. Además existen compañías cuyo negocio es principal esHadoop, como Cloudera, que comercializa CDH(Clouderas Distribution including Apache Hadoop), que dasoporte en la configuración y despliegue de clústeres Hadoop. Además proporciona servicios de consultoría yformación en estas tecnología. Todo el software quedistribuyen es Open Source.Página –160–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Distribuciones de HadoopPágina –161–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Distribuciones de HadoopClouderamapRHortonworks IBM… ofrece una distribución llamada InfoSphereBigInsights Amazon Web Services ofrece una marco de trabajo Hadoopque forma parte del servicio Amazon Elastic MapReduce EMC ofrece Greenplus HD Microsoft ofrece Hadoop como un servicio basado en lanube de Microsoft AzurePágina –162–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Massive open onlinecourse (MOOC)Similares a los cursos a distanciaimpartidos por institucionesuniversitarias y con certificados.
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013OPORTUNIDADES PARA LATINOAMÉRICADespliegue y comercialización de la red dealta velocidad y gran ancho de banda LTE(4G) en la actualidad (Noticia de impactoen CLOUD COMPUTING y Big Data y granventaja competitiva)En Europa está comenzando el despliegue ycomercialización este año 2013. En España porproblemas administrativos y técnicos (derivados delespectro radioeléctrico) como muy pronto parece noempezará la comercialización hasta 2014.Página –164–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Certificación Cloud Se requieren profesionales cualificados en la nube. Amedida que avanza el uso de los servicios en la nube, sehace más necesario la formación en la materia y porconsiguiente CERTIFICACIONESPROFESIONALES De igual modo que con los estándares en CloudComputing, ha crecido el interés de los usuarios por eltérmino “Cloud Training courses”. En Octubre, Rackspace creó un curso decertificación en OpenStack, con planes paralanzar en el futuro otros programas de aprendizaje en lanube. Certificaciones de Cloudera, Hadoop…Página –165–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Certificación CloudCloudStack/OpenStack Citrix está en el proyecto CloudStack, Rackspace ofrece servicios de cloud públicabasados en OpenStack.Existen otras alternativas como Eucalyptus, quetienen soporte para conectarse a nubes deAmazon AWS y OpenNebulaOtras certificacionesPágina –166–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013NECESIDAD DE FORMACIÓN PROFESIONALAVANZADA EN CLOUD COMPUTING-BIGDATA El mercado tiene carencia de especialistas en CloudComputing y sobre todo en Big Data. Hay miles de puestosque se deberán cubrir en los próximos cinco años segúnestadísticas fiables de IDC, Gartner, Forrester, McKinsey… UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁDE ESPECIALISTAS EN CIENCIAS DE DATOS(Científicos de datos) y además ANALISTAS DE DATOS(formados en Analytics y tecnologías Big Data·Hadoop”, “InMemory”.. Se necesitan certificaciones profesionales en CLOUDCOMPUTING Y BIG DATAPágina –167–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013NUEVAS CARRERAS UNIVERSITARIAS:maestrias,ingeniería, diplomados…Community Manager, Social MediaManager y Analista Web y SEOIngeniero de Cloud Computing (En España hayuna universidad privada que lo lanza el próximo curso)Ingeniero de negocios digitales (DigitalBusiness Intelligence)Ingeniería en Big Data (Infraestructuras, Bases dedatos NoSQL, Hadoop, Tecnologías “in-memory”…)Analítica de datos (Analytics) y Analítica deBig DataPágina –168–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LAS TITULACIONES-PROFESIONES MÁSDEMANDADAS en TIC EN PRÓXIMOS AÑOS(HBR, Harvard Business Review) número deoctubre de 2012 (Los datos el nuevo petróleo/orodel siglo XXI):Ciencia de los datos: Data Science(Maestría/Doctorado) … En EstadosUnidos, México y Europa… ya existeniniciativas.LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : ELCIENTÍFICO DE DATOS (Data Scientist)Página –169–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013NUEVAS CARRERAS Y PROFESIONESCommunity Manager , Social Media Manager,SEO, Analistas Web … cada día son más demandadas y.Sin embargo la profesión del futuro será:EL CIENTÍFICO DE DATOS (Data Scientist). Unprofesional con formación de Sistemas,Estadística, Analítica, Ciencias Físicas yBiológicas… que analizará los Big Data para latoma de decisiones eficientes y obtenerrentabilidad en los negocios.HBR (Harvard Business Review lo declaró laprofesión “MÁS SEXY del siglo XXI”..Página –170–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –171–MUCHAS GRACIAS … ¿Preguntas?Portal tecnológico y de conocimientowww.mhe.es/joyanesPortal GISSIC “El Ágora deLatinoamérica”: gissic.wordpress.comTwitter:@luisjoyaneswww.slideshare.net/joyaneswww.facebook.com/joyanesluisPORTAL NTICS : luisjoyanes.wordpress.comCORREO-e: joyanes@gmail.comUNIVERSIDAD PONTIFICIA DE SALAMANCA – C. MADRID
    • 172Prof. Luis Joyanes AguilarBIBLIOGRAFÍA
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BIBLIOGRAFÍA BÁSICAJOYANES, Luis (2012). Computación enla nube. Estrategias de cloudcomputing para las empresas.MéxicoDF: Alfaomega.JOYANES, Luis (2013). BIG DATA. El análisisde los grandes volúmenes de datos.MéxicoDF: Alfaomega Colección de libros NTICS (Negocios, Tecnología, Innovación,Conocimiento y Sociedad) dirigida por el profesor LuisJoyanes y publicada en la editorial Alfaomega de México DF.Primeros números en 2012 y 2013: Nº 1. CloudComputing. Nº 2. Big DataPágina –173–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BIBLIOGRAFÍA BÁSICA JOYANES, Luis. “Computación en "Nube" (CloudComputing) y Centros de Datos la nueva revoluciónindustrial ¿cómo cambiará el trabajo enorganizaciones y empresas?”. Sociedad y Utopía.UPSA: Madrid. , ISSN 1133-6706, Nº 36, 2010, págs.111-127. JOYANES, Luis (2009a) “La Computación enNube(Cloud Computing) :El nuevo paradigmatecnológico para empresas y organizaciones en laSociedad del Conocimiento” , ICADE, nº 76, enero-marzo 2009, Madrid: Universidad Pontificia Comillas.Página –174–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013ÚLTIMOS LIBROS DEL prof. LUISJOYANESProgramación en C/C++, Java y UML.México DF: McGraw-Hill, 2010.Programación en Java 6. México DF:McGraw-Hill, 2011.Ciberseguridad. Retos y desafíos para ladefensa nacional en el ciberespacio.Madrid: IEEE (Instituto Español de EstudiosEstratégicos). 2011. Editor y CoordinadorFundamentos generales de programación.México DF: McGraw-Hill, 2012.Página –175–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013ÚLTIMOS LIBROS DE LUIS JOYANESDirector y Editor de la Colección NTICS(Negocios, Tecnología, Información,Conocimiento y Sociedad) publicada por laeditorial AlfaOmega (México DF). El primer libro está prevista su publicación a finalesde 2011 y su títuloLA NUBE. El nuevo paradigma del CloudComputing.Página –176–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Blogs tecnológicos TechCrunch (www.techcrunch.com) Gizmodo (www.gizmodo.com, www.gizmodo.es) Boing Boing (www.boingboing.com) Engadget (www.engadget.com) The Official Google Blog (googleblog.blospot.com) O´Reilly (www.oreillynet.com) Slahdot (www.slahdot.com) Microsiervos (www.microsiervos.com) Xataca (www.xataca.com) Google Dirson (google.dirson.com) Masable (www.mashable.com)Página –177–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LECTURAS RECOMENDADAS Documentos de Cloud Computing de:NISTCloud Security AllianceISACAONTSIBANKINTER – AccentureENISACio.com, Computing.es,idc.com/computerworldPágina –178–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BIBLIOGRAFÍA SOARES, Sunil (2013). Big Data Governance. Anemerging Imperative. Boise, USA: MC Press. FRANKS, Bill (2012). Taming the Big Data Tidal Wave.New York: Wiley. Datalytics. 18D – Pentaho Big Data Architecture,www.datalytics.com (Pentaho) Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-memory Computing with SAP HANA on IBM eX5Systems. ibm.com/redbooks. Draft Document forReview December 7, 2012 1:59 pm SG24-8086-00Página –179–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013BIBLIOGRAFÍA ZIKOPOULOS, Paul C. et al (2012). Understanding BigData. Analytics for Enterprise Class Hadoop and StreamingData. New York: McGraw-Hill.www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the Powerof Big Data. The IBM Big Data Platform. New York:McGraw-Hill. Descargable libre en IBM.Página –180–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Página –181–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013REFERENCIASMcKinsey Global Institute . Big data: Thenext frontier for innovation, competition, andproductivity. June 2011James G. Kobielus. The Forrester Wave™:Enterprise Hadoop Solutions, Q1 2012, February2, 2012.www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipiña Glz. de Artaza. Bases de Datos NoRelacionales (NoSQL). Facultad de Ingeniería,Universidad de Deusto. www.morelab.deusto.eshttp://paginaspersonales.deusto.es/dipinaPágina –182–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013REFERENCIAS Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER2011. TDWI.orgIBM. http://www-01.ibm.com/software/data/bigdata/Página –183–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Referencias NoSQL vs. RDBMS Riyaz -- Thanks for the question regarding "NOSQL vs. RDBMSdatabases", version 10r2 http://asktom.oracle.com/pls/asktom/f?p=100:11:0::::P11_QUESTION_ID:2664632900346253817 NoSQL or not NoSQL? http://www.slideshare.net/ruflin/nosql-or-not-nosql/download Comparativa de diferentes soluciones NoSQL: http://kkovacs.eu/cassandra-vs-mongodb-vs-couchdb-vs-redis SQL vs. NoSQL. http://www.linuxjournal.com/article/10770 Cassandra. “NoSQL – Not only SQL (Introduction toApache Cassandra)”.http://www.scriptandscroll.com/3508/technology/nosql-not-only-sql-introduction-to-apache-cassandra/#.TtonPmMk6nA http://www.datastax.com/docs/0.8/dml/using_cql http://cassandra.apache.org/Página –184–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013REFERENCIASFundación Apache:http://hadoop.apache.org/Apache ZooKeeper: http://zookeeper.apache.org/Apache Hive: http://hive.apache.org/Pig: http://pig.apache.org/Apache Avro: http://avro.apache.org/Apache Hbase: http://hbase.apache.org/Página –185–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013REFERENCIAS [1] “Hadoop Wiki”. http://wiki.apache.org/hadoop [2] D. Engfer. “Intro to the Hadoop Stack.”http://www.slideshare.net/davidengfer/intro-to-the-hadoop-stack-javamug [3] C. Zedlewski, E. Collins. “Hadoop Stack: Then, nowand future”.http://www.slideshare.net/cloudera/the-hadoop-stack-then-now-and-in-the-future-eli-collins-charles-zedlewski-cloudera [4] M. Collins. “Hadoop and MapReduce: Big DataAnalytics”. Gartner Research, Enero 2011http://www.gartner.com/id=1521016Página –186–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LECTURAS RECOMENDADASONTSI. Cloud computing: Retos yoportunidades, mayo 2012.http://www.ontsi.red.es/ontsi/sites/default/files/1-_estudio_cloud_computing_retos_y_oportunidades_vdef.pdf KING, Rachael (2008): “How Cloud Computing isChanging the World?” en BusinessWeek, New York, 4august, 2008 LEINWAND, Allan (2008): “It´s 2018: Who Owns theCloud?” en BusinessWeek, New York, 4 august, 2008 THE ECONOMIST (2008): “Let it rise. A Special reporton IT Corporate” en The Economist, London, October25th 2008.Página –187–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013Blogs tecnológicos TechCrunch (www.techcrunch.com) Gizmodo (www.gizmodo.com, www.gizmodo.es) Boing Boing (www.boingboing.com) Engadget (www.engadget.com) The Official Google Blog (googleblog.blospot.com) O´Reilly (www.oreillynet.com) Slahdot (www.slahdot.com) Microsiervos (www.microsiervos.com) Xataca (www.xataca.com) Google Dirson (google.dirson.com) Masable (www.mashable.com)Página –188–
    • © Luis Joyanes AguilarUniversidad Distrital Francisco José de CaldasBogotá (Colombia). 31 de mayo de 2013LECTURAS RECOMENDADAS Documentos de Cloud Computing de:NISTCloud Security AllianceISACAONTSIBANKINTER – AccentureENISACio.com, Computing.es,idc.com/computerworldPágina –189–