Successfully reported this slideshow.

More Related Content

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Tarea 3 del second period...ok.

  1. 1. INSTITUTO NACIONAL TEXISTEPEQUE INTEX TOPIC: MINING DATA, BIG DATA, CLOUD COMPUTING ENCARGADO: HJALMAR HERNANDEZ INVESTIGADORES: RAFAEL ALBERTO CASTRO ORELLANA WALTER ERNESTO MONTEJO JOVEL GRADO: TERCERO CONTADOR TAREA NUMERO TRES FECHA: 06 de mayo de 2013 BODY MINING DATA BIG DATA CLOUD COMPUTING SIMILITUDES Data Mining, la extracción de información oculta y predecible de grandes bases de datos, Almacena grandes cantidades de información y datos… es una tendencia tecnológica que está significando una gran revolución en todo el mundo. Pero como cualquier fenómeno, presenta sus oportunidades y amenazas que son importantes conocer. DIFERENCIAS Big data no se presta bien a ser domesticado por las técnicas de gestión de datos estándar, simplemente debido a sus combinaciones inconsistentes e impredecibles. VENTAJAS - es una o Reducción de costos: No hay necesidad de
  2. 2. Poderosa tecnología nueva con gran potencial para ayudar a las compañías a concentrarse en la información más importante de sus Bases de Información -Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas. - pueden analizar bases de datos masivas para brindar respuesta a preguntas tales como, "¿Cuáles clientes tienen más probabilidad de responder al próximo mailing promocional, y por qué? - presentar los resultados en formas de tablas, con gráficos, reportes, texto, hipertexto, etc -está soportado por tres tecnologías que ya están suficientemente maduras: Recolección masiva de datos Potentes computadoras con multiprocesadores Algoritmos de Data Mining BRINDA CAPACIDADES COMO: Predicción automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, -Es una referencia a los sistemas que manipulan grandes conjuntos. -aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable. -Los tamaños del "big data" se encuentran constantemente en movimiento creciente. -el crecimiento constante de datos como una oportunidad y reto para investigar en el volumen, la velocidad y la variedad. Gartner continúa usando big data como referencia de este. -Las máquinas modernas, tales como automóviles, trenes, centrales eléctricas y aviones todos se aumenta el número de sensores de recolección constantemente grandes cantidades de datos. Es común hablar de tener miles o incluso cientos de miles de sensores de todo recogiendo información sobre el funcionamiento y las actividades de una máquina. adquirir hardware y software lo que reduce costos operativos en infraestructura, mantenimiento y energía. La nube es más barata que la instalación y mantenimiento de un servidor propio o contratar los servicios de un proveedor. o Flexibilidad: El servicio de nube se paga de acuerdo a la demanda. Si, por ejemplo, una empresa los días treinta incrementa el movimiento de su área contable y financiera por pagos a empleados y proveedores, puede decidir que requiere mayor capacidad de proceso o de almacenamiento de datos, y pagará por una mayor demanda, pero sólo el día 30. o Movilidad: Los datos de una empresa al quedar alojados en la nube pueden ser consultados por los empleados desde cualquier lugar. Esta característica está significando un crecimiento del teletrabajo con todos sus efectos de tipo económico, social e incluso, inmobiliario. o Focalización: Cloud Computing permite a las compañías centrarse en su corebusiness, negocio principal. En vez de hacer una alta inversión tecnológica en sistemas, una empresa podría invertir en su infraestructura industrial o física o en capital humano para proseguir sus planes de expansión o Ecología: Usar la nube en una empresa reduce la huella de carbono de una empresa al ahorrar recursos y componentes que pasan de estar almacenados en componentes físicos a ser virtuales. Se ahorra también en consumo de energía con sus beneficios al medio ambiente.
  3. 3. ahora pueden ser contestadas directa y rápidamente desde los datos. Descubrimiento automatizado de modelos previamente desconocidos. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipeado en la carga de datos. Las bases de datos pueden ser grandes tanto en profundidad como en ancho: Más columnasUn Data Mining de alto rendimiento permite a los usuarios explorar toda la base de datos, sin preseleccionar un subconjunto de variables. Más filas. Muestras mayores producen menos errores de estimación y desvíos, y permite a los usuarios hacer inferencias acerca de pequeños pero importantes segmentos de población. , detección de fraudes, lanzamiento de nuevos productos, etc. -Los datos enviados desde cientos de miles de sensores en un avión es de grandes volúmenes de datos. Sin embargo, el tamaño del conjunto de datos no es tan grande como podría esperarse. Hasta cien mil sensores, cada una produciendo un byte de ocho leer cada segundo se producen menos de 3 GB de datos en una hora de vuelo (100.000 sensores x 60 minutos x 60 segundos x 8 bytes). -Hay un número creciente de sistemas que generan grandes cantidades de datos muy simples. Por ejemplo, los medios de transmisión es la generación de grandes volúmenes con cantidades crecientes de metadatos estructurados. Del mismo modo, las empresas de telecomunicaciones tienen que rastrear grandes volúmenes de llamadas y conexiones a Internet. Incluso si estas dos actividades se combinan, y peta bytes de datos se produce, el contenido es muy estructurado. Como los motores de búsqueda, como Google y bases de datos relacionales han demostrado, los conjuntos de datos se pueden analizar muy rápidamente si el contenido está bien estructurado. A pesar de que estos datos son grandes, no es "grande" en la misma forma que los
  4. 4. datos procedentes de los sensores de la máquina en el ejemplo anterior. DESVENTAJA S Las dificultades más habituales en estos casos se centran en la captura, el almacenado,búsqueda, compartición, análisis, y visualización. El tamaño es una característica de los grandes volúmenes de datos. La respuesta está en el número de fuentes de datos independientes, cada uno con el potencial de interactuar. Otro atributo de los grandes volúmenes de datos es su tendencia a ser difícil de eliminar lo que la privacidad de un interés común. Por ejemplo, es casi imposible para purgar todos los datos asociados con un conductor de coche de individuo a partir de datos de autopistas de peaje. Los captadores de recuento del número de automóviles ya no equilibrar con los registros de facturación individuales que, a su vez, no se correspondería con los pagos recibidos por la empresa. La centralización de las aplicaciones y el almacenamiento de los datos origina una interdependencia de los proveedores de servicios. La disponibilidad de las aplicaciones está ligada a la disponibilidad de acceso a Internet. Los datos "sensibles" del negocio no residen en las instalaciones de las empresas, lo que podría generar un contexto de alta vulnerabilidad para la sustracción o robo de información. La confiabilidad de los servicios depende de la "salud" tecnológica y financiera de los proveedores de servicios en nube. Empresas emergentes o alianzas entre empresas podrían crear un ambiente propicio para el monopolio y el crecimiento exagerado en los servicios.4 La disponibilidad de servicios altamente especializados podría tardar meses o incluso años para que sean factibles de ser desplegados en la red. La madurez funcional de las aplicaciones hace que continuamente estén modificando sus interfaces, por lo cual la curva de aprendizaje en empresas de orientación no tecnológica tenga unas pendientes significativas, así como su consumo automático por aplicaciones. Seguridad. La información de la empresa debe recorrer diferentes nodos para llegar a su destino, cada uno de ellos (y sus canales) son un foco de inseguridad. Si se utilizan protocolos seguros, HTTPS por ejemplo, la
  5. 5. velocidad total disminuye debido a la sobrecarga que éstos requieren. Escalabilidad a largo plazo. A medida que más usuarios empiecen a compartir la infraestructura de la nube, la sobrecarga en los servidores de los proveedores aumentará, si la empresa no posee un esquema de crecimiento óptimo puede llevar a degradaciones en el servicio o altos niveles de jitter.
  6. 6. Bibliografía http://www.monografias.com/trabajos/datamining/datamining.shtml http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.h tm http://mike2.openmethodology.org/wiki/Big_Data_Definition#Big_data_that_is_very_small

×