Datos semiestructurados Xml

3,781 views

Published on

Presentación de XML

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
3,781
On SlideShare
0
From Embeds
0
Number of Embeds
456
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Datos semiestructurados Xml

  1. 1. El XML y las bases de datoshttp://en.wikipedia.org/wiki/XML_database
  2. 2. Definiciones• Marcado o etiquetado en un documento electrónico, son los códigos que las aplicaciones incluyen dentro del mismo archivo, donde se guardan la información requerida para definir el formato (tipo de letra, tamaño, justificación, negritas, itálicas, etcétera) y estructura.• Hipertexto es texto con enlaces o conexiones a otro texto, documentos, recursos o informaciones. – Enlaces, links o vínculos, son el medio que permite encontrar fácilmente y de forma inmediata, informaciones relacionadas.• La Web Semántica es la Web actual dotada de significado, se interpretar el sentido de esta información. – información tendría un significado bien definido. – Puede ser interpretada por agentes humanos y computarizados JOSÉ CUARTAS BASES DE DATOS 2
  3. 3. Definiciones• Ontologías define los términos y las relaciones básicas para la compresión de un área del conocimiento, así como las reglas para poder combinar los términos para definir las extensiones de este tipo de vocabulario controlado. – trata de convertir la información en conocimiento mediante unas estructuras de conocimiento formalizadas (las ontologías) que referencien los datos(metadata).• Tesauro La norma ISO 2788-1986 define un tesauro como "un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento". JOSÉ CUARTAS BASES DE DATOS 3
  4. 4. Motivaciones• Los documentos (tanto físicos como electrónicos) son el mejor lugar donde la humanidad ha guardado su conocimiento.• La información y el conocimiento contenidos en documentos, forman sin duda una de las partes más importantes en cualquier campo de aplicación.• la habilidad de comunicar información rápida y eficientemente es cada vez más importante. – Es uno de los factores de crecimiento de muchas organizaciones. JOSÉ CUARTAS BASES DE DATOS 4
  5. 5. Motivaciones• Se necesita saber que dice lo que la información es.• Se necesita poder compartir documentos electrónicos entre plataformas de hardware y software diferentes. – Esta es la razón de la existencia de los “Lenguajes de Marcado”.• La información se presente de tal forma que permita ser reutilizada en diferentes formas para disminuir tiempos y esfuerzos.• Se necesitan un sistema que pueda utilizarse para añadir al contenido cualquier clase de metadatos JOSÉ CUARTAS BASES DE DATOS 5
  6. 6. Problemas• Intercambios de la información digital. – No se tiene la aplicación con el que la información original fue creada, por lo tanto no tienen como visualizarla o analizarla. – El HTML generalmente cuanta con un formato de presentación, mas no con la estructura.• La búsqueda de información está relacionado con la estructuración de documentos. • Se necesita un mecanismo por medio del cual se pueda estructurar y filtrar, de manera que sólo se acceda a la información que nos interesa.• Los errores humanos y los tiempos de espera – Se necesita evitar errores humanos en el manejo de la información, además, de los tiempos de espera en la generación de información estructurada manualmente. JOSÉ CUARTAS BASES DE DATOS 6
  7. 7. Problemas• El problema de búsqueda de información está relacionado con la estructuración de documentos, LA WEB SEMÁNTICA. – La estructura, es el orden, la lógica o las reglas que tienen que seguir las partes o elementos que componen un documento. – La estructura de un documento depende de una serie de reglas previamente establecidas para la escritura de cierto tipo de documentos. – la estructura no sólo sirve para hacer que un documento sea más comunicativo, sino que además sirve para que el usuario localice con mayor facilidad el contenido del documento. JOSÉ CUARTAS BASES DE DATOS 7
  8. 8. Historia• Las marcas o etiquetas, se originaron en la industria editorial.• El concepto de lenguaje de marcas fue expuesto por vez primera por William W. Tunnicliffe en 1967. – La mayor novedad consistía en la separación entre la presentación y la estructura del texto.• En los 70s, un comité llamado Graphic Communications Association (CGA) creó uno de los primeros Lenguajes de Marcado llamado GenCode.• Entre los 70 y 80 Charles F. Goldfarb, junto con Edward Mosher y Raymond Lorie, crearon el lenguaje GML(Derivado de Gencode), de cual se desprende el estándar SGML. JOSÉ CUARTAS BASES DE DATOS 8
  9. 9. Historia hacia el “FUTURO”• En 1986 se crea el SGML (Standard Generalized Markup Language) es el estándar ISO 8879:1986.• El XML es una simplificación y adaptación del SGML• Los lenguajes de marcado son la herramienta fundamental en el diseño de la web semántica: – Descripción del contenido, el significado y la relación de los datos. – RDF (Resource descriptión framework-Plataforma de descripción de recursos) – OWL (Web Ontology Language-Lenguaje de ontologías para la web) – Ambos lenguajes derivados de XML. – Lenguajes para agregar semántica a los documentos. JOSÉ CUARTAS BASES DE DATOS 9
  10. 10. Motivaciones• SGML tiene tres características principales: – Extensibilidad. Permite definir nuevas etiquetas y nombres de atributos para los documentos – Estructura. Los documentos pueden ser contenedores para otros documentos, con un anidamiento arbitrario. Esto permite construir documentos complejos a partir de documentos más simples. – Validación. Si se desea, cualquier documento en SGML puede hacer referencia a una descripción de su gramática, de manera que las aplicaciones pueden validar que un documento cumpla con la estructura especificada. JOSÉ CUARTAS BASES DE DATOS 10
  11. 11. eXtensible Markup Language (XML)• Estándar para el intercambio y representación de datos.• XML o Lenguaje de Marcado Extensible : es un metalenguaje por medio del cual podemos definir nuestros propios lenguajes de marcado. – Es un estándar para crear documentos. – Derivado del SGML, siendo un subconjunto del SGML, del cual adquiere las propiedades más relevantes, y sencillas.• XML se basa en el concepto de documentos compuestos por una serie de entidades.• Los archivos XML son organizaciones jerárquicas en forma de árbol• XML fue diseñado para transportar y almacenar datos, focalizado en saber decir lo que el datos es. JOSÉ CUARTAS BASES DE DATOS 11
  12. 12. eXtensible Markup Language (XML)• Muy similar al HTML – Las etiquetas describen el contenido en lugar del formato. – También, permite formato continuo en el intercambio.• Es muy auto descriptivo JOSÉ CUARTAS BASES DE DATOS 12
  13. 13. XML estructura• Los elementos son los que identifican secciones de información.• Los atributos son una forma de enunciar características o propiedades a los elementos de un documento. • El TEXTO JOSÉ CUARTAS BASES DE DATOS 13
  14. 14. eXtensible Markup Language (XML) XML vs Relacional XML Relacional Estructura Jerárquicas Tablas Esquema Flexible, Auto-descripción Rígido, definición de columna Ordenamiento Implícito Ninguno, solo por ORDER BY Consulta Mejorando Simple JOSÉ CUARTAS BASES DE DATOS 14
  15. 15. XML bien formado• Único elemento raíz.• Etiquetas combinadas, con un correcto anidamiento.• Atributos únicos dentro de los elementos. JOSÉ CUARTAS BASES DE DATOS 15
  16. 16. XML bien formado• Único elemento raíz.• Etiquetas combinadas, con un correcto anidamiento.• Atributos únicos dentro de los elementos. Documento Analizador XML XML XML validado “parsers” SAX y DOM “No esta bien formado”http://es.wikipedia.org/wiki/Validación_XML JOSÉ CUARTAS BASES DE DATOS 16
  17. 17. Presentación de un XML• Son las reglas para la presentación en un medio. – Impresora – HTML• Utilizar reglas para traducir a HTML. – Hojas de estilo en cascada (CSS). – Extensible Stylesheet Language (XSL). Reglas Documento CSS/XSL Documento XML interprete HTML (datos) (mirar)http://es.wikipedia.org/wiki/Extensible_Stylesheet_Language JOSÉ CUARTAS BASES DE DATOS 17

×