LM-UT1: Lenguajes de marcas
Upcoming SlideShare
Loading in...5
×
 

LM-UT1: Lenguajes de marcas

on

  • 2,075 views

Lenguajes de Marcas y SGI (CFGS Administrador de Sistemas Informáticos en Red)

Lenguajes de Marcas y SGI (CFGS Administrador de Sistemas Informáticos en Red)

Statistics

Views

Total Views
2,075
Views on SlideShare
2,075
Embed Views
0

Actions

Likes
1
Downloads
46
Comments
0

0 Embeds 0

No embeds

Accessibility

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike LicenseCC Attribution-NonCommercial-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

LM-UT1: Lenguajes de marcas LM-UT1: Lenguajes de marcas Presentation Transcript

  • Lenguajes de Marcas y SGI U.T. 1: Introducción. Lenguajes de marcas y XML. C.F.G.S. “Administración de Sistemas Informáticos en Red” C.I.F.P. Juan de Colonia (Burgos) David H. Martín Alonso - Curso 2010/2011 -
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Contenidos Perspectiva histórica Estándares y W3C Estructura de documento XML Codificaciones HerramientasOctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Lenguajes de marcas■ Historia Lenguajes de marcas / lenguajes de marcado□ Estándares□ Estructura Mark-up Language□ Codificaciones • Modelos de organización de archivos de texto.□ Herramientas • Dan estructura al documento mediante anotaciones. – Etiquetas de texto identificadas entre símbolos < >. 3/29 <párrafo>Este es un ejemplo de texto estructurado mediante Etiquetas / marcas marcas.</párrafo> Utilidad • Formato estándar muy extendido para gestionar información. • Potenciado por la popularidad de HTML en la web. mark-up: to correct or write notes or instructions on a piece of writing, mark-up: to correct or write notes or instructions on a piece of writing, especially before it is published. especially before it is published. tag: a small piece of paper or other material that is fixed to something to give tag: a small piece of paper or other material that is fixed to something to give information about it, or is fixed to someone to show who they are. information about it, or is fixed to someone to show who they are.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Contexto histórico■ Historia Internet, DARPA, 1969□ Estándares□ Estructura PC, IBM, 1981□ Codificaciones□ Herramientas SGML, ISO, 1986 HTML, Tim Berners-Lee, CERN, 1990 4/29 W3C, Tim Berners-Lee, MIT, 1994 XML, W3C, 1998 XHTML, W3C, 2000 WWW: World Wide Web WWW: World Wide Web SGML: Standard Generalized Markup Language SGML: Standard Generalized Markup Language HTML: Hypertext Markup Language HTML: Hypertext Markup Language XML: eXtensible Markup Language. XML: eXtensible Markup Language. XHTML: eXtensible Hypertext Markup Language XHTML: eXtensible Hypertext Markup Language W3C: World Wide Web Consortium W3C: World Wide Web ConsortiumOctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. WWW■ Historia Servicios Internet para distribuir contenidos a□ Estándares□ Estructura usuarios no identificados a lo largo de la historia:□ Codificaciones • FTP anónimo – Descarga de ficheros, sin contraseña□ Herramientas • Gopher – Estructura distribuida basada en menús • Web – Estructura distribuida basada en hipertexto 5/29 Web: World Wide Web • Documentos de texto sencillo • Con marcas/etiquetas para incluir indicaciones • Hipertexto: palabras con enlaces internos o externos • Evolución: páginas estáticas → páginas dinámicas – Generadas sobre la marcha – Interface único/universal para programadores – Libera al usuario de instalaciones o mantenimiento • Aplicación “estrella” de InternetOctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. SGML – HTML – XML□ Historia • SGML■ Estándares – Etiquetas para describir estructura y recoger propiedades.□ Estructura – No incluye acciones. No es un lenguaje de programación.□ Codificaciones – Rigor en etiquetado para permitir tratamiento automatizado.□ Herramientas • WWW / HTML – Hipertexto: texto con enlaces a otros documentos. 6/29 – Flexibilidad en los visores (navegadores). ¿Debilidad o fortaleza? Alejamiento puntual del estándar común. Tendencia a incluir formato, en remisión. • XML – Modelo de marcas revisado. – Propiciado por la popularidad de HTML en Internet. – Metalenguaje: soporte para crear lenguajes específicos. • XHTML – Evolución de HTML haciéndolo compatible con XML. metalenguaje: Lenguaje que se usa para hablar del lenguaje. metalenguaje: Lenguaje que se usa para hablar del lenguaje.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. XML Metalenguaje - Validación□ Historia Metalenguaje:■ Estándares□ Estructura • Soporte común para crear lenguajes especializados□ Codificaciones • Estructura genérica común: reglas de etiquetado□ Herramientas • Concreción mediante diccionarios y esquemas – Etiquetas para usos concretos 7/29 – Reglas de composición – Condiciones sobre contenido • Corrección necesaria en los dos niveles – Documentos bien formados – Documentos válidosOctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Hojas de estilo y otros estándares□ Historia • Estándares complementarios a HTML/XML■ Estándares – Formato□ Estructura – Transformación□ Codificaciones□ Herramientas • CSS: Hojas de estilo comunes • XSL: Hojas de estilo para XML 8/29 • XML Linking: Enlaces entre documentos • DTD: Descripción de estructuras • XML namespaces: Espacios de nombres • XML Schemas: Descripción de estructuras avanzadas CSS: Cascading Style Sheets. CSS: Cascading Style Sheets. XSL: Extensible Stylesheet Language. XSL: Extensible Stylesheet Language. DTD: Document Type Definition. DTD: Document Type Definition.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. World Wide Web Consortium□ Historia • Organismo internacional para el desarrollo de las■ Estándares tecnologías relacionadas con la web.□ Estructura□ Codificaciones – Fundada en 1994 por Tim Berners-Lee – Estándares abiertos□ Herramientas – W3C: http://www.w3.org • Contenidos: 9/29 – Documentación: estándares y tutoriales. – Acceso a herramientas de validación en línea. • Alcance: – HTML/XHTML – CSS – XML – Validadores The World Wide Web Consortium (W3C) is an international community that The World Wide Web Consortium (W3C) is an international community that develops standards to ensure the long-term growth of the Web. develops standards to ensure the long-term growth of the Web.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Actividad I: W3C Acceder a la web del W3C y localizar: - Historia y organización. - Estándares originales HTML, CSS, XML... - Traducciones. - Validadores en línea.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Actividad II: Web 2.0 Acceder a YouTube y ver algunos vídeos sobre la web en general y la Web 2.0: - La Web 2.0: La revolución social de Internet - Web 2.0 http://www.youtube.com/view_play_list?p=009A10C8D674EC50 Ojear también el Mapa Visual de la Web 2.0: http://internality.com/web20/Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Modelo de marcas XML (I)□ Historia • Un documento XML está formado por elementos.□ Estándares■ Estructura • Cada elemento contiene texto u otros elementos.□ Codificaciones – Formando una estructura en árbol.□ Herramientas – No es obligatorio que tenga contenido. – Partiendo del primero, elemento raíz. – El resto de elementos tienen padre y acaso hijos. • Contenido: texto Unicode (UTF-8 o UTF-16). 12/29 – Los espacios, tabuladores y saltos de línea se fusionan • Un elemento queda delimitado por dos etiquetas. – La etiqueta es el nombre del tipo de elemento. – Etiqueta de apertura y cierre. <tipo>...contenido...</tipo> – En elementos sin contenido se pueden fusionar. <tipo_sin_contenido /> – Etiquetas/elementos se pueden anidar, pero no solapar.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Modelo de marcas XML (II)□ Historia • Un elemento puede presentar atributos.□ Estándares – Pares nombre/valor incrustados en la etiqueta de inicio.■ Estructura□ Codificaciones <tipo a1=”valor1” a2=”valor2” /> – Los valores siempre van entrecomillados.□ Herramientas • Los nombres empiezan con una letra pero pueden incluir números y puntuación. 13/29 – No se admiten dos puntos «:» que se usan para designar espacios de nombres. – No pueden empezar por «xml» que se reserva para uso propio. – Caracteres Unicode y sensible a mayúsculas/minúsculas. • Entidades predefinidas: &nombre; • Comentarios: <!-- ...Texto informativo... --> • Secciones de texto preformateadas, no procesables <![CDATA[ ...contenido <<no XML>>... ]]>>Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Modelo de marcas XML (III)□ Historia En el prólogo, al inicio del documento:□ Estándares■ Estructura • Declaración XML, versión y codificación□ Codificaciones <?xml version="1.1" encoding="UTF-8" ?>□ Herramientas • Enlace o descripción DTD <!DOCTYPE ejemplo SYSTEM ”ejemplo.dtd” > 14/29 <ejemplo>...contenido...</ejemplo>Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Actividad III: usos de XML - Buscar documentos XML en el propio equipo y observarlos también: imágenes SVG, archivos de configuración de Notepad++. - Añadir la extensión «.zip» a cualquier documento ODF y ver su contenido descomprimiéndolo. - Abrir páginas web y observar por encima el código HTML/XHTML identificando el DTD, etiquetas, atributos, etc. - Buscar páginas con icono de validación y comprobar su efecto.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Revisión ● ¿Cuál es la relación entre HTML, XML y XHTML? ● ¿Qué significa que XML sea un metalenguaje? ● ¿Qué es el DTD? ¿Cual es su finalidad? ¿Dónde se encuentra? ● Documentos bien formados frente a documentos válidos.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Codificaciones de caracteres□ Historia Archivos de texto:□ Estándares□ Estructura • Construidos con caracteres■ Codificaciones – Caracteres alfabéticos y caracteres numéricos.□ Herramientas – Símbolos de puntuación. – Caracteres de separación: espacio, tabulador, salto... – Otros símbolos: matemáticos, gráficos, iconos... 17/29 • Cada valor almacenado (byte) representaba 1 letra 28= 256 combinaciones – Correspondencia directa: tabla de códigos. – Existen muchas codificaciones distintas. – En alfabetos “universales” puede ocupar más de 1 Byte • Lectura y edición con programas simples – Editor de textos: vi, bloc de notas, notepad++, kate... – La tipografía usada depende del editor, no del archivo. Archivos binarios: – No hay relación directa byte ↔ carácter. – Programas, imágenes, documentos de texto con formato...Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. ASCII (I)□ Historia ASCII / US-ASCII□ Estándares□ Estructura • Alfabeto inglés■ Codificaciones • Código básico común de 7 bits: 128 caracteres.□ Herramientas • Se preserva el bit 8 – Por economía: no era necesario 18/29 – Para paridad: control de errores en las comunicaciones • Última revisión: ANSI X3.4-1986 – Ratificado como ISO/IEC 646:1991 IRV • Aunque limitado a nivel global, otras codificaciones lo respetan. – Coincidencia de los 128 valores 0x00-0x7F. ASCII: American Standard Code for Information Interchange ASCII: American Standard Code for Information Interchange ANSI: American National Standards Institute ANSI: American National Standards Institute ISO: International Organisation for Standardisation ISO: International Organisation for StandardisationOctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. ASCII (II)□ Historia • Caracteres imprimibles: 32 a 96□ Estándares□ Estructura • Números: a partir de «0»=48■ Codificaciones • Mayúsculas: a partir de «A»=65□ Herramientas • Minúsculas: a partir de «a»=97 19/29 (espacio) ! " # $ % & ( ) * +, -. / 0 1 2 3 4 5 6 7 8 9 :; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ ] ^ _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z { | } ~Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Códigos de 8 bits□ Historia • Ampliaciones de ASCII□ Estándares – 8 bits: 128 de ASCII (0x00-0x7F) + 128 (0x80-0xFF)□ Estructura■ Codificaciones • ¡Torre de babel!□ Herramientas – Uso regional – Códigos propios y códigos estándar. – ASCII extendido: denominación inespecífica no estándar. 20/29 • Códigos de Microsoft en DOS y MS Windows – CP437, CP850, CP858... – Windows 1250, 1252... – Mala identificación dentro del propio sistema. – Depende de la tipografía elegida. – Crisis para incorporar el símbolo «€» en 2000 – CP858 = CP850 (alfabetos europeos occidentales) + «€» • Códigos ISO estándar: ISO-8859-X – ISO-8859-1 ó latin1: alfabetos europeos occidentales – ISO-8859-15 = ISO-8859-1 + «€»Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Unicode□ Historia • Sistema completo de codificación de caracteres.□ Estándares – Tabulación universal de caracteres□ Estructura – Caracteres occidentales, asiáticos, exóticos...■ Codificaciones – Reglas de composición: «tilde» + «a» = «á»□ Herramientas – Contiene rangos reservados para uso privado – Compatibilidad ASCII + ISO-8859-1 en 0x0000-0x00FF 21/29 • UCS: Universal Character Set – UCS-2/BMP: versión básica inicial de 16 bits (2 bytes) – UCS-4: versión completa, en evolución, de 31 bits (4 bytes) Hasta 128 grupos de 256 planos de 216 códigos Unicode abarca BMP y 14 planos () – Estándar ISO10646 • Trasformaciones en tamaño reducido – No es operativo multiplicar ×4 todo... – UTF-8 / UTF-16 UCS: Universal Character Set UCS: Universal Character Set BMP: Basic Multilingual Plane BMP: Basic Multilingual Plane UTF: Unicode Transformation Format UTF: Unicode Transformation FormatOctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. UTF-8□ Historia • Transformación Unicode□ Estándares – Longitud variable: 1-6 bytes por carácter□ Estructura – Compatible ASCII: 1byte■ Codificaciones – Incremento de tamaño mínimo para textos occidentales□ Herramientas – Popularidad: web (HTML, XML, etc.) y GNU/Linux. • El prefijo de cada byte es crítico para identificar la 22/29 longitud de cada carácter Prefijos UTF-8 Lectura Bits 0xxxxxxx ASCII: Byte independiente 7 10xxxxxx Byte de continuación +6 110xxxxx 10xxxxxx Primero de dos bytes 8-11 1110xxxx 10xxxxxx 10xxxxxx Primero de tres bytes 12-16 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx Primero de cuatro bytes 17-21 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Primero de cinco bytes 22-26 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx Primero de seis bytes 27-31Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. UTF-16□ Historia • Transformación Unicode□ Estándares – Longitud variable: 1-2 pares de bytes por carácter□ Estructura – Compatible UCS-2: 2 bytes para el BMP■ Codificaciones – Popularidad: Java y MS Windows.□ Herramientas • Subrogados: 2 pares de bytes – Para planos extendidos, fuera del BMP. 23/29 – No tienen sentido de forma independiente – No representan directamente ningún código Subrogados UTF-16 Rango Bits Posición 110110xx-xxxxxxxx 0xD800 → 0xDB00 +10 alto 110111xx-xxxxxxxx 0xDC00 → 0xDF00 +10 bajoOctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. BOM□ Historia • Sistemas Little-endian / Big-endian□ Estándares□ Estructura • Byte Order Mark■ Codificaciones – Carácter Unicode U+FFFE□ Herramientas • Primer byte de un archivo de texto Unicode • Permite identificar el orden de los bytes 24/29 – En secuencias de varios bytes – Esencial para UTF-8 y UTF-16Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Herramientas□ Historia • Navegadores web□ Estándares□ Estructura • Notepad++□ Codificaciones • XML Copy Editor■ Herramientas • iconv • xmllint 25/29Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Actividad IV: herramientas - Continuando con la Actividad III, emplear navegadores, editores de texto y editores XML para volver a ver los archivos anteriores. - Incorporar a Notepad++ los complementos para XML. - Experimentar archivos de texto con caracteres nacionales, tratando de verlos en la consola de sistema de Windows. Observar el efecto del cambio a UTF-8 comenzando por el aumento de tamaño. - Con la utilidad iconv realizar conversiones.Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Referencias World Wide Web Consortium: http://www.w3.org Manual GNU: Unicode, ASCII, UTF-8 http://manpages.ubuntu.com/manpages/lucid/es/man7 Galería YouTube: http://www.youtube.com/view_play_list?p=009A10C8D674EC50 Bibliografía actualizada en delicious: http://www.delicious.com/dhmartin/LM-ASIROctubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. Licencia Este material está disponible bajo una Licencia Creative Commons, http://creativecommons.org/licenses/by-nc-sa/3.0/es/Octubre de 2010 CIFP Juan de Colonia
  • INTRODUCCIÓN. LENGUAJES DE MARCAS Y XML. ¿Dudas o cuestiones?Octubre de 2010 CIFP Juan de Colonia