Investigacion de html y xml

669 views

Published on

Breve descripción

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
669
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
13
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Investigacion de html y xml

  1. 1. <<Lenguaje de Marcado de Hipertexto>>
  2. 2. HTML, siglas de HyperText Markup Language («lenguaje demarcado de hipertexto»), hace referencia al lenguaje demarcado predominante para la elaboración de páginas web que seutiliza para describir la estructura y el contenido en forma de texto,así como para complementar el texto con objetos tales comoimágenes.El HTML se escribe en forma de «etiquetas», rodeadaspor corchetes angulares (<,>).HTML también puede describir, hasta un cierto punto, la aparienciade un documento, y puede incluir un script (porejemplo JavaScript), el cual puede afectar el comportamiento denavegadores web y otros procesadores de HTML.HTML también sirve para referirse al contenido del tipo deMIME text/html o todavía más ampliamente como un términogenérico para el HTML, ya sea en forma descendidadelXML (como XHTML 1.0 y posteriores) o en forma descendidadirectamente de SGML(como HTML 4.01 y anteriores).
  3. 3. HISTORIA DE HTMLPrimeras Especificaciones:La primera descripción de HTML disponible públicamente fue un documentollamado HTML Tags (Etiquetas HTML), publicado por primera vez en Internetpor Tim Berners-Lee en 1991.Describe 22 elementos que incluyen el diseño inicial y relativamente simple deHTML. Trece de estos elementos todavía existen en HTML 4.Berners-Lee consideraba a HTML una ampliación de SGML, pero no fueformalmente reconocida como tal hasta la publicación de mediados de 1993, porla IETF, de una primera proposición para una especificación de HTML: elboceto Hypertext Markup Language de Berners-Lee y Dan Connolly, el cualincluía una Definición de Tipo de Documento SGML para definir la gramática.El boceto expiró luego de seis meses, pero fue notable por su reconocimiento dela etiqueta propia del navegador Mosaic usada para insertar imágenes sincambio de línea, que reflejaba la filosofía del IETF de basar estándares enprototipos con éxito. De la misma manera, el boceto competidor de Dave Raggett HTML+ (HypertextMarkup Format) (Formato de Marcaje de Hipertexto), de finales de 1993, sugeríaestandarizar características ya implementadas, como las tablas.7
  4. 4. MARCADO HTMLHTML consta de varios componentes vitales, entre ellos los elementos ysus atributos, tipos de data y la declaración de tipo de documento.Elementos:Los elementos son la estructura básica de HTML. Los elementos tienen dospropiedades básicas: atributos y contenido. Cada atributo y contenido tieneciertas restricciones para que se considere válido al documento HTML. Unelemento generalmente tiene una etiqueta de inicio (por ejemplo, <nombre-de-elemento>) y una etiqueta de cierre (por ejemplo, </nombre-de-elemento>). Losatributos del elemento están contenidos en la etiqueta de inicio y el contenidoestá ubicado entre las dos etiquetas (por ejemplo, <nombre-de-elemento atributo="valor">Contenido</nombre-de-elemento>). Algunoselementos, tales como <br>, no tienen contenido ni llevan una etiqueta de cierre.Debajo se listan varios tipos de elementos de marcado usados en HTML.El marcado estructural describe el propósito del texto. Porejemplo,<h2>Golf</h2> establece «Golf» como un encabezamiento de segundonivel, el cual se mostraría en un navegador de una manera similar al título«Marcado HTML» al principio de esta sección.
  5. 5. El marcado estructural no define cómo se verá el elemento, pero lamayoría de los navegadores web han estandarizado el formato de loselementos. Puede aplicarse un formato específico al texto por mediode hojas de estilo en cascada.El marcado presentacional describe la apariencia del texto, sin importarsu función. Por ejemplo, <b>negrita</b> indica que los navegadores webvisuales deben mostrar el texto en negrita, pero no indica qué debenhacer los navegadores web que muestran el contenido de otra manera(por ejemplo, los que leen el texto en voz alta). En el casode <b>negrita</b> e <i>itálica</i>, existen elementos que se ven de lamisma manera pero tienen una naturaleza mássemántica: <strong>enfásis fuerte</strong> y <em>énfasis</em>.Es fácil ver cómo un lector de pantalla debería interpretar estos doselementos. Sin embargo, son equivalentes a sus correspondienteselementos presentacionales: un lector de pantalla no debería decir másfuerte el nombre de un libro, aunque éste esté en itálicas en unapantalla. La mayoría del marcado presentacional ha sido desechada conHTML 4.0, en favor de hojas de estilo en cascada.
  6. 6. El marcado hipertextual se utiliza para enlazar partes del documento con otrosdocumentos o con otras partes del mismo documento. Para crear un enlace esnecesario utilizar la etiqueta de ancla <a> junto con el atributo href, queestablecerá la dirección URL a la que apunta el enlace. Por ejemplo, un enlacea la Wikipedia sería de la forma <a href=”es.wikipedia.org”>Wikipedia</a>.También se pueden crear enlaces sobre otros objetos, tales como imágenes <ahref=”enlace”><img src=”imagen” /></a>.ATRIBUTOS:La mayoría de los atributos de un elemento son pares nombre-valor,separados por un signo de igual «=» y escritos en la etiqueta de comienzo deun elemento, después del nombre de éste. El valor puede estar rodeado porcomillas dobles o simples, aunque ciertos tipos de valores pueden estar sincomillas en HTML (pero no en XHTML).De todas maneras, dejar los valores sincomillas es considerado poco seguro. En contraste con los pares nombre-elemento, hay algunos atributos que afectan al elemento simplemente por supresencia(tal como el atributo ismap para el elemento img).
  7. 7. CÓDIGOS HTML BÁSICOS: <html>: Define el inicio del documento HTML, le indica al navegador que lo que viene a continuación debe ser interpretado como código HTML. Esto es así de facto, ya que en teoría lo que define el tipo de documento es el DOCTYPE, que significa la palabra justo tras DOCTYPE el tag de raíz, por ejemplo: <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Strict//EN" "http://www.w3.org/TR/html4/strict.dtd"> <script>: Incrusta un script en una web, o llama a uno mediante src="url del script". Se recomienda incluir el tipo MIME en el atributo type, en el caso de JavaScript text/javascript. <head>: Define la cabecera del documento HTML; esta cabecera suele contener información sobre el documento que no se muestra directamente al usuario como, por ejemplo, el título de la ventana del navegador. Dentro de la cabecera <head> es posible encontrar: <title>: Define el título de la página. Por lo general, el título aparece en la barra de título encima de la ventana.
  8. 8.  <link>: Para vincular el sitio a hojas de estilo o iconos. Por ejemplo:<link rel="stylesheet" href="/style.css" type="text/css">. <style>: Para colocar el estilo interno de la página; ya sea usandoCSS u otros lenguajes similares. No es necesario colocarlo si se va a vincular a un archivo externo usando la etiqueta <link>. <meta>: Para metadatos como la autoría o la licencia, incluso para indicar parámetros http (mediante http-equiv="") cuando no se pueden modificar por no estar disponible la configuración o por dificultades con server-side scripting. <body>: Define el contenido principal o cuerpo del documento. Esta es la parte del documento html que se muestra en el navegador; dentro de esta etiqueta pueden definirse propiedades comunes a toda la página, como color de fondo y márgenes. Dentro del cuerpo<body> es posible encontrar numerosas etiquetas. A continuación se indican algunas a modo de ejemplo:
  9. 9.  <h1> a <h6>: encabezados o títulos del documento con diferente relevancia. <table>: Define una tabla. <tr>: Fila de una tabla. <td>: Celda de una tabla (debe estar dentro de una fila). <a>: Hipervinculo o enlace, dentro o fuera del sitio web. Debe definirse el parámetro de pasada por medio del atributo href. Por ejemplo: <a href="http://www.wikipedia.org" title="Wikipedia" target="_blank" tabindex="1">Wikipedia</a> se representa como Wikipedia). <div>: División de la página. Se recomienda, junto con css, en vez de <table> cuando se desea alinear contenido. <img>: Imagen. Requiere del atributo src, que indica la ruta en la que se encuentra la imagen. Por ejemplo: <img src="./imágenes/mifoto.jpg" />. Es conveniente, por accesibilidad, poner un atributo alt="texto alternativo". <li><ol><ul>: Etiquetas para listas. <b>: Texto en negrita (etiqueta desaprobada. Se recomienda usar la etiqueta <strong>). <i>: Texto en cursiva (etiqueta desaprobada. Se recomienda usar la etiqueta <em>). <s>: Texto tachado (etiqueta desaprobada. Se recomienda usar la etiqueta <del>). <u>: Texto subrayado.
  10. 10.  <body>: Define el contenido principal o cuerpo del documento. Esta es la parte del documento html que se muestra en el navegador; dentro de esta etiqueta pueden definirse propiedades comunes a toda la página, como color de fondo y márgenes. Dentro del cuerpo<body> es posible encontrar numerosas etiquetas. <h1> a <h6>: Encabezados o títulos del documento con diferente relevancia. <table>: Define una tabla. <tr>: Fila de una tabla. <td>: Celda de una tabla (debe estar dentro de una fila). <div>: División de la página. Se recomienda, junto con css, en vez de <table> cuando se desea alinear contenido. <img>: Imagen. Requiere del atributo src, que indica la ruta en la que se encuentra la imagen. Por ejemplo: <img src="./imágenes/mifoto.jpg" />. Es conveniente, por accesibilidad, poner un atributo alt="texto alternativo". <li><ol><ul>: Etiquetas para listas. <b>: Texto en negrita (etiqueta desaprobada. Se recomienda usar la etiqueta <strong>). <i>: Texto en cursiva (etiqueta desaprobada. Se recomienda usar la etiqueta <em>). <s>: Texto tachado (etiqueta desaprobada. Se recomienda usar la etiqueta <del>). <u>: Texto subrayado.
  11. 11. NOCIONES BÁSICAS DE HTML:El lenguaje HTML puede ser creado y editado con cualquier editor de textos básico,como puede ser Gedit en Linux, el Bloc de notasde Windows, o cualquier otro editorque admita texto sin formato como GNU Emacs, MicrosoftWordpad, TextPad, Vim, Notepad++, entre otros.Existen, además, otros editores para la realización de sitios web concaracterísticas WYSIWYG (What You See Is What You Get, o en español: «lo queves es lo que obtienes»). Estos editores permiten ver el resultado de lo que se estáeditando en tiempo real, a medida que se va desarrollando el documento. Ahorabien, esto no significa una manera distinta de realizar sitios web, sino que una formaun tanto más simple, ya que estos programas, además de tener la opción de trabajarcon la vista preliminar, tiene su propia sección HTML, la cual va generando todo elcódigo a medida que se va trabajando. Algunos ejemplos de editores WYSIWYGsonKompoZer, Microsoft FrontPage o Adobe Dreamweaver.Combinar estos dos métodos resulta muy interesante, ya que de alguna manera seayudan entre sí. Por ejemplo, si se edita todo en HTML y de pronto se olvida algúncódigo o etiqueta, simplemente me dirijo al editor visual o WYSIWYG y se continúaahí la edición o viceversa, ya que hay casos en que resulta más rápido y fácil escribirdirectamente el código de alguna característica que el usuario desea adherir al sitioque buscar la opción en el programa mismo.
  12. 12. Existe otro tipo de editores HTML llamados WYSIWYM que dan másimportancia al contenido y al significado que a la apariencia visual. Entrelos objetivos que tienen estos editores es la separación del contenido y lapresentación, fundamental en el diseño web.HTML utiliza etiquetas o marcas, que consisten en breves instruccionesde comienzo y final, mediante las cuales se determina la forma en la quedebe aparecer en su navegador el texto, así como también las imágenesy los demás elementos, en la pantalla del ordenador.Toda etiqueta se identifica porque está encerrada entre los signos menorque y mayor que (<>), y algunas tienen atributos que pueden tomar algúnvalor. En general las etiquetas se aplicarán de dos formas especiales:Se abren y se cierran, como por ejemplo: <b>negrita</b>, que se veríaen su navegador web como negrita.No pueden abrirse y cerrarse, como <hr />, que se vería en su navegadorweb como una línea horizontal.Otras que pueden abrirse y cerrarse, como por ejemplo <p>.
  13. 13. Las etiquetas básicas o mínimas son: <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <html lang="es"> <head> <title>Ejemplo</title> </head> <body> <p>ejemplo</p> </body> </html>
  14. 14. “Lenguajes de Marcas Extensibles””
  15. 15. XML, siglas en inglés de eXtensible Markup Language (“Lenguaje de MarcaExtensible”), es un lenguaje de marcas desarrollado por el World Wide WebConsortium(W3C).Deriva del lenguaje SGML y permite definir la gramática de lenguajesespecíficos (de la misma manera que HTML es a su vez un lenguaje definidopor SGML)para estructurar documentos grandes. A diferencia de otros lenguajes XML da soporte a bases de datos, siendo útilcuándo varias aplicaciones se deben comunicar entre sí o integrar información.(Bases de datos Silberschatz).XML no ha nacido sólo para su aplicación en Internet, sino que se proponecomo un estándar para el intercambio de información estructurada entrediferentes plataformas. Se puede usar en bases de datos, editores de texto,hojas de cálculo y casi cualquier cosa imaginable.XML es una tecnología sencilla que tiene a su alrededor otras que lacomplementan y la hacen mucho más grande y con unas posibilidades muchomayores. Tiene un papel muy importante en la actualidad ya que permite lacompatibilidad entre sistemas para compartir la información de una manerasegura, fiable y fácil.
  16. 16. HISTORIAXML proviene de un lenguaje inventado por IBM en los años setenta,llamado GML (Generalized Markup Language), que surgió por la necesidad quetenía la empresa de almacenar grandes cantidades de información. Este lenguajegustó a la ISO, por lo que en 1986 trabajaron para normalizarlo,creando SGML (Standard Generalized Markup Language), capaz de adaptarse a ungran abanico de problemas. A partir de él se han creado otros sistemas paraalmacenar información.En el año 1989 Tim Berners Lee creó la web, y junto con ella el lenguaje HTML.Este lenguaje se definió en el marco de SGML y fue de lejos la aplicación másconocida de este estándar. Los navegadores web sin embargo siempre han puestopocas exigencias al código HTML que interpretan y así las páginas web soncaóticas y no cumplen con la sintaxis. Estas páginas web dependen fuertemente deuna forma específica de lidiar con los errores y las ambigüedades, lo que hace a laspáginas más frágiles y a los navegadores más complejos.Otra limitación del HTML es que cada documento pertenece a un vocabulario fijo,establecido por el DTD. No se pueden combinar elementos de diferentesvocabularios. Asimismo es imposible para un intérprete (por ejemplo un navegador)analizar el documento sin tener conocimiento de su gramática (del DTD). Porejemplo, el navegador sabe que antes de una etiqueta <div> debe haberse cerradocualquier <p> previamente abierto. Los navegadores resolvieron estoincluyendo lógica ad hoc para el HTML, en vez de incluir unanalizador genérico.Ambas opciones, de todos modos, son muy complejas para los navegadores.
  17. 17. Se buscó entonces definir un subconjunto del SGML que permita:Mezclar elementos de diferentes lenguajes. Es decir que los lenguajes seanextensibles.La creación de analizadores simples, sin ninguna lógica especial para cada lenguaje.Empezar de cero y hacer hincapié en que no se acepte nunca un documento conerrores de sintaxis.Para hacer esto XML deja de lado muchas características de SGML que estabanpensadas para facilitar la escritura manual de documentos. XML en cambio estáorientado a hacer las cosas más sencillas para los programas automáticos quenecesiten interpretar el documento.CRÍTICASXML y sus extensiones han sido regularmente criticadas por su nivel de detalle ycomplejidad.2 El mapeo del modelo de árbol básico de XML hacia los sistema detipos de lenguajes de programación o bases de datos puede ser difícil,especialmente cuando se utiliza XML para el intercambio de datos altamenteestructurados entre aplicaciones, lo que no era su objetivo primario de diseño. Otrascríticas intentan refutar la afirmación de que XML es unalenguaje autodescriptivo (aunque la especificación XML no hace ninguna afirmaciónde este tipo). Se propone a JSON y YAML frecuentemente como alternativas,centrándose ambas en la representación de datos estructurados, en lugar de endocumentos narrativos .
  18. 18. EXTENSIBLE MARKUP LANGUAGE
  19. 19. VENTAJAS DEL XML Es extensible: Después de diseñado y puesto en producción, es posible extender XML con la adición de nuevas etiquetas, de modo que se pueda continuar utilizando sin complicación alguna. El analizador es un componente estándar, no es necesario crear un analizador específico para cada versión de lenguaje XML. Esto posibilita el empleo de cualquiera de los analizadores disponibles. De esta manera se evitan bugs y se acelera el desarrollo de aplicaciones. Si un tercero decide usar un documento creado en XML, es sencillo entender su estructura y procesarla. Mejora la compatibilidad entre aplicaciones. Podemos comunicar aplicaciones de distintas plataformas, sin que importe el origen de los datos, es decir, podríamos tener una aplicación en Linux con una base de datos Postgres y comunicarla con otra aplicación en Windows y Base de Datos MS-SQL Server. Transformamos datos en información, pues se le añade un significado concreto y los asociamos a un contexto, con lo cual tenemos flexibilidad para estructurar documentos.
  20. 20. ESTRUCTURA DE UN DOCUMENTO XMLLa tecnología XML busca dar solución al problema de expresar informaciónestructurada de la manera más abstracta y reutilizable posible.Que la información sea estructurada quiere decir que se compone de partesbien definidas, y que esas partes se componen a su vez de otras partes.Entonces se tiene un árbol de trozos de información.Ejemplos son un tema musical, que se compone de compases, que estánformados a su vez por notas.Estas partes se llaman elementos, y se las señala mediante etiquetas.Una etiqueta consiste en una marca hecha en el documento, que señala unaporción de éste como un elemento. Un pedazo de información con un sentido claro y definido. Las etiquetastienen la forma <nombre>, donde nombre es el nombre del elemento que seestá señalando.A continuación se muestra un ejemplo para entender la estructura de undocumento XML:
  21. 21. <?xml version="1.0" encoding="UTF-8" ?><!DOCTYPE Edit_Mensaje SYSTEM "Edit_Mensaje.dtd">• <Edit_Mensaje>• <Mensaje>• <Remitente>• <Nombre>Nombre del remitente</Nombre>• <Mail> Correo del remitente </Mail>• </Remitente>• <Destinatario>• <Nombre>Nombre del destinatario</Nombre>• <Mail>Correo del destinatario</Mail>• </Destinatario>• <Texto>• <Asunto>• Este es mi documento con una estructura muy sencilla• no contiene atributos ni entidades...• </Asunto>• <Parrafo>• Este es mi documento con una estructura muy sencilla• no contiene atributos ni entidades...• </Parrafo>• </Texto>• </Mensaje>• </Edit_Mensaje>
  22. 22. DOCUMENTOS XML BIEN FORMADOS Y CONTROL DE ERRORESLos documentos denominados como «bien formados» (del inglés well formed) sonaquellos que cumplen con todas las definiciones básicas de formato y pueden, por lotanto, analizarse correctamente por cualquier analizador sintáctico (parser) que cumplacon la norma. Se separa esto del concepto de validez que se explica más adelante.Los documentos han de seguir una estructura estrictamente jerárquica con lo querespecta a las etiquetas que delimitan sus elementos. Una etiqueta debe estarcorrectamente incluida en otra, es decir, las etiquetas deben estar correctamenteanidadas. Los elementos con contenido deben estar correctamente cerrados.Los documentos XML sólo permiten un elemento raíz del que todos los demás seanparte, es decir, solo pueden tener un elemento inicial.Los valores atributos en XML siempre deben estar encerrados entre comillas simples odobles.El XML es sensible a mayúsculas y minúsculas. Existe un conjunto de caracteresllamados espacios en blanco (espacios, tabuladores, retornos de carro, saltos de línea)que los procesadores XML tratan de forma diferente en el marcado XML.Es necesario asignar nombres a las estructuras, tipos de elementos, entidades,elementos particulares, etc. En XML los nombres tienen alguna característica encomún.
  23. 23. PARTES DE UN DOCUMENTO XMLUn documento XML está formado por el prólogo y por el cuerpo deldocumento así como texto de etiquetas que contiene una granvariedad de efectos positivos o negativos en la referencia opcional a laque se refiere el documento, hay que tener mucho cuidado de esaparte de la gramática léxica para que se componga de manerauniforme.PRÓLOGOAunque no es obligatorio, los documentos XML pueden empezar conunas líneas que describen la versión XML, el tipo de documento y otrascosas.El prólogo de un documento XML contiene:Una declaración XML. Es la sentencia que declara al documento comoun documento XML.Una declaración de tipo de documento. Enlaza el documento consu DTD (definición de tipo de documento), o el DTD puede estarincluido en la propia declaración o ambas cosas al mismo tiempo.Uno o más comentarios e instrucciones de procesamiento.
  24. 24. VALIDEZQue un documento esté «bien formado» solamente se refiere a su estructurasintáctica básica, es decir, que se componga de elementos, atributos ycomentarios como XML especifica que se escriban. Ahora bien, cadaaplicación de XML, es decir, cada lenguaje definido con esta tecnología,necesitará especificar cuál es exactamente la relación que debe verificarseentre los distintos elementos presentes en el documento.Esta relación entre elementos se especifica en un documento externo odefinición (expresada como DTD —Document Type Definition, Definición deTipo de Documento— o como XSchema). Crear una definición equivale acrear un nuevo lenguaje de marcado, para una aplicación específica. DECLARACIONES TIPO ELEMENTOLos elementos deben ajustarse a un tipo de documento declarado en una DTDpara que el documento sea considerado como válido. MODELOS DE CONTENIDOUn modelo de contenido es un patrón que establece los subelementosaceptados, y el orden en que se aceptan. DECLARACIONES DE LISTA DE ATRIBUTOSLos atributos se usan para añadir información adicional a los elementos de undocumento.
  25. 25.  TIPOS DE ATRIBUTOS• Atributos CDATA y NMTOKEN• Atributos enumerados y notaciones• Atributos ID e IDREF DECLARACIÓN DE ENTIDADESXML hace referencia a objetos que no deben ser analizados sintácticamente según lasreglas XML, mediante el uso de entidades. Las entidades pueden ser:Internas o externasAnalizadas o no analizadasGenerales o parametrizadas ESPACIOS DE NOMBRESLos espacios de nombres XML permiten separar semánticamente los elementos queforman un documento XML. XML SCHEMAS (XSD)Un Schema es algo similar a un DTD. Define qué elementos puede contener undocumento XML, cómo están organizados y qué atributos y de qué tipo pueden tenersus elementos. VENTAJAS DE LOS SCHEMAS FRENTE A LOS DTDUsan sintaxis de XML, al contrario que los DTD.Permiten especificar los tipos de datos.Son extensibles.

×