XML, XSL e tecnologie correlate Domenico Briganti [email_address] Hackmeeting Genova2004
L’eXtensible Markup Language, fin dalla sua nascita, ha avuto un gran consenso da parte di tutti gli attori che operano nel mondo informatico, diventando di fatto la base di molte applicazioni, in particolar modo di quelle che fondano la lo attività sullo scambio di informazioni per la sua semplicità ed interoperabilità. (ricerca di XML con Google -> 35 milioni di risultati!)
Agenda
XML e Namespace
DTD e XMLSchema (XSD)
CSS e XSL
XSLT
XSL-Fo
Introduzione ai WebServices
Accenno a SVG, SMIL, RSS, XUL
Cosa scegliere?
IL PROGRAMMA E’ TROPPO GRANDE!!
XML
Le origini di XML 1/2
L’XML è un metalinguaggio, derivato da SGML ( Standard Generalized Markup Language standard internazionale ISO 8879 del 1986) e da HTML, che ha il compito di rappresentare informazioni strutturate. L’SGML, creato originariamente da IBM col nome di GML nel ’69, si poneva come obiettivo quello di rendere i documenti elettronici più comprensibili e versatili, indipendenti dal mezzo di consultazione e di sollevare l’autore dal compito di impaginazione (per qualunque output, carta, pagina web, presentazione, ecc.)...
Le origini di XML 2/2
L’SGML non ha avuto notorietà essendo complicato da implementare.
L’HTML, un altro derivato di SGML, ha avuto invece un successo enorme per la sua facilità e per il boom dei web browser.
L’XML è un metalinguaggio che mira a migliorare sia l’SGML perché complesso, sia l’HTML perché mischia nel testo informazioni di impaginazione e formattazione.
È stato formalizzato dal W3C nel febbraio ’98, attualmente la versione 1.1 è in fase di candiate recommendation.
Ma cos’è XML?
È una raccomandazione del W3C
http://www.w3.org/XML
Consiste in un insieme di tag (marcatori di testo che sono racchiusi da “<“ e “>”) e attributi definiti dall’utente che permettono di rappresentare un’informazione in maniera gerarchica.
È uno standard aperto libero da royalty, brevetti, copyright o segreti industriali.
Auto esplicativo.
Creabile ed editabile con un semplice editor di testo.
..e cosa non è!
Un linguaggio di programmazione.
Un sostituto di HTML.
Un protocollo di comunicazione.
Uno standard binario.
Vediamo un esempio di XML
<?xml version="1.0" encoding=”UTF-8”?>
<computer>
<!—questo è un commento-->
<memoria tipo=”DDR” unit=”Mb”>512</memoria>
<CPU>1.2 GHz</CPU>
<tastiera>400 tasti</tastiera>
<HD>
<HardDisk>7200 rpm 5Gb</HardDisk>
<HardDisk>7200 rpm 224Tb</HardDisk>
</HD>
<descrizione><![CDATA[ questo è
un ottimo <<PC>>!]]>
</descrizione>
<lettore/>
</computer>
Esaminiamolo!
Questa è una fantomatica descrizione di un computer.
Un documento XML è formato da due parti:
Un prologo facoltativo (ma raccomandato per indicare la versione del documento e la codifica).
Il corpo del documento.
Il prologo
È racchiuso tra “<?” e “?>”.
Indica una direttiva (Processing Instruction) per il parser.
Nell’esempio che abbiamo visto era:
<?xml version="1.0" encoding=”UTF-8”?>
Il primo indica la versione di XML utilizzata, attualmente l’unica è la 1.0 e l’encoding del documento (in questo caso UTF-8, la versione a 8 bit di UNICODE ).
Il corpo
Al prologo segue una radice da cui si origina l’albero del documento. Come l’esempio dimostra, la radice dell’elemento contiene i dati (le informazioni vere e proprie) tra i marcatori mentre quest’ultimi si occupano di definire la struttura gerarchica del documento.
Strutturare al meglio!
Vediamo che le informazioni, i dati veri e propri, del documento sono contenuti dentro dei tag all’interno dei quali è possibile inserire anche altri tag figli.
Benché sia ammissibile avere tag figli e testo dentro lo stesso marcatore (“tag a contenuto misto”), ad esempio:
<HD>
Haqdrdisk
<HardQ>5</ HardQ>
</HD>
è sconsigliato, in quanto si complica la creazione di documenti che controllano la correttezza del nostro XML (lo vedremo più avanti parlando di XSL Schema).
I commenti
Sono racchiusi tra i marcatori “<--” e “-->”.
Non possono contenere la sequenza di caratteri “--”.
Non possono essere inseriti all’interno di un tag.
Esempio:
<!-- questo è un commento
Su due linee -->
I tag
I tag che non hanno contenuto possono evitare il marcatore di chiusura in questo modo:
<lettore/>
Il nome del tag non può contenere:
Spazi
Virgolette e apostrofi
Caratteri <, >, $
Percentuali e punto e virgola
È case sensitive
Attributi
I nostri elementi possono contenere anche attributi come questi:
è più utilizzato il primo esempio perché si tende a inserire negli attributi delle proprietà che riguardano il valore contenuto nel tag, evitando cosi di andare a modificare il valore di un attributo, meno flessibile di un testo contenuto in un tag, o di dover analizzare la stringa “512Mb DDR” come nell’ultimo caso.
Sezioni CDATA
Possiamo notare una sezione CDATA (Character Data):
<descrizione><![CDATA[ questo è
un ottimo <<PC>>!]]>
</ descrizione >
Questa è utilizzata per inserire del testo in cui sono presenti anche caratteri particolari come “&”, “<”, “>” senza che siano interpretati come riferimenti a markup.
Deve iniziare con “<![CDATA[”.
E terminare con “]]>”.
Non può contenere al suo interno la stringa “]]>”.
Entità
Per poter utilizzare caratteri significativi per XML, senza che siamo interpretati come markup e senza utilizzare sezioni CDATA, si utilizzano le entità.
Infatti per poter utilizzare caratteri come “&” dentro un elemento in condizioni normali devono apparire nella forma &#ddd; (per inserire un carattere Unicode attraverso il suo codice decimale) o &#xhhhh (per la versione in esadecimale). Esistono anche dei delle entità richiamabili per riferimento, come:
< > & " '
che indicano rispettivamente:
minore di, maggiore di, & commerciale, virgolette e apostrofo.
I tipi di documento XML
I documenti XML possono essere di due tipi:
Ben Formati: è il documento che rispetta le regole di XML (non può altrimenti essere un documento xml!).
Validi: oltre a essere ben formati deve anche rispondere correttamente ad un controllo semantico che permette di sapere se il documento ha un significato rispetto a quello che vogliamo. Un programma di elaborazione matematica gestisce l’importazione di documenti XML contenenti determinati tag, diversi per un programma bancario. Questo controllo è opzionale.
Le regole di XML per documenti WF
L’intero documento deve essere racchiuso in un unico tag radice.
I tag devono essere annidati in maniera corretta, ogni tag di apertura deve essere seguito dal suo di chiusura dentro i quali possono esserci altri tag sempre annidati in maniera corretta.
Gli attributi possono essere solo inseriti nei tag di apertura.
Lo stesso attributo non può comparire più di una volta all’interno dello stesso tag.
Ogni attributo inserito deve avere un valore e deve essere racchiuso tra doppi apici.
I nomi dei marcatori e degli attributi sono Case Sensitive.
NAMESPACE
Namespace: il problema
In un unico documento XML possiamo rappresentare informazioni di natura diversa:
<autovettura>
<modello type=“I”>Honda CRW</modello>
<pneumatici>
<modello>Pirelli P9999</modello>
</pneumatici>
</autovettura>
Come distinguere i vari tag in base al loro significato? Con i Namespace
Namespace: la soluzione
Per dare un significato differente ai vari tag si usano dei prefissi, identificatori posti prima del nome del marcatore e separati dai “:” da quest’ultimo:
La direttiva “xml:namespace” indica a quale URI (Uniform Resource Identifier) si riferisce un determinato prefisso. Si usa un URI perché unico in Internet.
Un marcatore che usa un prefisso di dice che ha un “nome qualificato”.
Si può specificare anche al suo primo utilizzo e/o dentro un tag (e ha validità solo nei nodi figli):
<au:autovettura xmlns:au=“http://some/uri”>
Namespace di default
Tutti i tag che non hanno un prefisso appartengono al namespace di default.
Il namespace di default può anche essere dichiarato attraverso la parola chiave riservata xmlns NON seguita da prefisso:
<autovettura xmlns=“http://some/uri”>
Namespace e attributi
I namespace si possono applicare anche agli attributi:
<au:modello au:type=“I”>Honda CRW</au:modello>
Il namespace di default non si applica agli attributi privi di prefisso.
Se relativi a namespace diversi, e che puntano a URI diversi, gli attributi possono avere nome locale uguale.
DTD e XML Schema
Validare un documento
Per controllare se un documento è valido si possono utilizzare varie tecnologie:
DTD (Document Type Definition), obsoleto (daremo solo un accenno).
XDR (XML-Data Reduced) è lo “schema language” utilizzato da Microsoft nell’attesa della “draft implementation” di XSD del W3C (non standard e qui non trattato).
XSD (XML Schema Language) è lo schema del W3C che stanno adottando tutti parser XML.
Parser
Implementazione software per leggere e scrivere XML:
DOM (Documente Object Model): permette una rappresentazione dell’intero XML in memoria.
SAX (Simple Api for XML): mentre legge un XML lancia eventi su determinati Elementi o Attributi, intercettabili da funzioni di gestione.
Parser: DOM vs. SAX
Quando usare DOM:
Per percorrere l’albero avanti e indietro
Manipolare il documento in molte parti
Si ha a disposizione molta memoria perché l’albero XML viene ricostruito in essa
Creare un nuovo documento
Quando usare SAX:
Percorrere l’albero solo “forward only”
Leggere solo poche informazioni
Si ha poca memoria a disposizione
DTD
Deriva da SGML e nato prima di XML.
Definisce le parti di un documento (Nodi, Attributi…)
È uno standard non XML-like, difficile da scrivere e leggere automaticamente.
Può essere inserito in un documento o può stare in un file separato (soprattutto se si deve condividere tra molti documenti).
È molto limitato nella possibilità di controllare tipi di dati.
Non supporta XML namespaces.
Non supporta constraints.
Non supporta il controllo degli attributi.
Esempio di DTD
<!DOCTYPE catalog [
<!ELEMENT catalog (book+) >
<!ELEMENT book (author, title, genre, price, publish_date, description) >
Controllo di tipi base (stringa, interi, date, ecc.), con limitazioni.
Controllo di tipo complessi (che contengono una serie o gerarchia di nodi al loro interno).
Controllo degli attributi.
Uno schema può validare anche solo una porzione di documenti in cui è definito un namespace, viceversa, uno documento XML può avere molti XSD per i diversi namespace che ingloba.
L’importanza che il W3C ha dato alla separazione delle informazioni in dati e presentazione ha portato la necessita di sviluppare nuove tecnologie capaci di supportare tale divisione. Nasce cosi CSS per HTML, seguito da XSL per XML, due tecnologie chiave per il futuro del web, il web semantico, in cui le macchine sono capaci di comprendere e trattare le informazioni senza la fatica di dover riconoscerle tra le parti di formattazione.
CSS: Cascading Style Sheet
Ratifica del W3C ( level1 dic. 1996, level2 mag. 1998).
Semplice documento che descrive lo style degli elementi che contiene una pagina web.
I documenti vengono applicati a “cascata”.
Applicabile a (X)HTML e con fatica a XML.
Inseribile nella pagina web (attraverso attributi) o applicabile con un link ad un file “.css”.
Applicabile contemporaneamente a diverse pagine.
Non XML-Like.
XSL
È una famiglia di linguaggi per la trasformazione e presentazione di documenti XML, si compone di:
XPath: recupera determinati elementi di un XML
XSLT: Trasforma i file XML in altri formati
XSL-Fo: Formattazione
Non sostituisce il CSS, l’XSL è molto utile per
trasformare nella forma i contenuti, mentre il
CSS resta per assegnare gli stili di formattazione ai
tag HTML.
Differenza tra CSS e XSL
CSS XSL
Formattazione (X)HTML Sì No
Formattazione XML Sì Si
Funzionalità avanzate (istruzioni
if, cicli for ecc.) No Si
Trasformazioni dal formato
originario ad altri formati No Si
(Fonte: w3.org)
XSL Fonte: w3.org
XPath
XPath
Raccomandazione del W3C del novembre 1999.
È usato soprattutto da XSL e XPointer.
Con una semplice stringa che descrive il percorso tra la radice e il nodo destinazione si riesce a recuperare parti di documenti XML o specifici valori di un tag o una serie di tag.
Ma anche manipolare stringhe, valutare espressioni booleane o far calcoli sui nodi o sui loro contenuti.
XPath: esempi
/ Recupera il primo nodo del file XML, incluso ogni commento o Processing Instructions, esclusa la dichiarazione XML.
//RAG_SOC AbrreviatedAbsoluteLocationPath, seleziona tutti gli elementi RAG_SOC del documento.
//CODICE[. = 1234] Ricerca tutti gli elementi CODICE che hanno il valore 1234.
//CODICE[@origin=‘Florida’] Ricerca tutti gli elementi CODICE che hanno l’attributo origin settato a Florida.
.//CODICE Seleziona tutti gli elementi CODICE che sono contenuti nel sottoalbero del nodo corrente.
Ecco un piccolo elenco di funzioni che è possibile trovare in xpath:
Concat()
Substring()
Ceiling()
Floor()
Sum()
Round()
… .
XSLT
XSLT
Raccomandazione del W3C (1.0) del novembre 1999 .
W3C: “Linguaggio per trasformate un documento XML in un altro documento sempre XML”, ma fa molto altro! (unire due documenti XML, ordinare elementi, filtrarli, crearne di nuovi, cambiare strutturalmente il documento).
È necessario il namespace FO per Mozilla/Firebird.
XSLT: il tag template
…
<xsl:template match="ANAGRAFICA">
…
Viene utilizzato per applicare il template ad un nodo, in questo caso al nodo radice del documento, quando viene verificato il match tra il suo attributo (un’espressione XPath) e un nodo del documento XML. Viene processato il suo contenuto e mandato al documento che si sta costruendo in output.
Potete immaginare già a cosa serva... Recupera le informazioni puntate dalla stringa XPath. I tag che non appartengono al namespace xsl vengono riportati cosi come sono sul documento di output.
XSLT: xsl:for-each
…
<xsl:for-each select="RECORD">
…
Anche qui non è difficile capire significato: per ogni tag RECORD contenuto nel nodo corrente, applica la struttura al suo interno. Naturalmente, al posto di RECORD, poteva esserci una qualunque instruzione XPath!
Contengono le informazioni vere e proprie del documento, ogni page-sequences deve avere un attributo che indica il tipo di formattazione (page-sequence-master o simple-page-master) da applicare, i figli sono:
Il nome è una spiegazione: inserisce del contenuto statico in una serie di pagine, si usa soprattutto per le intestazioni e i piè di pagina o anche per inserire il numero di pagina.
Il tag che contiene tutto il resto del documento. Infatti questo è comporto dal testo e dagli altri marcatori fo:* che definiscono la formattazione del documento, come:
fo:block (il più importante, nonché il più utilizzato).
Referenced by XML Signatures CR (Oct 2000) http://www.w3.org/TR/xmldsig-core/
XML Query
XML Query
Defining a data model, algebra and syntax for an XML query language
Requirements and Use Cases WD
http://www.w3.org/TR/xmlquery-req
XML Query Data Model WD http://www.w3.org/TR/query-datamodel/
XML Query Algebra WD http://www.w3.org/TR/query-algebra/
XML Protocol
XML Protocol
Most recently started XML Working Group
Developing a framework for XML messaging
Work based on SOAP 1.1 http://www.w3.org/TR/SOAP/
Working Group Charter http://www.w3.org/2000/09/XML-Protocol-Charter
XProtocol Requirements (Dec 2000)
http://www.w3.org/TR/xp-reqs
SMIL
Synchronised Multimedia Integration Language
Integration of multimedia with text, audio, video
Support in RealPlayer & Windows Media Player
This Day in History from the History Channel
Porsche
Examples
RDF - Resource Description Framework
Framework for metadata
Interoperability of information exchange between applications
Applications:
Resource discovery
Knowledge sharing and exchange
Content rating
Intellectual property rights
Evolution To Web Services XML Programmability Connectivity HTML Presentation TCP/IP FTP, E -mail, Gopher Web Pages Browse the Web Program the Web Web Services Technology Innovation
Web Services Publisher Seller BROKER Seller Order Full-Fillment Content Publisher Web Service Web Service Web Service Web Service
Riferimenti
SOAP - Guida allo sviluppatore – Kennard Mark
IoProgrammo ()
DEV ()
JAVA 2 Tecniche Avanzate – Horsrmann Cornell
www.apache.org
www.w3.org
http://www.renderx.com/tutorial.html
http://pro.html.it/
http:// msdn.microsoft.com
In internet in generale…
Questo insieme di trasparenze è protetto dalle leggi sul copyright e dalle disposizioni dei trattati internazionali. Il titolo ed i copyright relative alle trasparenze (ivi inclusi, ma non limitatamente a, ogni immagine, fotografia, animazione, video e testo) sono di proprietà degli autori indicati. Le trasparenze possono essere riprodotte ed utilizzate liberamente dagli istituti di ricerca, scolastici ed universitari afferenti al Ministero della Pubblica Istruzione per scopi istituzionali, non a fine di lucro. Ogni altro utilizzo o riproduzione (ivi incluse, ma non limitatamente a, le riproduzioni a mezzo stampa, su supporti magnetici o su reti di calcolatori) in toto o in parte è vietata, se non esplicitamente autorizzata per iscritto, a priori, da parte dell’autore. L’informazione contenuta in queste trasparenze è ritenuta essere accurata alla data della pubblicazione. Essa è fornita per scopi meramente didattici e non per essere utilizzata in progetti di impianti, prodotti, ecc. L’informazione contenuta in queste trasparenze è soggetta a cambiamenti senza preavviso. Gli autori non si assumono alcuna responsabilità per il contenuto di queste trasparenze (ivi incluse, ma non limitatamente a, la correttezza, completezza, applicabilità ed aggiornamento dell’informazione). In ogni caso non può essere dichiarata conformità all’informazione contenuta in queste trasparenze. In ogni caso questa nota di copyright non deve mai essere rimossa e deve essere riportata anche in utilizzi parziali.
0 comments
Post a comment