Digilab march 20100315 progetti comphumanities lariccia

  • 515 views
Uploaded on

Digilab March 20100315 Progetti Comphumanities - Lariccia

Digilab March 20100315 Progetti Comphumanities - Lariccia

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
515
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. 4 progetti per Digilab: 1 Mei-med 2 ubBook 3 Comphumanites 4 WL4CHUM - Web-learning for Comphumanities S.Lariccia Sapienza Università di Roma – Medialab Centre [email_address] Education is deeply changing. And becoming more and more universal
  • 2. Web-enhanced Natural Language Processing Workbench S.Lariccia, Sapienza Università di Roma Education is deeply changing. We have to teach the Web, to have a Web suited for learning and teaching
  • 3. Con Digilab oltre le nuove frontiere verso il Web Semantico
    • 2020, nuova frontiera della comunità Web: 5.000.000.000 interagiscono con il Web e attraverso il Web usando linguaggio naturale e linguaggi logici
    • Ecco lo scenario della nuova alfabetizzazione del prossimo decennnio:
    • Formare alle competenze linguistiche, logiche e computazionali di base per garantire anche sul Web la continuità dei principi evolutivi irrinunciabili della cultura occidentale: accesso universale, libertà di uso e libertà di espressione creativa
    • Forse invece di preoccuparci del numero decrescente di iscritti alle facoltà di informatica dovremmo fare lo sforzo di comprendere meglio le linee di tendenza di questa disciplina. Si è sempre detto, da 20 anni si sostiene, che sarebbero servite competenze applicative in ragione di 1 a 100 rispetto alle competenze specializzate. Quel momento è già arrivato da tempo. Ma bisogna riqualificare il concetto di cultura digitale di base.
    • Questo dovrebbe significare che:
    • il Web potrà realizzarsi pienamente come nella visione di Tim Berners-Lee, come una piattaforma per la “intercreatività”;
    • Il Web, lungi dal rimanere uno strumento marginale per l’apprendimento, l’insegnamento e la tradizione del patrimonio “ umanistico ” vivrebbe invece una seconda giovinezza trasportandoci veramente in quel Rinascimento Digitale prossimo venturo (in cui il nostro paese avrebbe certamente qualcosa da insegnare, essendo stato protagonista del Rinascimento 1.0)
  • 4. 4 progetti per creare una offerta didattica e di ricerca per applicaizioni pratiche del Web Seamantico
    • Mei-Med, un progetto che sviluppa analisi condotte all’interno di Eumigra, (UE 2008-2010)
    • Mei-Med intende creare un curriculum ed un nuovo prototipo di web-learning, mobile-learning per incontrare le esigenze della inclusione dei migranti. Con la realizzazione di materiali documentali fruibili attraverso smart-phones e apparecchi tascabili per l’accesso ad Internet, intende fornire metodi perché l’educazione di adulti possa giovarsi appieno degli sviluppi delle tecnologie di rete mobile. Presentato il 26 febbraio 2010 sotto il Gruntvig Multilateral Project Call: 300.000 euro.
    • ubBook, ubiquitous Book in a digital enhanced library
    • Scopo di ubBook è quello di creare un curriculum innovativo e realizzare un prototipo di una sottoparte di questo curriculum rivolto alla innovazione nella Biblioteca con lo scopo di fare interagire armonicamente le esigenze del mondo materiale e le opportunità del mondo immateriale (Digital Libraries, Virtual Libraries ..)
    • In corso di presentazione il 31 marzo 2010 sotto il Gruntvig Multilateral Project Call. 500.000 euro
    • Comphumanites. Un progetto per il curriculum che promuova la interoperabilità tra saperi umanistici e digitali
    • Scopo di Comphumanties è quello di creare un curriculum innovativo, rivolto ad adulti in formazione ricorrente, e a studenti specializzandi o dottorandi, e realizzare un prototipo di una sottoparte di questo curriculum rivolto ad adulti e studenti al secondo livello di laurea. Il curriculum ed i materiali creeranno le basi per una nuova metodologia di e-learning più adatta al contesto e al merito delle scienze umanistiche, per una didattica aperta e consapevole, non “training” ma guida alla creazione delle proprie capacità critiche.
    • In corso di presentazione il 31 marzo 2010 sotto il Gruntvig Multilateral Project Call. 500.000 euro
    • WL4CHUM, WebLearning for Comphumanties
    • Scopo di WL4CHUM è quello di creare una infrastruttura logica e tecnologica innovativa per abilitare gli studenti e gli operatori che fanno ricerca sul Linguaggio Naturale (adulti in formazione ricorrente, studenti specializzandi o dottorandi, ricerccatori e docenti) di operare come in un laboratorio di apprendistato distribuito in diversi paesi europei .Per creare una metodologia comune e condivisa per insegnare ed applicare le tecnologie di analisi linguistica documentale, l’analisi e la gestione di corpora , pr una nuovo curriculum legato alle competenzze lingusitiche e computazionali.. In corso di presentazione il 31 marzo 2010 sotto il Gruntvig Multilateral Project Call. 500.000 euro
  • 5.
    • The World Wide Web (commonly abbreviated as "the Web") is a system of interlinked hypertext documents accessed via the Internet
      • The underlying ideas of the Web can be traced as far back as 1980, when, at CERN in Switzerland, Sir Tim Berners-Lee built ENQUIRE
      • On 1989 was launched the "Hypertext project" called "WorldWideWeb" as a "web of nodes" with "hypertext documents" to store data.
      • A NeXT Computer was used by Berners-Lee as the world's first Web server and also to write the first Web browser, WorldWideWeb, in 1990. By Christmas 1990, Berners-Lee had built all the tools necessary for a working Web: the first Web browser (which was a Web editor as well), the first Web server, and the first Web pages which described the project itself.
    • Berners-Lee's breakthrough was to marry hypertext to the Internet.
    Page  The WorldWideWeb, first steps
  • 6. A brief history of the digital technology universe…
    • First came the Computer 1950
    • then the Apple Computer … 1975
    • then the Personal Computer 1984
    • then the Network Computer 1999
    • then the Netbook, OLPC Project 2009
    • Today, the Net IS the Computer
          • 'The network is the computer'," said Sun CEO Scott McNealy, 2001
  • 7. Prima fu Internet … poi arrivò il WorldWideWeb
    • Prima venne Internet => 1969
      • … e 100.000 “esperti”, informatici e professionisti prestati all’informatica, nel mondo cominciarono ad usare Internet
    • Poi venne il Web => 1989
      • … e molto rapidamente 100.000.000 persone comuni nel mondo cominciarono ad utilizzare Internet per mezzo del WorldWideWeb
    • Oggi 1.000.000.000 di persone non-esperte nel mondo utilizzano Internet, per mezzo del WorldWideWeb, al livello più semplice
  • 8. E’ il WorldWideWeb perfetto?
    • Is the WorldWideWeb perfect?
    • Sappiamo bene che il Web è lontano dall’essere perfetto.
    • Tim Berners-Lee, l’inventore del WorldWideWeb,
    • notava abbastanza recentemente che dovremo probabilmente attendere altri 10-15 anni prima di vedere WorldWideWeb come era stato da lui concepito a Ginevra nell’anno 1989.
  • 9. A cosa serve il WorldWideWeb oggi?
    • Un sacco di cose. Davvero un sacco di belle cose.
      • Vendere e comprare: e-commerce
      • Pubblicizzare e trovare prodotti, servizi, beni: search engines
      • Prenotare e pianificare: e-logistics, e-procurement
      • to read geographic information:
      • Comunicare 1 a 1, 1 a molti, molti a 1
      • Ma, sopra ogni altra cosa
    • Ad apprendere! (e, perciò, ad insegnare)
  • 10. The Learning Society
    • Ciò che possiamo di gran lunga fare sul WorldWideWeb meglio che in qualsiasi altro modo…
      • è di gran lunga imparare …
      • già oggi è così, con il WorldWideWeb come è ora..
      • ma ancora molto meglio sul WorldWideWeb che verrà: the Semantic Web.
    • Il trattato di Lisbona definisce la società europea come una Società della Conoscenza, una società dell’apprendimento (Learning Society)
    • ( http://europa.eu/lisbon_treaty/index_en.htm )
  • 11. La macchina interconnessa dell’apprendimento
    • Un nuovo processo di knowledge structuring e di knowledge production sta appena oggi iniziando
      • Con la diffusione di massa del WorldWideWeb
      • Con l’adozione precoce del WorldWideWeb da parte di children and teenagers
    • La conoscenza (Knowledge) è da sempre il prodotto dell’attività di intrecciare riferimenti tra cose, fatti, informazioni, dati
      • L’accessibilità alle conoscenze è un prerequisito per produrre conoscenza (il WorldWideWeb ha aperto una intera nuova gamma di significati per il termine accessiblità; Wikipedia potrebbe essere un modello di accessibilità?)
      • La verificabilità della affidabilità (trustness) è un altro requisito: Wikipedia non ha garantito sinora in maniera sufficiente questo requisito)
      • Il Web Semantico fornisce gli strumenti per costruire un circuito di verifica dell’affidabilità
  • 12. At the beginning of the Web..
    • All’inizio il Web ha introdotto un insieme di nuovi protocolli, come:
      • HTTP, HyperTextTransferProtocol
      • HTML, HyperTextMarkupLanguage
      • URL, Unified Resource Locator - or URI, Unified Resource Indentifier)
    • Il Web Semantico sfrutterà una nuova “tavolozza” di protocolli già pronti da anni ..
      • XML, eXtensibleMarkupLanguage
        • XHML, CSS, RDF, SOAP, OWL,
    • O nuovi di zecca ..
      • OWL 2, SPARQL, SKOS, SCML 1 , WS-Fragment, GRDDL
    • 1: SCXML is a general-purpose event-based state machine language that may be used in a number of ways including as a high-level dialog language controlling VoiceXML 3.0's encapsulated speech modules,
  • 13. Web of data
    • Linked Data Header link
    • In addition to the classic “Web of documents” W3C is helping to build a technology stack to support a “Web of data,” the sort of data you find in databases.
    • The ultimate goal of the Web of data is to enable computers to do more useful work and to develop systems that can support trusted interactions over the network. The term “Semantic Web” refers to W3C’s vision of the Web of linked data.
    • Semantic Web technologies enable people to create data stores on the Web, build vocabularies, and write rules for handling data. Linked data are empowered by technologies such as RDF, SPARQL, OWL, and SKOS.
    • So The Semantic Web is a Web of data — of dates and titles and part numbers and chemical properties and any other data one might conceive of. RDF provides the foundation for publishing and linking your data. Various technologies allow you to embed data in documents (RDFa, GRDDL) or expose what you have in SQL databases, or make it available as RDF files.
    • (from a W3C presentation)
  • 14. L’evoluzione è ancora lunga davanti a noi..
    • Linked Data Header link
    • The Semantic Web is a Web of data — of dates and titles and part numbers and chemical properties and any other data one might conceive of. RDF provides the foundation for publishing and linking your data. Various technologies allow you to embed data in documents ( RDFa , GRDDL ) or expose what you have in SQL databases, or make it available as RDF files.
    • Vocabularies Header link
    • At times it may be important or valuable to organize data. Using OWL (to build vocabularies, or “ontologies”) and SKOS (for designing knowledge organization systems) it is possible to enrich data with additional meaning, which allows more people (and more machines) to do more with the data .
    • Query Header link
    • Query languages go hand-in-hand with databases. If the Semantic Web is viewed as a global database, then it is easy to understand why one would need a query language for that data. SPARQL is the query language for the Semantic Web .
    • Inference Header link
    • Near the top of the Semantic Web stack one finds inference — reasoning over data through rules. W3C work on rules, primarily through RIF and OWL , is focused on translating between rule languages and exchanging rules among different systems.
    • Vertical Applications Header link
    • W3C is working with different industries — for example in Health Care and Life Sciences, eGovernment, and Energy — to improve collaboration, research and development, and innovation adoption through Semantic Web technology. For instance, by aiding decision-making in clinical research, Semantic Web technologies will bridge many forms of biological and medical information across institutions.
  • 15. Linguaggio Naturale e internazionalizzazione del Web
    • Ipotesi 1: il Web sarà interamente “scritto” entro il 2030 in una “lingua franca” (inglese, cinese, etc.)
    • Ipotesi largamente improbabile. Le lingue naturali non verrannno abbandonate (certamente non in tempi così stretti); è vero, il numero delle linuge naturali decresce, ma è molto improbabile che scenda sotto il numero di 50 lingue nel prossimo secolo. Inoltre resterebbe comunque il problema dell’accesso al patrimonio storico “in lingua”.
    • Ipotesi 2: il Web sarà interamente accessibile entro il 2030 per mezzo di traduttori automatici (da x-language a inglese, cinese, etc.)
    • Ipotesi improbabile. I traduttori automatici sono già qui ora ed hanno fatto passi da gigante: ma il linguaggio è una creatura vivente: esercitare le proprie competenze linguistiche è una attività creativa. Per ottenere una traduzione automatica con un livello realmente “fruibile” del testo sarebbe necessario “incatenare” gli utenti ad un linguaggio statico , ordinato, regolamentato. Nelle utilizzazioni “strumentali” questo probabilmente avverrà. Ma il Web potrà limitarsi a fornire accesso a quella parte di conoscenza che trascura la caratteristica vitalità del linguaggio? Siamo destinati a vivere in un mondo dove il la lingua, ciascuna lingua, è destinata a perdere le specificità e le fumature?
    • Questo significherebbe che:
    • il Web non diventerà mai una piattaforma per la “intercreatività” (Tim Berners-Lee).L’accesso al patrimonio storico “in lingua” rimarrebbe compito di pochi studiosi (come gli antichi “ scribi ”);
    • Il Web rimarrebbe uno strumento marginale per l’apprendimento, l’insegnamento e la tradizione del patrimonio “ umanistico ”
    • Ipotesi 3: il Web non sarà mai interamente fruibile in “lingua franca” inglese, cinese,
    • E’ l’ipotesi che mi sembra più ragionevole. Il web fornirà strumenti attraverso i quali una “persona qualunque” sarà in grado di apprendere quanto basta per accedere ad informazioni in qualsiasi lingua. Il Web e la WebCommunity of Learning si “addestrano” reciprocamente .
  • 16. Nuove frontiere oltre il Web Semantico
    • 2020, nuova frontiera della comunità Web: 5.000.000.000 interagiscono con il Web e attraverso il Web usando linguaggio naturale e linguaggi logici
    • Ecco lo scenario della nuova alfabetizzazione del prossimo decennnio:
    • Formare alle competenze linguistiche, logiche e computazionali di base per garantire anche sul Web la continuità dei principi evolutivi irrinunciabili della cultura occidentale: accesso universale, libertà di uso e libertà di espressione creativa
    • Forse invece di preoccuparci del numero decrescente di iscritti alle facoltà di informatica dovremmo fare lo sforzo di comprendere meglio le linee di tendenza di questa disciplina. Si è sempre detto, da 20 anni si sostiene, che sarebbero servite competenze applicative in ragione di 1 a 100 rispetto alle competenze specializzate. Quel momento è già arrivato da tempo. Ma bisogna riqualificare il concetto di cultura digitale di base.
    • Questo dovrebbe significare che:
    • il Web potrà realizzarsi pienamente come nella visione di Tim Berners-Lee, come una piattaforma per la “intercreatività”;
    • Il Web, lungi dal rimanere uno strumento marginale per l’apprendimento, l’insegnamento e la tradizione del patrimonio “ umanistico ” vivrebbe invece una seconda giovinezza trasportandoci veramente in quel Rinascimento Digitale prossimo venturo (in cui il nostro paese avrebbe certamente qualcosa da insegnare, essendo stato protagonista del Rinascimento 1.0)
  • 17. Prima fu Internet … poi arrivò il WorldWideWeb. Infine il Web Semantico..
    • Prima venne Internet => 1969
      • … e 100.000 “esperti”, informatici e professionisti prestati all’informatica, nel mondo cominciarono ad usare Internet
    • Poi venne il Web => 1989
      • … e molto rapidamente 100.000.000 persone comuni nel mondo cominciarono ad utilizzare Internet per mezzo del WorldWideWeb
    • Oggi 1.000.000.000 di persone non-esperte nel mondo utilizzano Internet, per mezzo del WorldWideWeb, al livello più semplice
    • Poi venne il Web Sematico => 2009
      • … 6.000. 000.000 di persone comuni nel mondo dovranno utilizzare Internet per mezzo del WorldWideWeb, per prender parte al prossimo grande sviluppo culturale
  • 18. Comphumanties: computing the humanities, ma anche..
    • Completare il senso ed il percorso della rivoluzione digitale, prima che giunga l’era della Singolarità
    • Ray Kurzweil, inventore del Riconoscimento automatico dei Caratteri, del Riconoscimnto vocale, etc. sosteine che:
    • nei prossimi decennni assisteremo alla convergenza di nanotecnologie, robotica / intelligenza artificiale ed ingegneria genetica
    • questo incontro sinergico di tre sviluppi disciplinari così potenti modificherà irreversibilmente la nostra stessa idea di progresso;il ritmo di accellerazione subirà un incremento a sua volta accellerato; le offerte della tecnologia supereranno ben presto la capacità dell’uomo normale - dell’ Uomo – di comprenderle, di valutarle, di selezionarle.
    • da opportunità, opportunità di un mondo libero limiti energetici, opportunità di vita per gli individui prolungata oltre ogni limite oggi potizzabile, opportunità di espolorazione spaziali oggi impenasabili da si potrebbe trasformare nel tragico inverarsi del destino faustiano
    • tutto questo è possibile, la tragedia incombe, così come è possibile l’esito felice della nostra evoluzione, molto dipende dalla nostra capacità di integrare l’umanità intera nella “intercreatività” del Web post –semantico
    • fornire gli strumenti per comprendersi, attraverso la sola lingua franca che possiamo permetterci, la logica, le logiche ed i linguaggi da essa derivati
    • fornire gli strumenti a tutti per partecipare alla “regolamentazione creativa” del nostro sviluppo
    • non lasciare nessuno escluso
    • Comphumanties: giungere a completare il percorso di liberazione dell’uomo iniziato nel rinascimento
  • 19. Comphumanties: la via prudente ..
    • WL4CHUM, un progetto di università europee per la condivisione di strumenti linguistici
    • Il progetto WL4CHUM si propone di:
    • mettere in comune le pratiche - già estremamente diffuse a livello internazionale, nei dipartimenti di studi del linguaggio, – di analisi del linguaggio naturale attraverso l’uso di Ontologie Linguistiche come Wordnet
    • utilizzare una piattaforma, un laboratorio on –line, per facilitare gli aspetti sistemistici di utilizzo dei diversi strumenti da assemblare in un Workbench condiviso (Python, NLTK, Wordnet, e altri)
    • promuovere la condivisione di strumenti per l’analisi testuale di corpora, documenti testuali antichi, moderni e contemporanei
    • consentire la creazione di una didattica europea realmente interculturale, nel campo delle indagini storiche, letterarie, linguistiche,
    • contribuire a fomare un esercito di “nuovi alfabetizzatori”, umanisti con capacità logico / tecnologiche supriori, pronti per Ia campagna di alfabetizzaione dei 5.000.000.000 di persone nel mondo che dovrannno partecipare al prossimo grande passo evolutivo del nostro modo di fare cultura
    • ricordate? tutto questo è possibile, la tragedia incombe, così come è possibile l’esito felice della nostra evoluzione, molto dipende dalla nostra capacità di integrare l’umanità intera nella “intercreatività” del Web post –semantico
    • fornire gli strumenti per comprendersi, attraverso la sola lingua franca che possiamo permetterci, la logica, le logiche ed i linguaggi da essa derivati
    • fornire gli strumenti a tutti per partecipare alla “regolamentazione creativa” del nostro sviluppo
    • non lasciare nessuno escluso
    • Comphumanties: Compiére Humanitas, completare il percorso di liberazione dell’uomo iniziato nel rinascimento europeo
  • 20. WL4CHUM, WebLearning for Comphumanties
    • WL4CHUM, un progetto di università europee per la condivisione di strumenti linguistici
    • Il progetto WL4CHUM si propne, più in dettaglio , seguenti obbiettivi e compiti:
    • to share competences that should produce, in a common environment of research, a much better structured Common Knowledge, let's name it "a Knowledge Common“,
    • So called Humanities Faculties, risks at various degree a substantial downsizing and even a loss of authority. It is the time to try a meaningful injection of technology awareness in the humanities studies.
    • to rise the value of knowledge produced in the humanities, socio-economic, political faculties;
    • to put a whole generation of human science researchers and scientist of the Artificial Sciences at work on building the "Knowledge Common“
    • to identify a set of resources that can be considered “safe and persistent” and so far, useful to acquire and master in order to reach one’s research objectives. To produce what we call “a collective workbench”.
    • We have identified 3 main resources that can be the base for this building:
    • 1. The modular CMS environment: Plone, a CMS based on Python
    • 2. The Natural Language Toolkit, based on Python
    • 3. The International Language / Conceptual Ontology, i.e. Wordnet and the related ontologically accessible Digital Dictionary and/or Digital Encyclopedias (like for instance DBpedia)
  • 21. WL4CHUM, WebLearning for Comphumanties, (2)
    • Ciò avverrà mediante la integrazione di due diverse tipologie di strumenti informatici e attraverso la loro “ibridazione”: da una parte si utilizzerà un Content Management System (Plone, scritto in linguaggio artificiale Python) per raccogliere (sfruttando anche il lavoro di tutti i “prosumers” del sito, più o meno professionalmente coinvolti) i corpora in ciascuno dei linguaggi di progetto e per documentare / narrare l’uso degli strumenti di analisi linguistica; dall’altra parte si utilizzeranno gli strumenti di analisi linguistica prodotti in Python attorno al progetto Natural Language Toolkit; questi ultimi verrano resi più facilmente accessibili, più “annotabili”, più interattivi e divertenti, anche per la massa dei potenziali curiosi, piuttosto che per i soli addetti ai lavori.
    • Come in un gioco, dove è necessario impegnare una minima intelligenza, ma dove non sono richieste necessariamente sin dai primi passi nozioni complesse né un prolungato e complesso addestramento, i visitatori del portale (che saranno in primo luogo gli studenti dei corsi di letteratura comparata, di scienza della traduzione, di linguistica, di storia della letteratura, di didattica delle lingue, delle università aderenti al progetto etc. ) saranno messi in grado di percorrere un itinerario alla scoperta delle leggi che regolano il modello universale “lingua” ed i diversi modelli sottostanti a ciascuna delle lingue prese in esame.
    • L'idea di base è dunque quella di integrare in un ambiente facilmente utilizzabile da non addetti ai lavori (come possono essere i docenti di materie umanistiche, e come abbiamo visto, i loro discepoli) strumenti per la utilizzazione in modalità Web –learning di grandi agglomerati di fonti digitali (archivi digitali, virtual libraries etc.) resi adeguatamente e correttamente accessibili – in risposta a domande espresse nella forma più semplice ed intuitiva, nella lingua naturale di uno dei partner partecipanti al progetto – attraverso l’uso di appropriati strumenti per la metadatazione semantica (manualmente eseguita da operatori, o parzialmente automatizzata).
    Page 
  • 22. WL4CHUM, WebLearning for Comphumanties, (3)
    • Obbiettivi e metodologia del progetto esposti per un pubblico di “addetti ai lavori”
    • La nostra intenzione, in termini operativi, esposti questa volta per addetti ai lavori, è quella di basare il nuovo ambiente di classificazione/apprendimento sul prodotto di un progetto precedentemente finanziato dal VII programma quadro della Commissione Europea (Interop) che ha reso possibile sino ad oggi l'integrazione in Python/Zope/Plone di una ontologia di classificazione semantica (Kmap), degli strumenti per la manutenzione e convalidazione condivisa di tale ontologia e di un set di strumenti per la acquisizione automatica di concetti da utilizzare nell'ontologia sulla base di una estrazione semiautomatica da “corpora” in linea (nel caso specifico del prodotto kMap si trattava di un corpus espresso in sola lingua inglese); nel progetto sopra citato gli strumenti adottati per l'estrazione di concetti (integrati in un “prodotto” denominato Tree Tagger), pur essendo open source, non erano adeguatamente fruibili e implementabili in ambienti didattici a causa di una ingegnerizzazione “chiusa”, non predisposta ad ampliamenti modulari e ad accogliere il lavoro di gruppi e di individui come possono essere i gruppi che nascono e si sviluppano attorno alle attività didattiche accademiche.
    Page 
  • 23. WL4CHUM, WebLearning for Comphumanties, (4)
    • Il punto qualificante della proposta dovrebbe essere dunque l’obbiettivo della sostituzione degli strumenti attualmente utilizzati da KMap (Tree Tagger) con gli strumenti nati (successivamente allo sviluppo di Kmap) intorno ai National Language Toolkit (NLTK) basati su Wordnet e implementati oggi come API in Python . Il progetto NLTK (National Language Toolkit ) è nato successivamente al lavoro svolto per produrre all’interno del progetto Interop il prodotto Kmap: dal momento in cui si è reso disponibile il framework NLTK (ottobre 2008) questa opzione è stata studiata e valutata come possibile dal team (Leks, Sapienza e Link srl) responsabile dello sviluppo di kMap. NLTK , che come abbiamo detto è un frame work estensibile, include attualmente diversi strumenti (oltre 120.000 linee di codice Python) per la ricerca e lo sviluppo in Natural Language Processing: citiamo di seguito alcuni dei moduli che riteniamo dovranno venire utilizzati nel nostro progetto (rimandando all’appendice per una lista più completa):
    • Corpus readers
    • interfaces to many corpora
    • Tokenizers: whitespace, newline, blankline, word, treebank, sexpr, regexp, Punkt sentence segmenter
    • Stemmers: Porter, Lancaster, regexp
    • Taggers: regexp, n-gram, backoff, Brill, HMM, TnT
    • Chunkers: regexp, n-gram, named-entity
    • Semantic interpretation: untyped lambda calculus, first-order models, DRT, glue semantics, hole semantics, parser interface
    • WordNet: WordNet interface, lexical relations, similarity, interactive browser
    Page 
  • 24. WL4CHUM, WebLearning for Comphumanties, (5)
    • Ciò avverrà mediante la integrazione di due diverse tipologie di strumenti informatici e attraverso la loro “ibridazione”: da una parte si utilizzerà un Content Management System (Plone, scritto in linguaggio artificiale Python) per raccogliere (sfruttando anche il lavoro di tutti i “prosumers” del sito, più o meno professionalmente coinvolti) i corpora in ciascuno dei linguaggi di progetto e per documentare / narrare l’uso degli strumenti di analisi linguistica; dall’altra parte si utilizzeranno gli strumenti di analisi linguistica prodotti in Python attorno al progetto Natural Language Toolkit; questi ultimi verrano resi più facilmente accessibili, più “annotabili”, più interattivi e divertenti, anche per la massa dei potenziali curiosi, piuttosto che per i soli addetti ai lavori.
    • Come in un gioco, dove è necessario impegnare una minima intelligenza, ma dove non sono richieste necessariamente sin dai primi passi nozioni complesse né un prolungato e complesso addestramento, i visitatori del portale (che saranno in primo luogo gli studenti dei corsi di letteratura comparata, di scienza della traduzione, di linguistica, di storia della letteratura, di didattica delle lingue, delle università aderenti al progetto etc. ) saranno messi in grado di percorrere un itinerario alla scoperta delle leggi che regolano il modello universale “lingua” ed i diversi modelli sottostanti a ciascuna delle lingue prese in esame.
    • L'idea di base è dunque quella di integrare in un ambiente facilmente utilizzabile da non addetti ai lavori (come possono essere i docenti di materie umanistiche, e come abbiamo visto, i loro discepoli) strumenti per la utilizzazione in modalità Web –learning di grandi agglomerati di fonti digitali (archivi digitali, virtual libraries etc.) resi adeguatamente e correttamente accessibili – in risposta a domande espresse nella forma più semplice ed intuitiva, nella lingua naturale di uno dei partner partecipanti al progetto – attraverso l’uso di appropriati strumenti per la metadatazione semantica (manualmente eseguita da operatori, o parzialmente automatizzata).
    Page 
  • 25. WL4CHUM, WebLearning for Comphumanties, (6)
    • NLTK
    Page 
  • 26. WL4CHUM, WebLearning for Comphumanties, (7)
    • Wordnet
    Page 
  • 27. WL4CHUM, WebLearning for Comphumanties, (8)
    • dBpedia
    Page 
  • 28. WL4CHUM, WebLearning for Comphumanties, (9)
    • Plone
  • 29. WL4CHUM, WebLearning for Comphumanties, (10)
    • Python
  • 30. WL4CHUM, partners
  • 31. WL4CHUM, other european partners
  • 32. WL4CHUM, other european partners
  • 33. References:
    • Books:
      • Steven Bird, Ewan Klein, Edward Loper 2009, "Natural Language Processing - Analyzing Text with Python and the Natural Language Toolkit", http://www.nltk.org/book .
      •   Daniel Jurafsky, James H. Martin 2009, "Speech and Language Processing", Prentice-Hall (2nd edition).
    • Papers:
      • Jordan Boyd-Graber, Dave Blei, and Xiaojin Zhu. A Topic Model for Word Sense Disambiguation. EMNLP 2007.
      • Jordan Boyd-Graber, Christaine Fellbaum, Daniel Osherson, and Robert Schapire. Adding Dense, Weighted Connections to WordNet. In Proceedings of the Thirds International WordNet Conference. Masaryk University Brno, 2006.
      • Basili, Roberto and Alessandro Cucchiarelli and Carlo Consoli and Maria Teresa Pazienza and Paola Velardi. ``Automatic adaptation of WordNet to sublanguages and computational tasks.'' In: Proceedings of the COLING/ACL Workshop on Usage of WordNet in Natural Language Processing Systems, Montreal, 1998.
      • Basili, R. and R. Catizone and L. Padro and M.T. Pazienza and G. Rigau and A. Setzer and N. Webb and F. Zanzotto ``Knowledge-Based Multilingual Document Analysis'' In: Proceedings of the Coling 2002 Workshop ''SemaNet'02: Building and Using Semantic Networks'', Taipei, August 2002. http://www.cs.ust.hk/~hltc/semanet02/pdf/basili.pdf
    • Web references:
      •   NLTK http://www.nltk.org/courses
      • Wordnet: http://wordnet.cs.princeton.edu/related.html
      • DBpedia: http://wiki.dbpedia.org
      • Plone: http://plone.org
      • Python: http://www.python.org/
  • 34. An HTML parser to learn and fun with HTML
    • We shall use a resource available on the Web to learn HTML: www.w3schools.com
    • W3schools covers many subject in the web design field: HTML, XHTML, XML, CSS.
    • Let’s start with a fresh lesson on basic HTML W3Schools is special because uses a “parser” a kind of simulator that shows on the left side of the screen the “recipes” and on the right side of the screen the “cakes”; you can interact and experience waht command, what tag, what attribute have that effect on the browser.
  • 35. Learn hot to use tagging lanugages: A recipe and a cake
    • This, shown above, is the parser: the button on hte left upper corner functions as a switch that “cooks” the recipe and shows the results on the right side of the screen:
    • www.w3schools.com
    • http://www.w3schools.com/html/tryit.asp?filename=tryhtml_intro
  • 36. Step by step, build up your HTML competence: Text “decoration”
    • Here you have the simpler way to “decorate”, to render in a typographical way the text in a HTML document.
    • With the use of CSS, after 1999, the methods of rendering text and pages changes: these TAGS are the basic TAGS for decoration
  • 37. Page  ? Do You Have Any Questions? ? ?