Your SlideShare is downloading. ×
Arte di Ascoltare - Slide Rita Marinelli
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Arte di Ascoltare - Slide Rita Marinelli

864
views

Published on

Published in: Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
864
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide
  • da quello dell’informatica (si tratta di database) a quello della linguistica (vengono elaborati lessici specialistici) e della psicologia cognitiva e psicolinguistica (risultati importanti di ricerche fatte sulle associazioni semantiche): “demonstrated an experimental methodology (a sentence verification task) that suggested that subjects had structured representations that had privileged links for hyponymic and meronymic relations” (Beckwith, Fellbaum, Gross, Miller, 1991; Miller, 2003).
  • Transcript

    • 1. La terminologia condivisa: uno strumento trasversale di lavoro Rita Marinelli [email_address]
    • 2.
      • Parlo della mia esperienza di lavoro, presso l’ILC, che si occupa di studiare il linguaggio naturale utilizzando metodologie informatiche
      • Si tratta della costruzione di tre db di terminologia di tre domini diversi ma costruiti con criteri simili e usando lo stesso modello concettuale
      • Sono destinati a varie tipologie di utenti: professionisti e non
      • Non è importante qui il tipo di dominio considerato, quanto la metodologia di lavoro usata
    • 3. Modello concettuale
      • Metodologia o modello concettuale valido indipendentemente
      • dalla materia trattata
      • dal livello di competenza che l’utente ha nel settore, perché può servire anche a chi questa competenza non ce l’ha affatto e quindi ha bisogno di formarsela
    • 4. Database di terminologia
      • Dal qualche anno sono in corso di costruzione tre database di terminologia appartenenti a domini diversi:
      • “ marittima” (settore nautico e trasporti marittimi)
      • “ fiscale”
      • “ sindacale e del lavoro”
      • per rispondere alla richiesta di uno strumento di consultazione e di supporto per utenti con differenti gradi di competenza, operanti nel settore.
    • 5. Il modello dei database
      • Il modello usato per la costruzione dei database è di tipo relazionale, con relazioni semantico lessicali, secondo i modelli di riferimento
        • EuroWordNet (progetto europeo),
        • ItalWordNet (SI-TAL progetto nazionale basato sull’ampliamento del db costruito per EWN) e
        • Mariterm , primo esperimento di db terminologico;
      • tutto nella filosofia “ WordNet ”
    • 6. Metodologia
      • I database contengono rispettivamente 4000, 1600, 1500 termini.
      • Primo passo della costruzione: fissare i concetti principali da cui partire per poi popolare il database -> è stata composta, con la collaborazione dei committenti ed esperti di dominio, una lista di concetti centrali e altamente rappresentativi. Come?...
    • 7. Dai testi al corpus
      • ⇨ I committenti hanno inviato insiemi di testi in vari formati (word, pdf, ecc.) appartenenti al dominio in questione
      • ⇨ i testi sono stati indicizzati, per poi essere trasformati in un corpus, e quindi sottoposti al sistema di gestione di db testuali (disponibile in ILC) per:
          • interrogarli,
          • ottenere liste di frequenza, concordanze e co-occorrenze.
    • 8. Primi concetti inseriti
      • La lista di frequenza in ordine decrescente è stata usata per estrarre le 150 parole più frequenti nei testi, come probabili concetti principali da inserire nel database.
      • E’ stata consultata la rete generica IWN per vedere se e quali concetti di questa lista vi fossero presenti: quelli presenti sono stati valutati per poi essere esportati in un file xml e inseriti nel database specialistico importando lo stesso file xml, come prevede l’architettura del tool di gestione del database.
      IWN xml DB Term
    • 9. Altri concetti inseriti
      • Il database è stato poi popolato inserendo altri concetti (non presenti in IWN), appartenenti al dominio, con un grado più alto di specificità, in quanto ritenuti rappresentativi del dominio e/o con un grande numero di iponimi
      • fonti usate:
        • glossari
        • testi e pubblicazioni del settore, scaricati da Internet o su supporto cartaceo.
    • 10. Termini come “synsets”
      • Ogni termine compare nel database con i suoi sinonimi, se ci sono, e costituisce un synset (insieme di sinonimi), es.:
        • N bollo auto·1, tassa automobilistica·1 , [ tassa che colpisce il possesso dei veicoli iscritti nei pubblici registri automobilistici
        • N abbordaggio·1, abbordo·1 , [urto volontario o collisione accidentale tra imbarcazioni]]
      • ogni termine ha
        • una categoria grammaticale di appartenenza
        • una definizione, es.: tassa che colpisce il possesso dei veicoli iscritti nei pubblici registri automobilistici ;
        • un legame con altri termini ( synset ) rappresentato dalle relazioni semantico-lessicali “interne”
    • 11. Relazioni semantiche interne
      • di tipo gerarchico/verticale (ipo/iperonimia):
        • abbordaggio has_hyponym arrembaggio, abbordaggio intenzionale
        • abbordaggio has _hyperonym atto, azione
      • di tipo orizzontale (relazioni di ruolo, parte, luogo, causa, ecc.):
        • abbordaggio causes naufragare·1, colare a picco·2, affondare·2 , [ detto di imbarcazione, affondare in mare; detto di persone imbarcate, fare naufragio, a causa di danni prodotti dal mare in tempesta o da altri tipi di sinistro (urti, incendi, ecc.).]
    • 12. Abbordaggio
    • 13. Porto Nave porta container Altri esempi
    • 14. Campo semantico
      • L’insieme dei termini collegati al termine dato (tassa) per mezzo delle relazioni e le relazioni stesse costituiscono il campo semantico di quel termine e quindi contribuiscono ad arricchire la nostra conoscenza di quel termine . I vari componenti del campo semantico di ogni entrata sono nodi di informazione che va sviluppata e popolata.
      • Un concetto del dominio è così definito da un insieme di relazioni all’interno del database terminologico; queste relazioni dicono sia qual è il suo iperonimo , sia quali sono gli altri concetti con cui è collegato.
      • Considerando le catene tassonomiche, i concetti che hanno una posizione “intermedia” sono quelli più rappresentativi del dominio (Rosch 1978-88).
    • 15.
      • Relazioni di equivalenza
      • legano i synsets ai concetti equivalenti in Inglese, es.:
      • nave da carico eq_synonym cargo_ship
    • 16. Relazioni plug-in
        • Un synset della rete terminologica può essere collegato alla rete generica IWN
        • nella “consultazione integrata” possiamo vedere un synset (legato al db generico con relazioni plug_in) con tutte le relazioni che ha sia nel database terminologico (downward relations) sia nel database generico (upward relations)
    • 17. “ Tributo ”: consultazione integrata Downward relations Upward relations
    • 18. Classificazione ontologica
      • ogni termine ha una sua classificazione ontologica , cioè è legato a uno o più concetti dell’ontologia ereditata da IWN ( Top Ontology ): insieme di concetti con grande livello di astrazione, organizzati gerarchicamente e indipendenti dal linguaggio:
      • abbordaggio  cause, dynamic
      • per ogni termine è previsto il collegamento a uno o più concetti dell’ ontologia di dominio , vale a dire un nucleo centrale di concetti, caratterizzante e rappresentativo del dominio stesso e della sua struttura,
      • abbordaggio  nautica, governo
      • in modo da rendere cognitivamente più chiaro il significato del termine che viene visto come un “nodo di accesso” nella rete di conoscenza (Langacker, 1987).
    • 19. Interazione e trasversalità
      • Questo settore della LC (costruzione di db terminologici) rappresenta esso stesso la convergenza e l’interazione di settori culturali diversi per
      • la materia /materie trattata
      • la metodologia e i criteri che sono il risultato di ricerche precedenti fatte in Europa (progetti europei e italiani in particolare), in America (il WordNet di Princeton), ecc.
      • l’impostazione culturale che viene da mondi diversi: quello dell’ informatica (si tratta di database), quello della linguistica (vengono elaborati lessici specialistici) e quello della psicologia cognitiva e psicolinguistica (risultati importanti di ricerche fatte sulle associazioni semantiche)
    • 20. Interazione e trasversalità
      • l’utilizzo : la particolare struttura ad albero consente all’utente di fermarsi ad un livello intermedio, per avere una visione di insieme ampliabile in un secondo tempo con visioni più specialistiche; l’utente è libero di approfondire e aumentare il livello di specializzazione
      • insomma
      interazione e trasversalità: fra discipline, fra materie oggetto di studio, fra utenti e gruppi di lavoro