Arte di Ascoltare - Slide Rita Marinelli

  • 819 views
Uploaded on

 

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
819
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
3
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • da quello dell’informatica (si tratta di database) a quello della linguistica (vengono elaborati lessici specialistici) e della psicologia cognitiva e psicolinguistica (risultati importanti di ricerche fatte sulle associazioni semantiche): “demonstrated an experimental methodology (a sentence verification task) that suggested that subjects had structured representations that had privileged links for hyponymic and meronymic relations” (Beckwith, Fellbaum, Gross, Miller, 1991; Miller, 2003).

Transcript

  • 1. La terminologia condivisa: uno strumento trasversale di lavoro Rita Marinelli [email_address]
  • 2.
    • Parlo della mia esperienza di lavoro, presso l’ILC, che si occupa di studiare il linguaggio naturale utilizzando metodologie informatiche
    • Si tratta della costruzione di tre db di terminologia di tre domini diversi ma costruiti con criteri simili e usando lo stesso modello concettuale
    • Sono destinati a varie tipologie di utenti: professionisti e non
    • Non è importante qui il tipo di dominio considerato, quanto la metodologia di lavoro usata
  • 3. Modello concettuale
    • Metodologia o modello concettuale valido indipendentemente
    • dalla materia trattata
    • dal livello di competenza che l’utente ha nel settore, perché può servire anche a chi questa competenza non ce l’ha affatto e quindi ha bisogno di formarsela
  • 4. Database di terminologia
    • Dal qualche anno sono in corso di costruzione tre database di terminologia appartenenti a domini diversi:
    • “ marittima” (settore nautico e trasporti marittimi)
    • “ fiscale”
    • “ sindacale e del lavoro”
    • per rispondere alla richiesta di uno strumento di consultazione e di supporto per utenti con differenti gradi di competenza, operanti nel settore.
  • 5. Il modello dei database
    • Il modello usato per la costruzione dei database è di tipo relazionale, con relazioni semantico lessicali, secondo i modelli di riferimento
      • EuroWordNet (progetto europeo),
      • ItalWordNet (SI-TAL progetto nazionale basato sull’ampliamento del db costruito per EWN) e
      • Mariterm , primo esperimento di db terminologico;
    • tutto nella filosofia “ WordNet ”
  • 6. Metodologia
    • I database contengono rispettivamente 4000, 1600, 1500 termini.
    • Primo passo della costruzione: fissare i concetti principali da cui partire per poi popolare il database -> è stata composta, con la collaborazione dei committenti ed esperti di dominio, una lista di concetti centrali e altamente rappresentativi. Come?...
  • 7. Dai testi al corpus
    • ⇨ I committenti hanno inviato insiemi di testi in vari formati (word, pdf, ecc.) appartenenti al dominio in questione
    • ⇨ i testi sono stati indicizzati, per poi essere trasformati in un corpus, e quindi sottoposti al sistema di gestione di db testuali (disponibile in ILC) per:
        • interrogarli,
        • ottenere liste di frequenza, concordanze e co-occorrenze.
  • 8. Primi concetti inseriti
    • La lista di frequenza in ordine decrescente è stata usata per estrarre le 150 parole più frequenti nei testi, come probabili concetti principali da inserire nel database.
    • E’ stata consultata la rete generica IWN per vedere se e quali concetti di questa lista vi fossero presenti: quelli presenti sono stati valutati per poi essere esportati in un file xml e inseriti nel database specialistico importando lo stesso file xml, come prevede l’architettura del tool di gestione del database.
    IWN xml DB Term
  • 9. Altri concetti inseriti
    • Il database è stato poi popolato inserendo altri concetti (non presenti in IWN), appartenenti al dominio, con un grado più alto di specificità, in quanto ritenuti rappresentativi del dominio e/o con un grande numero di iponimi
    • fonti usate:
      • glossari
      • testi e pubblicazioni del settore, scaricati da Internet o su supporto cartaceo.
  • 10. Termini come “synsets”
    • Ogni termine compare nel database con i suoi sinonimi, se ci sono, e costituisce un synset (insieme di sinonimi), es.:
      • N bollo auto·1, tassa automobilistica·1 , [ tassa che colpisce il possesso dei veicoli iscritti nei pubblici registri automobilistici
      • N abbordaggio·1, abbordo·1 , [urto volontario o collisione accidentale tra imbarcazioni]]
    • ogni termine ha
      • una categoria grammaticale di appartenenza
      • una definizione, es.: tassa che colpisce il possesso dei veicoli iscritti nei pubblici registri automobilistici ;
      • un legame con altri termini ( synset ) rappresentato dalle relazioni semantico-lessicali “interne”
  • 11. Relazioni semantiche interne
    • di tipo gerarchico/verticale (ipo/iperonimia):
      • abbordaggio has_hyponym arrembaggio, abbordaggio intenzionale
      • abbordaggio has _hyperonym atto, azione
    • di tipo orizzontale (relazioni di ruolo, parte, luogo, causa, ecc.):
      • abbordaggio causes naufragare·1, colare a picco·2, affondare·2 , [ detto di imbarcazione, affondare in mare; detto di persone imbarcate, fare naufragio, a causa di danni prodotti dal mare in tempesta o da altri tipi di sinistro (urti, incendi, ecc.).]
  • 12. Abbordaggio
  • 13. Porto Nave porta container Altri esempi
  • 14. Campo semantico
    • L’insieme dei termini collegati al termine dato (tassa) per mezzo delle relazioni e le relazioni stesse costituiscono il campo semantico di quel termine e quindi contribuiscono ad arricchire la nostra conoscenza di quel termine . I vari componenti del campo semantico di ogni entrata sono nodi di informazione che va sviluppata e popolata.
    • Un concetto del dominio è così definito da un insieme di relazioni all’interno del database terminologico; queste relazioni dicono sia qual è il suo iperonimo , sia quali sono gli altri concetti con cui è collegato.
    • Considerando le catene tassonomiche, i concetti che hanno una posizione “intermedia” sono quelli più rappresentativi del dominio (Rosch 1978-88).
  • 15.
    • Relazioni di equivalenza
    • legano i synsets ai concetti equivalenti in Inglese, es.:
    • nave da carico eq_synonym cargo_ship
  • 16. Relazioni plug-in
      • Un synset della rete terminologica può essere collegato alla rete generica IWN
      • nella “consultazione integrata” possiamo vedere un synset (legato al db generico con relazioni plug_in) con tutte le relazioni che ha sia nel database terminologico (downward relations) sia nel database generico (upward relations)
  • 17. “ Tributo ”: consultazione integrata Downward relations Upward relations
  • 18. Classificazione ontologica
    • ogni termine ha una sua classificazione ontologica , cioè è legato a uno o più concetti dell’ontologia ereditata da IWN ( Top Ontology ): insieme di concetti con grande livello di astrazione, organizzati gerarchicamente e indipendenti dal linguaggio:
    • abbordaggio  cause, dynamic
    • per ogni termine è previsto il collegamento a uno o più concetti dell’ ontologia di dominio , vale a dire un nucleo centrale di concetti, caratterizzante e rappresentativo del dominio stesso e della sua struttura,
    • abbordaggio  nautica, governo
    • in modo da rendere cognitivamente più chiaro il significato del termine che viene visto come un “nodo di accesso” nella rete di conoscenza (Langacker, 1987).
  • 19. Interazione e trasversalità
    • Questo settore della LC (costruzione di db terminologici) rappresenta esso stesso la convergenza e l’interazione di settori culturali diversi per
    • la materia /materie trattata
    • la metodologia e i criteri che sono il risultato di ricerche precedenti fatte in Europa (progetti europei e italiani in particolare), in America (il WordNet di Princeton), ecc.
    • l’impostazione culturale che viene da mondi diversi: quello dell’ informatica (si tratta di database), quello della linguistica (vengono elaborati lessici specialistici) e quello della psicologia cognitiva e psicolinguistica (risultati importanti di ricerche fatte sulle associazioni semantiche)
  • 20. Interazione e trasversalità
    • l’utilizzo : la particolare struttura ad albero consente all’utente di fermarsi ad un livello intermedio, per avere una visione di insieme ampliabile in un secondo tempo con visioni più specialistiche; l’utente è libero di approfondire e aumentare il livello di specializzazione
    • insomma
    interazione e trasversalità: fra discipline, fra materie oggetto di studio, fra utenti e gruppi di lavoro