Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V A-Corsi car

T.A....
T.A. L .T.A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

1 Corpus = più frammenti

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T ...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A.L. T .A.C. 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O V...
T.A. L.T .A. C . 2

Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale,
U N I V E R S I T À degli Studi di P A D O...
L’INDICE IS DI MORRONE, l’incidenza delle occorrenze del segmento rispetto alle
occorrenze delle forme semplici che lo com...
Pretrattamento:
•
•
•
•

normalizzazione
eliminazione forme/taglio di soglia
correzione errori ortografici e grammaticali
...
Upcoming SlideShare
Loading in …5
×

Presentacion taltac2

245 views
158 views

Published on

Elementos fundamentales del sofware estadisticos textual taltac2

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
245
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Presentacion taltac2

  1. 1. Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car T.A. L.T .A.C. 2 Obiettivo del corso: sviluppare competenze di gestione di Taltac2 attraverso M.A.D.I.T. •Trattamento automatico •Lessicale Unità di testo = PAROLE •Testuale Unità di contesto = frammenti/documenti •Contenuto Ricerca di parole chiave,misure di specificità •Corpus Struttura del testo, DNA del testo
  2. 2. T.A. L .T.A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Analisi lessicale: 1. Misure lessico-metriche 2. Analisi dei segmenti ripetuti 3. Tagging (grammaticale e semantico) 4. Confronti lessicali 5. Analisi delle specificità 6. Linguaggio peculiare (parole rilevanti, TFIDF)
  3. 3. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Analisi testuale: 1. Analisi delle concordanze 2. Estrazione informazioni con query
  4. 4. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Quale tipologia di testo analizza lo strumento? Risposte a DOMANDE APERTE/TESTI INTERI: • Testi da blog • Testi di focus group • Articoli di giornale • Opere di un autore VARIABILI CATEGORIALI
  5. 5. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Da cosa è composto IL CORPUS? = INSIEME DI FRAMMENTI Insieme di risposte a domanda aperta 1 frammento = 1 risposta o Intero libro/manuale 1 frammento = 1 capitolo
  6. 6. T.A.L. T .A.C. 2 1 Corpus = più frammenti Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car sezione sezione sezione Es. corpus = raccolta di articoli = abstract, testo articolo, titolo, rif. bibliografico
  7. 7. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Come costruire il corpus affinché Taltac2 lo legga? LE REGOLE DELLA SINTASSI ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione) ****ARTICOLO1*TESTATA=repubblica*MESE=gennaio ++++ occhiello Sjdfsjfoijwfpw sjodjsaodjapid aidhosjdoiljdap osjdosdjopsa sojdojdo ++++ titolo ksjhlihdL AJHsaj AsjlkJSò ++++ testo
  8. 8. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car LE REGOLE DELLA SINTASSI ES. 3 frammenti (= 3 articoli), suddivisi in 3 sezioni (occhiello, titolo, testo) con 2 VARIABILI (testata e mese di pubblicazione) ****ARTICOLO1*TESTATA=repubblica*MESE=gennaio *NOMEVAR=NOME MODALITA’ Indica che inizia una variabile No segni di interpunzione né spazi RIGHE DI IDENTIFICAZIONE FRAMMENTO Qualsiasi carattere ma non *
  9. 9. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car 1. Se un frammento non presenta 1 modalità? *NOMEVAR=nullo ****ARTICOLO1*TESTATA=repubblica*MESE=nullo 2. Quante variabili sono ammesse? Al massimo 99 1 o più frammenti non contenga 1 o più sezioni 3. Lo strumento ammette che: Tutti i frammenti non abbiano VAR associate Tutti i frammenti non presentino sezioni
  10. 10. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car In quale formato redarre il corpus? Scrivere il testo in Word, salvarne una versione = .doc In quale formato salvare il corpus? Salvare il testo in testo delimitato da tabulazione = .txt Dove salvare i documenti?
  11. 11. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car In quali ambienti vengono salvati i file prodotti dallo strumento? CARTELLA DI LAVORO = CARTELLA DI SESSIONE File di risultato file di testo .txt Primo step: Inserimento corpus in Taltac e costruzione del vocabolario
  12. 12. T.A.L. T .A.C. 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Prima esercitazione: costruzione del corpus oggetto dell’analisi Obiettivo: costruire il file di testo rispetto alle seguenti indicazioni Il file di testo è composto da: 3 FRAMMENTI DI 2 VARIABILI SUDDIVISI IN 2 SEZIONI LA DOMANDA: Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui NON è stato pienamente soddisfatto? Pensando alla sua esperienza con la Facoltà di Psicologia, mi può descrivere una situazione in cui è stato pienamente soddisfatto? I RISPONDENTI: PSICOLOGI NEO LAUREATI VARIABILI: data = mese di dicembre (I,II,III,IV settimana) luogo = it. Centro, sud, nord, e estero SEZIONE: dom 1 e dom 2
  13. 13. T.A. L.T .A. C . 2 Laboratorio M.A.D.I.T. Dipartimento di Psicologia Generale, U N I V E R S I T À degli Studi di P A D O V A-Corsi car Lessico, testuale, del contenuto e del corpus LESSICO: il significato del termine è stabilito dai parlanti, è negoziato nell’interazione (il significato è quello del dizionario). CONCETTO: si stabilisce che il significato del termine ha una modalità d’uso entro un particolare campo di applicazione in cui il termine vale per tutti allo stesso modo. COSTRUTTO: il significato del termine è stabilito all’interno di una determinata teoria in uno specifico testo. Come usare lo strumento secondo riferimenti scientifici?
  14. 14. L’INDICE IS DI MORRONE, l’incidenza delle occorrenze del segmento rispetto alle occorrenze delle forme semplici che lo compongono” (Bolasco, 1999). La formula per il calcolo dell’indice di Morrone è la seguente: L fsegm IS = [ ∑ ---------- ] * P i=1 ffgi “per ciascuna delle L forme grafiche componenti il segmento, si considera il rapporto fsegm (occorrenze del segmento) su ffg (occorrenze della forma grafica componente), moltiplicando poi la somma di tutti questi quozienti per il numero P di parole piene presenti nel segmento. Tale indice è sempre positivo, si annulla quando il segmento è composto solo da parole vuote, ed ha il suo massimo valore uguale a L2.” ( Bolasco, 1999). L’INDICE IS RELATIVO, ottenuto rapportando l’indice al suo massimo valore ottenuto, collocandosi su un continuum di valori che va da 0 a 1. Laddove per “parole piene” si intende “parole chiave per l’analisi in corso”, mentre per “parole vuote” si intende “parole che non esprimono aspetti rilevanti rispetto all’analisi o parole strumentali alla costruzione sintatticamente corretta delle proposizioni” (Tuzzi, 2003).[
  15. 15. Pretrattamento: • • • • normalizzazione eliminazione forme/taglio di soglia correzione errori ortografici e grammaticali disambiguazione: es famiglia, es. analisi dei segmenti, es. utilizzo delle maiuscole (attenzione conflitto con normalizzazione), analisi dei segmenti • categorizzazione

×