SlideShare a Scribd company logo
1 of 18
Prove di analisi testuale
14/10/2014 Viola Guerrini
Un insieme di testi orali o scritti che
permettono di arrivare all’uso e alla
frequenza di determinati termini o
forme linguistiche.
Poiché era più
difficile l’analisi
Più piccoli
DOPO
la digitalizzazione
I corpora vengono
digitalizzate
Padre Busa pioniere della linguistica italiana
fonda il centro dell’Automatizzazione
dell’Analisi Linguistica di Gallarate
PRIMA della
digitalizzazione
Aumentano le
dimensioni
Preferito il formato
.txt
Standard XML si
possono condividere
i marcatori del testo.
Contenuto delle
annotazioni
Formato con cui i file
vengono standardizzati
Modalità annotative
Autenticità dei corpora
comunicative
monitorate
Situazioni
Grandezza dei corpora
Tipo di ricerca che
si vuole fare
e
tempo a
disposizione
PROBLEMA IN FASE DI
INFORMATIZZAZIONE
Insieme di parole divise da interpunzione e spazi
“DELL’ ALTRO” o “QUEST’ULTIMO”
1 o 2 parole?
• È stato selezionato il corpus da
Wikipedia
• È formato da 100 voci suddivise in 10
categorie
• Le voci sono state selezionate tra
gennaio e
settembre 2014
• È basato sullo studio di Elia (2006)
Scienza sociali e società
Religione
Filosofia e pensieri
Biografia
Matematica e astrazione
Storia ed eventi
Benessere e salute
Geografia e luoghi
Biografia
Arte e cultura
Tecnologia e scienze applicate
ARTE BIOGRAFIA CULTURA SOCIETÀ GEOGRAFIA
Cinemascopio Beatles
Diaspora Alcolismo Barcellona
Colosseo
Benjamin Franklin
Fiaba Euro
Triangolo delle Bermuda
Graffiti Bill Gates Bandiera Femminismo
Deserto del Gobi
Olografia
Albert Einstein
Geisha Omosessualità
Idrografia
Proscenio
Fred Astaire Danza Jazz Suffragio delle donne
Himalaya
Jazz
James Dean
Pizza Povertà Ischia
Madonna
Karl Marx
Romanticismo Razzismo Londra
Polka
Adam Smith
Superstizione Tamil
Piccadilly Circus
U2
Vittorio Alfieri Tè
Terrorismo
San Josè
Rosa dei venti Cristoforo Colombo Walt Disney
Zulu Tempo
STORIA MATEMATICA FILOSOFIA SCIENZE TECNOLOGIA
Anna Frank Boolean algebra Agnostico AIDS Palloncino
Azteco Teoria delle catastrofi Aristotele Big Bang Benzina
S. Berlusconi Crittografia F. Bacone Cuore Internet
Tony Blair Teoria di Graph Epistemologia Neurone Jet Engine
Brit. East. India. C Matrix M. Foucault Bomba nucleare Microprocessore
Rosa dei venti Analisi numerica Scuola di Francoforte Polmonite Microsoft
Ku Klux Klan Teorema di Pitagora Filosofia della mente Royal Astrnautal Society Radar
Garibaldi Numeri Quantum Scetticismo Sars Macchina da scrivere
Rivoluzione Francese Numeri reali Thomas Huxley Energia solare Realtà virtuale
George Bush Vettori Wittgenstein Turchese World Wide Web
Il corpus selezionato è stato ripulito
(didascalie, fotografie, indici, citazioni, ecc).
I testi sono stati convertiti da documenti word
a .txt unicode (UTF-8)
Tramite il software (T-lab 9.1) sono stati analizzati i
contenuti delle voci
Esempio: verbi, sostantivi Esempio: articoli, preposizioni
Hanno un significato anche al di fuori
della struttura della frase.
Termini il cui contenuto semantico si
riduce solo alla loro funzione
strutturale all’interno della frase.
PAROLE PIENE PAROLE VUOTE
Rapporto tra il numero di
parole piene e il
numero di parole totali
0,46
Il numero di parole totale della voce è:
2740
tokens.
Il numero di parole piene è:
1274.
Applicando la formula avremo
80%
70%
60%
50%
40%
30%
20%
10%
0%
FILOSOFIA MATEMATICA SOCIETA' STORIA GEOGRAFIA BIOGRAFIA TECNOLOGIA ARTE CULTURA SCIENZE
densitàlessicale
Densità lessicale media delle categorie
Densità lessicale Italiano Densità lessicale Inglese
0%
10%
20%
30%
40%
50%
60%
70%
80%
Wikipedia Treccani
densitàlessicale
GRAFFITISMO
• Densità lessicale italiano
• Valore massimo
58,22 % (TURCHESE)
• Valore minimo
47,07 % (ALGEBRA DI BOOLE)
• Valore medio
52,49 %
• Scostamento massimo
11,15 %
• Densità lessicale inglese
• Valore massimo
74,8 % (PIZZA)
• Valore minimo
23,8 % (EPISTEMOLOGIA)
• Valore medio
43,5 %
• Scostamento massimo
51 %
• Per quanto riguarda la D.L.
l’inglese rispetto
all’italiano ha una variabile
maggiore.
• Il confronto interno tra le varie
categorie ci hanno dimostrato
che non c’è una sostanziale
differenza tra le categorie
umanistiche e quelle
scientifiche
• Treccani contrariamente a quello supposto ha una D.L. inferiore rispetto a
Wikipedia.

More Related Content

Featured

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 

la lingua di Wikipedia

  • 1. Prove di analisi testuale 14/10/2014 Viola Guerrini
  • 2. Un insieme di testi orali o scritti che permettono di arrivare all’uso e alla frequenza di determinati termini o forme linguistiche.
  • 3. Poiché era più difficile l’analisi Più piccoli DOPO la digitalizzazione I corpora vengono digitalizzate Padre Busa pioniere della linguistica italiana fonda il centro dell’Automatizzazione dell’Analisi Linguistica di Gallarate PRIMA della digitalizzazione Aumentano le dimensioni
  • 4. Preferito il formato .txt Standard XML si possono condividere i marcatori del testo. Contenuto delle annotazioni Formato con cui i file vengono standardizzati Modalità annotative
  • 5. Autenticità dei corpora comunicative monitorate Situazioni Grandezza dei corpora Tipo di ricerca che si vuole fare e tempo a disposizione
  • 6. PROBLEMA IN FASE DI INFORMATIZZAZIONE Insieme di parole divise da interpunzione e spazi “DELL’ ALTRO” o “QUEST’ULTIMO” 1 o 2 parole?
  • 7. • È stato selezionato il corpus da Wikipedia • È formato da 100 voci suddivise in 10 categorie • Le voci sono state selezionate tra gennaio e settembre 2014 • È basato sullo studio di Elia (2006)
  • 8. Scienza sociali e società Religione Filosofia e pensieri Biografia Matematica e astrazione Storia ed eventi Benessere e salute Geografia e luoghi Biografia Arte e cultura Tecnologia e scienze applicate
  • 9. ARTE BIOGRAFIA CULTURA SOCIETÀ GEOGRAFIA Cinemascopio Beatles Diaspora Alcolismo Barcellona Colosseo Benjamin Franklin Fiaba Euro Triangolo delle Bermuda Graffiti Bill Gates Bandiera Femminismo Deserto del Gobi Olografia Albert Einstein Geisha Omosessualità Idrografia Proscenio Fred Astaire Danza Jazz Suffragio delle donne Himalaya Jazz James Dean Pizza Povertà Ischia Madonna Karl Marx Romanticismo Razzismo Londra Polka Adam Smith Superstizione Tamil Piccadilly Circus U2 Vittorio Alfieri Tè Terrorismo San Josè Rosa dei venti Cristoforo Colombo Walt Disney Zulu Tempo
  • 10. STORIA MATEMATICA FILOSOFIA SCIENZE TECNOLOGIA Anna Frank Boolean algebra Agnostico AIDS Palloncino Azteco Teoria delle catastrofi Aristotele Big Bang Benzina S. Berlusconi Crittografia F. Bacone Cuore Internet Tony Blair Teoria di Graph Epistemologia Neurone Jet Engine Brit. East. India. C Matrix M. Foucault Bomba nucleare Microprocessore Rosa dei venti Analisi numerica Scuola di Francoforte Polmonite Microsoft Ku Klux Klan Teorema di Pitagora Filosofia della mente Royal Astrnautal Society Radar Garibaldi Numeri Quantum Scetticismo Sars Macchina da scrivere Rivoluzione Francese Numeri reali Thomas Huxley Energia solare Realtà virtuale George Bush Vettori Wittgenstein Turchese World Wide Web
  • 11. Il corpus selezionato è stato ripulito (didascalie, fotografie, indici, citazioni, ecc). I testi sono stati convertiti da documenti word a .txt unicode (UTF-8) Tramite il software (T-lab 9.1) sono stati analizzati i contenuti delle voci
  • 12. Esempio: verbi, sostantivi Esempio: articoli, preposizioni Hanno un significato anche al di fuori della struttura della frase. Termini il cui contenuto semantico si riduce solo alla loro funzione strutturale all’interno della frase. PAROLE PIENE PAROLE VUOTE
  • 13. Rapporto tra il numero di parole piene e il numero di parole totali
  • 14. 0,46 Il numero di parole totale della voce è: 2740 tokens. Il numero di parole piene è: 1274. Applicando la formula avremo
  • 15. 80% 70% 60% 50% 40% 30% 20% 10% 0% FILOSOFIA MATEMATICA SOCIETA' STORIA GEOGRAFIA BIOGRAFIA TECNOLOGIA ARTE CULTURA SCIENZE densitàlessicale Densità lessicale media delle categorie Densità lessicale Italiano Densità lessicale Inglese
  • 17. • Densità lessicale italiano • Valore massimo 58,22 % (TURCHESE) • Valore minimo 47,07 % (ALGEBRA DI BOOLE) • Valore medio 52,49 % • Scostamento massimo 11,15 % • Densità lessicale inglese • Valore massimo 74,8 % (PIZZA) • Valore minimo 23,8 % (EPISTEMOLOGIA) • Valore medio 43,5 % • Scostamento massimo 51 %
  • 18. • Per quanto riguarda la D.L. l’inglese rispetto all’italiano ha una variabile maggiore. • Il confronto interno tra le varie categorie ci hanno dimostrato che non c’è una sostanziale differenza tra le categorie umanistiche e quelle scientifiche • Treccani contrariamente a quello supposto ha una D.L. inferiore rispetto a Wikipedia.