Distribución por longitud de las palabras de diferentes idiomas

5,074 views
4,735 views

Published on

Published in: Education
0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,074
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
17
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Distribución por longitud de las palabras de diferentes idiomas

  1. 1. Distribución por longitud de las palabras de diferentes idiomas C. Quesada-Granja
  2. 2.  Introducción
  3. 3. Muchos fenómenos se pueden caracterizar mediante distribuciones de probabilidad
  4. 4. La distribución de las palabras según su número de letras ¿sigue algún modelo estadístico?
  5. 5. Es decir…
  6. 6. Si tomamos un texto y contamos… • las palabras de 1 letra, • las palabras de 2 letras, • las palabras de 3 letras, • las palabras de 4 letras, • las palabras de 5 letras, • las palabras de 6 letras,
  7. 7. … y representamos el resultado en un histograma… 300 250 Número de palabras 200 150 100 50 0 0 5 10 15 20 25 Número de letras
  8. 8. … ¿se parecerá a alguna distribución de probabilidad conocida?
  9. 9.  Materiales y métodos
  10. 10. Selección de los textos  Carácter enciclopédico  Para una docena de lenguas con alfabeto latino  Un fichero por cada lengua
  11. 11. Contenido de los ficheros  2.500 palabras  Fragmentos de artículos destacados de Wikipedia  10 ó 12 artículos con temáticas diferentes, extraídos al azar
  12. 12. Análisis de los ficheros  Programa en Matlab  Procesa los ficheros  Representa resultados mediante histogramas
  13. 13. function datos = leer(namefile) texto = textread(namefile, '%s'); numpal = size(texto); vectL = zeros(1,numpal(1)); for i = 1:numpal vectL(i) = length(char(texto(i))); end hist(vectL, 1:max(vectL))
  14. 14.  Resultados
  15. 15.  La distribución de las palabras no es igual para todas las lenguas  Similitudes cuando se agrupan por familias lingüísticas
  16. 16. Lenguas romances
  17. 17. 700 700 600 ESPAÑOL 600 FRANCÉS μ = 4,9380 μ = 4,8667 Número de palabras Número de palabras 500 500 400 σ = 3,0571 400 σ = 3,0697 300 300 200 200 100 100 0 0 0 2 4 6 8 10 12 14 16 18 0 2 4 6 8 10 12 14 16 18 Número de letras Número de letras 600 600 500 CATALÁN 500 μ = 4,7331 Número de palabras Número de palabras 400 400 σ = 3,0985 300 300 200 200 100 100 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 5 10 15 Número de letras Número de letras
  18. 18. Lenguas germánicas occidentales
  19. 19. 600 600 500 INGLÉS 500 NEERLANDÉS μ = 4,8773 μ = 5,2007 Número de palabras Número de palabras 400 400 σ = 2,6171 σ = 3,0556 300 300 200 200 100 100 0 0 0 2 4 6 8 10 12 14 16 18 0 5 10 15 20 25 Número de letras Número de letras 700 600 600 ALEMÁN 500 μ = 6,0968 Número de palabras Número de palabras 500 400 400 σ = 3,6668 300 300 200 200 100 100 0 0 0 5 10 15 20 25 30 0 2 4 6 8 10 12 14 16 18 20 Número de letras Número de letras
  20. 20. Lenguas eslavas occidentales
  21. 21. 350 350 300 POLACO 300 CHECO μ = 5,6452 μ = 5,3604 Número de palabras Número de palabras 250 250 200 σ = 3,3431 200 σ = 2,9859 150 150 100 100 50 50 0 0 0 5 10 15 20 25 0 2 4 6 8 10 12 14 16 18 Número de letras Número de letras 350 300 300 ESLOVACO 250 μ = 5,6638 Número de palabras Número de palabras 250 200 200 σ = 3,2797 150 150 100 100 50 50 0 0 0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 Número de letras Número de letras
  22. 22. Lenguas de otras familias
  23. 23. 350 350 300 EUSKERA 300 FINÉS μ = 6,5018 μ = 7,8866 Número de palabras Número de palabras 250 250 200 σ = 2,8321 200 σ = 3,8362 150 150 100 100 50 50 0 0 0 2 4 6 8 10 12 14 16 18 20 0 5 10 15 20 25 30 Número de letras Número de letras 300 400 250 HÚNGARO 350 ISLANDÉS μ = 6,2615 μ = 5,2470 Número de palabras 300 Número de palabras 200 σ = 3,6546 250 σ = 3,1405 150 200 150 100 100 50 50 0 0 0 5 10 15 20 25 0 5 10 15 20 25 30 35 Número de letras Número de letras
  24. 24.  Conclusiones
  25. 25.  No se puede establecer un modelo estadístico común a todas las lenguas  Las lenguas de las mismas familias lingüísticas presentan características similares
  26. 26. Posibles aplicaciones  Diseño de algoritmos para la detección automática de lenguas  Estudios de eficiencia
  27. 27. Longitudes medias (*) FINÉS 7,89   EUSKERA 6,50   HÚNGARO 6,26   ALEMÁN 6,10 5,92 ESLOVACO 5,66   POLACO 5,65   CHECO 5,36   ISLANDÉS 5,25   NEERLANDÉS 5,20   ESPAÑOL 4,94 4,96 INGLÉS 4,88 4,50 FRANCÉS 4,87 4,84 CATALÁN 4,73   (*) Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers, Blue Ribbon Books, 1939, pp. 256-257.
  28. 28. C. Quesada-Granja quesadagranja@gmail.com CC-BY: Gaetan Lee CC-BY: tj scenes

×