Mas de la distancia de levenshtein

Curioso Ojo del lenguaje
[Grey-Walter] curioso ojo al lenguaje
Fri Sep 19 07:44:13 CEST 2003

Sgeun un etsduio de una uivenrsdiad ignlsea, no ipmotra el odren en el que las ltears etsan
ersciats, la uicna csoa ipormtnate es que la pmrirea y la utlima ltera esten ecsritas en la
psiocion cocrrtea. El
rsteo peuden estar ttaolmntee mal y aun pordas lerelo sin pobrleams. Etso es pquore no
lemeos cada ltera por si msima preo la paalbra es un tdoo .

Es un efecto muy curioso pero creo que la interpretación del estudio ("no importa el orden de la
letras sinó unicamente la primera y la ultima") es totalmente erroneo, por no decir falso.
Dos preguntas que dicha interpretación no sabe responder:

1. Muchas palabras comparten las mismas letras y coinciden en la primera y la última, ¿como
podemos interpretar la palabra correcta al leer las lineas anteriores?

2. Es curioso que cuando hace unos dias leí la misma noticia en inglés me fué mucho más fácil de
reconocer las palabras, ¿como es posible si mi nivel de inglés es muy inferior al del español?
Mi interpretación del efecto es mucho menos misteriosa pero más coherente con lo que sabemos
sobre el funcionamiento del cerebro / redes neuronales: Nuestros sistemas de preproceso sensorial
nos hacen muy robustos frente al ruido original, ya que lo que percibe nuestro cerebro consciente ha
sido editado y corregido previamente. Solo hay que pensar en la dificultad de corregir la ortografia
de un texto escrito, por muchas veces que lo revisemos siempre hay errores orto/tipográficos que se
nos escapan porque simplemente no los vemos, nuestro sistema de lectura los corrige y no nos
permite ver los carácteres realmente escritos. Pero este sistema de corrección de errores, como
todos, tienen limitaciones: digamos que puede corregir facilmente pequeños errores locales como
transposiciones (ejemlpo), borrados (ejempo), sustituciones (ejempro) e inserciones (ejempelo) de
carácteres, pero tiene muchas más dificultades para corregir errores a más distancia (epljemo).
[Nota: "Distancia de Levenshtein" o distancia de edición entre dos palabras se define como el
número entero de operaciones elementales (inserción, borrado y sustitución) que permite
transformar una cadena de carácteres en la otra.]

1. Muchas palabras comparten las mismas letras y coinciden en la primera y la última, ¿como
podemos interpretar la palabra correcta al leer las lineas anteriores? Porque es falso que el orden de
las letras no influya, cuando tenemos que elegir un candidato para la palabra misteriosa escogemos
la que está mejor alineada con la original, es decir la que tiene una menor distancia de edición, o
dicho de otra manera la que las posiciones de los carácteres individuales están más cerca de las
posiciones originales.

2. Es curioso que cuando hace unos dias leí la misma noticia en inglés me fué mucho más fácil de
reconocer las palabras, ¿como es posible si mi nivel de inglés es muy inferior al del español? El
principal motivo es que los cambios que ha hecho el autor son mínimos, en lugar de mezclar
aleatoriamente las letras como ha hecho Pablo, basicamente ha ido recorriendo la palabra e
intercambiado (swap) las letras consecutivas cada 2 o 3 carácteres, por lo que la distancia entre la
cadena original y la cambiada és pequeña. También influye que la longitud media de las palabras en
inglés debe ser alrededor de 4 y la del español de 6 (datos orientativos), por lo que si restamos la
letra inicial y final nos quedan 2 y 4 letras a recombinar, curiosmente para la mayoria de las
palabras inglesas solo nos permiten una operación de transposición, y para la mayoria de las
españolas (no digamos ya del alemán) el árbol de combinaciones es muy superior.

PD tcaompo etasn tan mal etasicrs. quizas el español e ingles se den bien al truco, habria que ver si
a los alemanes les hace gracia Ejemplo: he tardado varios dias en reconocer la palabra "etasicrs"
("escritas"?), porque una de las sílabas "ta" se elejo totalmente de su posición, pasando del final al
principio de la palabra, lo que aumentaba enormemente la distancia de edición o Levenstein. Si solo
se hubiera girado: "esicrats", hubiera sido mucho más sencilla de leer a pesar de conteneer las
mismas letras y coincidir en la primera y la última. Finalmente, todo lo anterior es válido para
palabras sueltas, si a esta capacidad le añadimos la información contextual (las palabras anteriores o
posteriores) y el sentido general de la frase la tarea de escoger la palabra correcta se hace mucho
más sencilla todavia. (Por ejemplo, esta frase tiene una ###### tachada y a pesar de todo se
entiende perfectamente).

Resumen: La capacidad del cerebro para filtrar ruido, sobretodo en señales
tan redundantes como el lenguaje humano, es impresionante. No hace falta
buscar explicaciones misteriosas, de hecho el cerebro és una máquina de
detectar patrones incluso donde no existen.
saludos,

Francesc

Articulo tomado de:

https://listas.sindominio.net/pipermail/grey-walter/2003-September/000604.html

Mas de la distancia de levenshtein

Recommended

Recommended

More Related Content

Similar to Mas de la distancia de levenshtein

Similar to Mas de la distancia de levenshtein (20)

Mas de la distancia de levenshtein