scrable
ZOOM
GALERÍA
0 COMENTARIOS

Un análisis de 30.000 obras en inglés del proyecto Gutenberg valida la ley de Zipf

La Ley de Zipf o las matemáticas de las palabras

¿Letras o ciencias? Es una de las primeras decisiones que tenemos que tomar como adultos (o casi adultos). Si las matemáticas o la química se te han atragantado durante la ESO, lo más seguro es que hayas decidido ir a letras de cabeza para eludirlas. Es una falacia, porque por mucho que intentemos eludir las matemáticas, las matemáticas están en todo: en el Universo, en los átomos, en la forma en que se abre una rosa, en la música, en el arte y, por si acaso no lo sabías, también en las palabras que hay en los libros.

Hace 80 años, George Kingsley Zipf, un lingüista y filólogo estadounidense que no eligió letras por evitar las mates, planteó que existía una relación de proporción en la frecuencia en la que aparecen algunas palabras en los textos, y lo expresó mediante las matemáticas.

La Ley de Zipf viene a decir que la palabra más frecuente en un texto aparece el doble de veces que la segunda más frecuente, tres veces más que la tercera, cuatro veces más que la cuarta y así hasta el final. ¿Curioso? No es lo único, porque el mismo planteamiento puede aplicarse al análisis de big data y a otros campos similares.

Sin embargo, no se había producido hasta ahora una verificación a gran escala de esta ley, y se ha podido hacer gracias al análisis de los textos del proyecto Gutenberg, donde hay a disposición pública más de 30.000 obras en inglés. Los investigadores han podido comprobar que si se analiza el total del texto el porcentaje de cumplimiento de la relación es del 40%, mientras que si se eliminan las palabras más raras (que aparecen sólo una o dos veces en todo el texto) el 55% de los textos se acoplan a la proporción de Zipf.

Aunque pueda parecer que como ley debería cumplirse en el 100% de los casos, los datos recogidos ya han causado sorpresa entre los investigadores, por tratarse de una fórmula basada en un único parámetro libre. Según explica Álvaro Corral, del CRM, si tomamos como ejemplo la campana de Gauss, para que se ajuste a datos reales necesita dos parámetros, y señala que “si descartásemos palabras que aparecen 3, 4 o 5 veces en toda una obra, la proporción de libros que siguen la ley de Zipf podría llegar a porcentajes aún más altos“. De cualquier forma los resultados son lo bastante importantes como para considerar validada la ley.

La fórmula de Zipf incluye también un exponente “a”, por lo que la relación es 1/na. Con eso la frecuencia se ajusta mucho a valores de “a” muy próximos a 1 (como si no se hubiera añadido ningún exponente; y aunque hay otras formulaciones matemáticas de la ley que se complican más todavía, todas tienen en común que cuentan con un único parámetro libre.

Fuente: Agencia Sinc

Más información: PLOS ONE

Investigación realizada por Investigadores del Centre de Recerca Matemàtica (CRM) –centro de la red CERCA de la Generalitat de Catalunya– adscritos al Departamento de Matemáticas de la Universidad Autónoma de Barcelona.

No comments yet.

Deja un comentario