scrable

La Ley de Zipf o las matemáticas de las palabras

¿Letras o ciencias? Es una de las primeras decisiones que tenemos que tomar como adultos (o casi adultos). Si las matemáticas o la química se te han atragantado durante la ESO, lo más seguro es que hayas decidido ir a letras de cabeza para eludirlas. Es una falacia, porque por mucho que intentemos eludir las matemáticas, las matemáticas están en todo: en el Universo, en los átomos, en la forma en que se abre una rosa, en la música, en el arte y, por si acaso no lo sabías, también en las palabras que hay en los libros.

Hace 80 años, George Kingsley Zipf, un lingüista y filólogo estadounidense que no eligió letras por evitar las mates, planteó que existía una relación de proporción en la frecuencia en la que aparecen algunas palabras en los textos, y lo expresó mediante las matemáticas.

La Ley de Zipf viene a decir que la palabra más frecuente en un texto aparece el doble de veces que la segunda más frecuente, tres veces más que la tercera, cuatro veces más que la cuarta y así hasta el final. ¿Curioso? No es lo único, porque el mismo planteamiento puede aplicarse al análisis de big data y a otros campos similares.

Sin embargo, no se había producido hasta ahora una verificación a gran escala de esta ley, y se ha podido hacer gracias al análisis de los textos del proyecto Gutenberg, donde hay a disposición pública más de 30.000 obras en inglés. Los investigadores han podido comprobar que si se analiza el total del texto el porcentaje de cumplimiento de la relación es del 40%, mientras que si se eliminan las palabras más raras (que aparecen sólo una o dos veces en todo el texto) el 55% de los textos se acoplan a la proporción de Zipf.

Aunque pueda parecer que como ley debería cumplirse en el 100% de los casos, los datos recogidos ya han causado sorpresa entre los investigadores, por tratarse de una fórmula basada en un único parámetro libre. Según explica Álvaro Corral, del CRM, si tomamos como ejemplo la campana de Gauss, para que se ajuste a datos reales necesita dos parámetros, y señala que «si descartásemos palabras que aparecen 3, 4 o 5 veces en toda una obra, la proporción de libros que siguen la ley de Zipf podría llegar a porcentajes aún más altos«. De cualquier forma los resultados son lo bastante importantes como para considerar validada la ley.

La fórmula de Zipf incluye también un exponente «a», por lo que la relación es 1/na. Con eso la frecuencia se ajusta mucho a valores de «a» muy próximos a 1 (como si no se hubiera añadido ningún exponente; y aunque hay otras formulaciones matemáticas de la ley que se complican más todavía, todas tienen en común que cuentan con un único parámetro libre.

Fuente: Agencia Sinc

Más información: PLOS ONE

Investigación realizada por Investigadores del Centre de Recerca Matemàtica (CRM) –centro de la red CERCA de la Generalitat de Catalunya– adscritos al Departamento de Matemáticas de la Universidad Autónoma de Barcelona.

Deja una respuesta

Fátima Gordillo

Aterricé en el periodismo "sin querer". Escribir es lo que hago y parte de lo que soy. He escrito notas de prensa, nombres para urbanizaciones, discursos, anuncios para radio, eslóganes y escaletas. He adaptado para teatro y, por supuesto, he escrito artículos, reportajes y entrevistas. He hecho de speaker, RP, SM y algunas siglas más. He sido actriz y conferenciante, aunque rara vez seré la persona más conversadora de una reunión. Comencé en la sección de un periódico digital y continué como redactora de estilo y tecnología en la revista Computer Hoy. Compartí proyecto, ganas y horas de trabajo en The Unnamed Project y, y ahora me dedico a Tek'n'Life y, de vez en cuando, a enseñar a la gente cómo comunicar mejor y a hablar en público sin que el miedo escénico sea una traba. Es el lado humano de la tecnología, la ciencia, el arte o lo que sea lo que me interesa, y eso es lo que quiero contar.