Borges y la entropía de Shannon


“Este pensador observó que todos los libros, por diversos que sean, constan de elementos iguales: el espacio, el punto, la coma, las veintidós letras del alfabeto. También alegó un hecho que todos los viajeros han confirmado: No hay en la vasta Biblioteca, dos libros idénticos. De esas premisas incontrovertibles dedujo que la Biblioteca es total y que sus anaqueles registran todas las posibles combinaciones de los veintitantos símbolos ortográficos (número, aunque vastísimo, no infinito) o sea todo lo que es dable expresar: en todos los idiomas. Todo: la historia minuciosa del porvenir, las autobiografías de los arcángeles, el catálogo fiel de la Biblioteca, miles y miles de catálogos falsos, la demostración de la falacia de esos catálogos, la demostración de la falacia del catálogo verdadero, el evangelio gnóstico de Basilides, el comentario de ese evangelio, el comentario del comentario de ese evangelio, la relación verídica de tu muerte, la versión de cada libro a todas las lenguas, las interpolaciones de cada libro en todos los libros, el tratado que Beda pudo escribir (y no escribió) sobre la mitología de los sajones, los libros perdidos de Tácito.”

Jorge Luis Borges, La Biblioteca de Babel (1941).

¿De cuántas formas pueden reordenarse los veintitantos símbolos ortográficos de la Biblioteca de Babel? ¿De cuántas formas puede Christopher Nolan reordenar el argumento de sus películas para hacer una película nueva? (de ser posible, que todavía se entienda). ¿Y cuanta información quedará en la película más arrevesada que Christopher Nolan pueda dirigir? Como suele ocurrir, los Simpsons se preguntaron todo esto antes (¡pero no antes que Borges o que Claude Shannon!):


¿Cuál es la relación entre entropía e información? En 1949, ocho años después que Borges publicase La Biblioteca de Babel, Claude Shannon publicó un trabajo en el que introdujo su famoso concepto de entropía de la información,

S = - Σ pi log pi.

En ese trabajo, aunque presentó una serie de teoremas con motivaciones plausibles, Shannon acepta que su principal motivación para usar una definición de este tipo, y en particular la función logaritmo, tiene que ver con que es práctica para lidiar con magnitudes medidas que pueden variar en varios órdenes de magnitud, con que vuelve ciertas operaciones con números grandes más fáciles de manejar, y con resultados previos en mecánica estadística como las definiciones de entropía de Boltzmann y de Gibbs. Shannon usó log2, pero nosotros usaremos el logaritmo natural porque será más natural para nuestra materia (¡plop!). En clase vimos cómo esta definición se relaciona con nociones de desorden o de interteza, y que para sucesos equiprobables se reduce a S = log(N), donde N es el número de sucesos posibles. Pero ¿cómo se relaciona esto con la noción de información?

Llamativamente, Borges se adelantó en su Biblioteca de Babel a esta pregunta. En otra parte del cuento escribe:

 “El número de símbolos ortográficos es veinticinco. Esa comprobación permitió, hace trescientos años, formular una teoría general de la Biblioteca y resolver satisfactoriamente el problema que ninguna conjetura había descifrado: la naturaleza informe y caótica de casi todos los libros. Uno, que mi padre vio en un hexágono del circuito quince noventa y cuatro, constaba de las letras MCV perversamente repetidas desde el renglón primero hasta el último. Otro (muy consultado en esta zona) es un mero laberinto de letras, pero la página penúltima dice «Oh tiempo tus pirámides».”

 Imaginemos, como Borges, un conjunto de símbolos ortográficos formado por 22 letras del alfabeto, mas el punto, la coma y el espacio (que marcaremos como “_”):

ABCDEFGHIKLMNOPQRSTVYZ.,_

Pensemos ahora que tenemos diferentes “emisores” que transmiten un mensaje usando estos símbolos. Como en el video de Los Simpsons (en un tema que está íntimamente relacionado con el cuento de Borges y el concepto de entropía de Shannon), pensemos que tenemos monos encadenados a máquinas de escribir, y que pueden escribir al azar textos de 50 símbolos en cada mensaje:

  1. El primer mono (M1) aprieta la letra A todas las veces: “AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA”.
  2. El segundo mono (M2) aprieta solo letras con equiprobabilidad, sin usar puntuación o espacios: “AYZTMOICPQERVILVVLMODNBEKSDEHGAHGALMKEYC”
  3. El tercer mono (M3) aprieta cualquiera de las 25 teclas con equiprobabilidad: “DH, EKHVOZ . EZVIASC B PIM,YICAK DELA.ALSFBZOQNY E”.
  4. El cuarto mono (M4) aprieta cualquier tecla con su probabilidad de uso en el español (por ejemplo, el espacio tiene una probabilidad de ocurrencia de ≈ 0.17, la letra “A” de ≈ 0.11, la “E” de ≈ 0.10, etc.): “EOS RILND . QNL PAE A ARDTEOS DCMAEE AMA”.
  5. El quinto mono (M5) tiene un vocabulario de 10 palabras, y usa las reglas de espaciado y puntuación del español. Su vocabulario es: CASA, PEPE, TUS, PESCA, EN, PIRAMIDES, DOS, OH, PARA y TIEMPO. Usando solo esas palabras al azar, y el punto, la coma y el espacio, escribe: “DOS PESCA. TUS CASA PEPE, OH TIEMPO TUS PIRAMIDES.”

¿Cuánta información hay en cada mensaje? Para contestar esto, preguntémonos para qué emisor es más difícil predecir la ocurrencia de la siguiente letra, si nos llegasen sus mensajes de a una letra por vez (por ejemplo, por un telégrafo). En el primer caso, una vez que reconocimos el patrón, es fácil saber que la siguiente letra será una A. Cada nueva A no agrega entonces más información que la que ya teníamos (¡ya sabíamos que nos llegaría una A!). Es fácil también ver que el caso más difícil para predecir la ocurrencia de una nueva letra corresponde al del mono M3. Por otro lado, el mensaje de M5 parece más complicado, pero luego de recibir las letras “PES”, sabemos que solo pueden estar seguidas por “CA”. La entropía de Shannon mide esta noción de información, basada en la idea de que cuanto más difícil sea predecir la siguiente letra, más información nos aporta conocerla. Calculemos la entropía de cada emisor:

  1. S1 = ln 1 = 0
  2. S2 = ln 22 ≈ 3.091
  3. S3 = ln 25 ≈ 3.219
  4. S4 = -Σ pi log pi ≈ 2.766
  5. La entropía S5 es más difícil de calcular, pero es menor a S4 y mayor a S1.

Hay otra forma interesante de pensar cuánta información genera el emisor, y es pensar cuánto podemos comprimir el mensaje que nos envía el emisor sin perder información. Para el primer mono nos alcanza con decir que envió 50 “A”. El mensaje de M3 lo podemos comprimir como “D PES. TU C PEP, O TI TU PIR.” (ya que “D” solo puede ser seguido por “OS”, “PES” por “CA”, “TU” por “S”, etc.).  En el mensaje de M3 no podemos sacar nada sin perder información. Un teorema famoso de Shannon nos dice que (para mensajes muy largos) la cota máxima a cuánto podemos comprimir el mensaje de un emisor sin perder información está relacionada con su entropía.

Los que quieran saber más pueden leer el paper original de Shannon:

Print Friendly, PDF & Email