Un calendario de la literatura española (aplicación para Android)

Frank Fischer
rank.fischer@zentr.uni-goettingen.de
Göttingen Centre for Digital Humanities
Jannik Strötgen
jannik.stroetgen@informatik.uni-heidelberg.de
Universidad de Heidelberg

Comunicación larga
Modelado espacio-temporal, análisis y visualización


El 8 de octubre 2014, durante la Feria del Libro en Fráncfort, habia una entrevista con un traductor que dijo que la literatura finlandesa tiene lugar, principalmente, en verano1. Es decir, las tramas se desenvuelven obviamente en los meses de verano (del hemisferio norte). Este conocimiento nos pareció tan interesante que queriamos saber imediatamente, cuándo otras literaturas tenían lugar, entre otros, la literatura española.

Este tipo de investigación a base de cientos o miles de novelas sólo es posible con métodos digitales. Esta charla se trata de estos métodos, aplicados a cuestiones literarias. Entonces, hablemos de fechas en la literatura.

Fechas exactas pueden ser encontradas en muchos géneros de textos, artículos de periódicos, libros de divulgación, protocolos y tal. Pero en la literatura – y aquí viene nuestra primera tesis –, se encuentra preferentemente, fechas vagas, aproximadas, que abren espacios de interpretación. Veamos un ejemplo de la literatura alemana. Estas son todas las menciones de meses en la novela corta »El jinete del caballo blanco« (1888) de Theodor Storm:

Se nota, todas las 19 menciones tienen carácter vago. Está muy claro: El autor no escribe ningún informe, sino que escribe literatura.

Por supuesto, hay excepciones a esta regla: novelas epistolares e históricas, claro que tienen muchas fechas exactas, p. ej., »Las cuitas del joven Werther« (1774) de Goethe, o todas las novelas del francés Jules Verne.

En todos los otros casos podemos formular como hipótesis: Si – en la literatura narrativa – ocurre una fecha exacta, es un acto deliberado del autor. Al menos un facto que vale un análisis profundo. La fecha más famosa mencionada en la literatura mundial viene de la literatura irlandesa. Conocemos muy bien el día en que »Ulises« tiene lugar, es el día 16 de junio. Este 16 de junio se llama »Bloomsday« en todo el mundo. En este día se celebran festivales en todos lados, no sólo en Dublín, donde la novela se desarrolla. A pesar de que este día es tan famoso, está mencionado en un solo lugar escondido de »Ulises«, novela de 1000 páginas. Y no podría ser más incidental. La secretaria la escribe en la máquina de escribir:

»Miss Dunne clicked on the keyboard:
—16 June 1904.«

»Miss Dunne tecleó en el teclado:
—16 de junio de 1904.«

Otro ejemplo, algo de Borges, de »La muerte y la brújula« (1942): »Erik Lönnrot las estudió. Los tres lugares, en efecto, eran equidistantes. Simetría en el tiempo (3 de diciembre, 3 de enero, 3 de febrero); simetría en el espacio también ...« Sin duda, las fechas exactas en los cuentos de Borges tampoco son coincidencias.

Como lo aclara el título de esta charla, queremos mirar en ocurrencias de fechas individuales. Queremos aplicar un macroanálisis y mirar a las tendencias en grandes corpus. Nos dedicamos a las fechas como un rasgo aislable de corpora literarios en el sentido de Matthew Jockers:

»»Indeed, the very object of analysis shifts from looking at the individual occurrences of a feature in context to looking at the trends and patterns of that feature aggregated over an entire corpus.«2

Nuestro ›feature‹ son las informaciones temporales, en particular, informaciones sobre la fecha: el día, el mes. Hasta ahora hablamos sobre ocurrencias individuales. Es el momento de hablar de manera más técnica. Aunque, inicialmente, se podría pensar que es fácil sacar ocurrencias de 365 (o 366) días de un corpus literario. Pero no es. P. ej., es importante encontrar indicaciones como »Año Nuevo« o »Navidad«, eso ya es un tanto más complicado. Por no hablar de la abundancia de formatos para mencionar una fecha, hay descripciones muy poéticas. Otro problema son las ortografías antiguas etc. Estos pasajes no se encuentra tan fácilmente, y ciertamente no de manera ›big data‹.

Y si queremos procesar miles de novelas, nuestro tiempo llega rápidamente al límite. Por lo tanto, hacemos una extracción de expresiones temporales automáticamente mediante un Temporal Tagger, que en nuestro caso es HeidelTime3. Es un proyecto Open Source y actualmente está alojado en Google Code. Describimos nuestro workflow en nuestra charla en la última conferencia de la asociación de HD alemana en Graz, Austria4.

Nuestro corpus español de momento consiste de unas 80 novelas españolas de las decadas alrededor de 1900 (Pío Baroja, Benito Pérez Galdós, Vicente Blasco-Ibáñez y sus contemporaneos, todos textos sin copyright). Para demostrar el »Calendario de la literatura española« desarrolamos una aplicación para Android que funciona como un calendario de fechas ficcionales.

Para cada día del año, la app muestra pasajes de la literatura española que juegan en este mismo día (también desarrolamos una version alemana, francesa y inglesa). Así tenemos un dicionario o base de datos con fechas exactas en la literatura española que se puede explorar.