Compilación y anotación métrica de un corpus de sonetos del Siglo de Oro

Borja Navarro Colorado
borja@dlsi.ua.es
Universidad de Alicante
María Ribes Lafoz
neferchitty@gmail.com
Sara J. Trigueros
saraj.trigueros@gmail.com
Noelia Sánchez
noeliasanchezlopez@gmail.com
Universidad de Alicante

Comunicación larga
Digitalización, creación de recursos


La aplicación de técnicas tanto de Lingüística de Corpus como de Lingüística Computacional al análisis del texto literario permite desarrollar nuevos métodos de análisis complementarios a los métodos tradicionales. Quizá lo más novedoso que estos métodos pueden aportar es el análisis de grandes cantidades de texto literario, en lo que se ha dado en llamar análisis “desde lejos” (Moretti 2007) o Macroanálisis (Jockers 2013). Frente al análisis tradicional, centrado en un análisis en profundidad de textos canónicos, el macroanálisis propone analizar grandes cantidades de textos literarios representativos de todo un periodo.

Para que este tipo de análisis sea efectivo y realmente aporte alguna novedad al estudio de la literatura, el corpus debe ser lo suficientemente grande como para que (i) represente toda la producción literaria del periodo a estudiar y (ii) sea inviable su análisis manual.

El primer aspecto se diferencia de los métodos tradicionales en que no se centra en el análisis en profundidad de obras canónicas, sino en el análisis de toda (o una muestra representativa de toda) la producción literaria de una época, periodo, autor, tema, etc. En este sentido, desde la Teoría Literaria ya se ha manifestado la necesidad de estudiar lo que García Berrio llama la periferia contextual de la cultura literaria, en tanto que marco cultural en la que  la obra literaria se genera y que establecen los parámetros de interpretación global de la obra (García Berrio 2000).

Por lo que respecta al segundo aspecto, sólo técnicas de Lingüística Computacional y/o Minería de Textos permiten el análisis de amplias colecciones de textos. Más allá del simple análisis de frecuencias léxicas (que tan poco ha aportado a los estudios literarios), algoritmos como LDA Topic Modeling (Blei et. al 2003) están mostrando su utilidad para el análisis de grandes colecciones de texto literario (Jockers 2013).

En todo caso, únicamente estos análisis son viables si se cuenta con un corpus de texto literario que no sólo sea lo suficientemente amplio, sino que los textos que lo formen estén seleccionados de acuerdo con unos criterios claros, de tal manera que la colección sea representativa del periodo, época o tema a estudiar.

En la Historia de la Literatura Española, la sonetística áurea es quizá uno de los ámbitos más estudiados. Por tal nos referimos a todos los sonetos compuestos en castellano desde el inicio del Renacimiento por Garcilaso de la Vega, hasta las últimas figuras del Barroco como Sor Juana Inés de la Cruz. Si bien hay trabajos clásicos que han analizado este periodo de forma amplia (García Berrio 20091, Rivers 2009), estamos convencidos de que su análisis con métodos computacionales puede arrojar nueva luz sobre este género y periodo tan relevante.

Para realizar este análisis es necesario contar con un corpus de sonetos que sea amplio y representativo, tal y como se ha comentado antes. A partir de él, se podrán aplicar técnicas computacionales para extraer los patrones recurrentes que conformarían la periferia contextual de esta forma literaria: el bagaje literario a partir del cual parte cualquier autor del periodo a la hora de crear un nuevo soneto y que lo condiciona y determina.

En este trabajo se presenta el proceso de compilación y anotación métrica de este corpus de sonetos del Siglo de Oro. El corpus está formado por 5078 sonetos. Incluye los principales autores del periodo como Garcilaso de la Vega, Juán Boscán, Fray Luis de León, Luís de Góngora, Lope de Vega o Sor Juana Inés de la Cruz, entre muchos otros.

Nuestro objetivo no es, sin embargo, hacer un corpus de autores canónicos, sino un corpus. Desde los años 80, García Berrio ha dedicado bastantes trabajos a estudiar la sonetística áurea. Los principales estudios están hoy día recogidos en García Berrio (2009). Aquí citaremos sólo este libro recopilatorio representativo de todo el periodo. Por ello se incluyen todos los autores que hayan escrito (o que dispongamos de) un número suficiente de sonetos. Sólo se han rechazado para el corpus aquellos autores de los que disponemos de menos de 10 sonetos. El corpus, de todas maneras, no se da por cerrado: en la medida que podamos disponer de más autores con más de 10 sonetos, serán incluidos en el corpus. En todo caso, a día de hoy tenemos ya una primera versión estable.

La mayoría de los sonetos han sido extraídos de la Biblioteca Virtual Miguel de Cervantes. Por regla general se ha respetado la edición ahí publicada, incluyendo la modernización de los textos. Ante errores evidentes, el texto ha sido corregido cotejando la edición de la Biblioteca Virtual Miguel de Cervantes con las ediciones princeps disponibles en la Biblioteca Digital Hispánica de la Biblioteca Nacional.

El corpus ha sido anotado con el estándar TEI-XML. Cada soneto tiene su correspondiente encabezado TEI y el cuerpo con el texto. El encabezado TEI incluye información como: datos del proyecto (Title and Publication Statement), título y autor de cada soneto, y datos de publicación de la fuente original (Source Description).

En cuanto al cuerpo del texto, la información marcada es de dos tipos: estructural y métrica. En el primer caso se especifica la estructura del soneto: cuartetos, tercetos y versos (con indicación de número de verso). Casos excepcionales como el estrambote han sido marcados también.

La información métrica está marcada con un par atributo-valor “met=patron”, donde “patron” es el patrón métrico de cada verso. Un patrón está formado por sílabas tónicas y sílabas átonas. Las primeras se marcan con el símbolo “+” y las segundas con el símbolo “-”. El ejemplo (1) muestra un verso y su correspondiente patrón métrico:

<l n="1" met="---+---+-+-">
Cuando me paro a contemplar mi estado
</l> (1)

Toda la anotación se ha realizado de manera automática, excepto los patrones métricos, que han sido anotados de manera semi-automática en dos pasos. En el primer paso se ha aplicado un Sistema de Escansión Métrica desarrollado dentro del proyecto que automáticamente asigna un patrón métrico a un determinado verso. Esta anotación automática se desarrolla a su vez en dos pasos. Para cada verso:

  1. separa las sílabas de cada palabra y detecta la sílaba tónica. Para saber si la sílaba es tónica o átona se aplica un sistema de reglas según las normas de acentuación ortográfica. Sin embargo, no todas las palabras tiene acento métrico: sólo aquellas que pertenecen a determinadas categorías gramaticales (Quilis 1975, 1984) Para detectar éstas se ha utilizado el analizador categorial Freeling (Padró y Stanilovsky 2012).
  2. si el patrón resultante tiene más o menos de 11 sílabas, aplica una serie de reglas para resolver las posibles sinalefas, sinéresis y diéresis. Estas reglas se aplican siempre en orden, resolviendo primero las sinalefas consideradas más naturales (por ejemplo, entre dos vocales átonas) y luego las más forzadas (por ejemplo, entre vocales tónicas), hasta conseguir un patrón métrico de once sílabas.

El mayor problema de este sistema es la ambigüedad generada por las posibles sinalefas. Hay versos en los que, por ejemplo, sólo es necesario resolver una sinalefa para obtener un patrón métrico de once sílabas, pero hay dos posibles sinalefas. La cuestión es decidir automáticamente cuál de las dos sinalefas debe ser resuelta: según se resuelva una u otra, el patrón resultante puede ser diferente. Así, el ejemplo (2) tendrá el patrón 2.1. o 2.2. según se resuelva la primera sinalefa (“cuan-doel-pa-dre”) o la segunda (pa-dreHe-bre-ros):

2 “cuando el padre Hebrero nos enseña”
2.1 --+--+---+-
2.2 ---+-+---+-

En el primer caso, la estructura acentual es 3-6-10 y en el se gundo 4-6-10. Actualmente el sistema anota siempre el primer patrón posible. En este caso, el verso quedaría con el patrón (2.1.): 3-6-10. Sin embargo, el patrón 4-6-10 es más común (Valera Merino et al 2005).

El segundo paso de la anotación métrica es la validación manual de cada patrón métrico. Se está revisando a mano cada patrón, comprobando que el patrón resultante es el más apropiado para el verso y resolviendo posibles errores. Los principales problemas que hemos encontrado en la validación manual son:

A modo de muestra, los patrones más frecuentes del corpus son los siguientes:

-+---+---+-Heroico6457
-+-+---+-+-Sáfico6161
--+--+---+-Melódico5982
-+-+-+---+-Heroico5015

Bibliografía.

Blei, David M.; Ng, Andrew Y.; y Jordan, Michael I. (2003) “Latent Dirichlet Allocation”, Journal of Machine Learning Research, 3.

García Berrio, Antonio (2000) “Retórica figural. Esquemas argumentativos en los sonetos de Garcilaso” Edad de Oro, 19.

García Berrio, Antonio (2009) El centro en lo múltiple (Selección de ensayos) II. El contenido de las formas (1985-2005). Anthropos.

Hammond, Adam ; Brooke, Julian, and Hirst, Graeme (2013) “A Tale of Two Cultures : Bringing Literary Analysis and Computational Linguistics Together” In Workshop on Computational Linguistics for Literature, Atlanta, Georgia (EEUU).

Jockers, Matthew L. (2013) Macroanalysis. Digital Methods & Literary History. University of Illinois Press.

Moretti, Franco (2007) La literatura vista desde lejos. Marbot Ediciones.

Padró, Lluís y Stanilovsky, Evgeny (2012) “FreeLing 3.0: Towards Wider Multilinguality” in Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA. Istanbul (Turkey).

Prieto de Paula, Ángel L. (ed.) (1990) Garcilaso de la Vega. Poesías completas. Castalia.

Quilis, Antonio (1975 1984) Métrica española. Ariel.

Rivers, Elias L. (2009) El soneto español en el Siglo de Oro. Akal.

Valera Merino, Elena; Moíno Sánchez, Pablo, y Jauralde Pou, Pablo (2005) Manual de Métrica Española, Castali