Pequeños grandes corpus. Recursos en red para la investigación en lingüística histórica

Gael Vaamonde
gaelvmnd@gmail.com
Marina Serrano Marín
marina.occam@hotmail.com
Andrés Enrique Arias
andres.enrique@uib.es
Universitat de les Illes Balears

Panel
Corpora y lingüística del corpus


La investigación en lingüística histórica no ha sido ajena al desarrollo de las nuevas tecnologías informáticas, beneficiándose en las últimas décadas de las enormes ventajas que ofrecen los corpus en formato electrónico. Para el caso del español, los dos corpus diacrónicos en red más importantes y conocidos son el Corpus Diacrónico del Español (CORDE) y el Corpus del Español de Mark Davies. El gran volumen de texto recopilado –250 millones de palabras y 100 millones de palabras, respectivamente– los convierte en verdaderas herramientas de referencia.

Junto a ellos, en el ámbito hispánico han ido apareciendo recientemente otros corpus diacrónicos más especializados que, a expensas de reducir el tamaño de la muestra, permiten dar un salto cualitativo en el tratamiento de los datos. En este panel presentamos tres casos de corpus diacrónicos especializados: el corpus Biblia Medieval, los corpus CHARTA y CODEA+2015, y los corpus de P. S. Post Scriptum. Todos ellos son recursos de acceso libre en red que mejoran algunos aspectos con respecto a los dos macrocorpus citados, como son la uniformidad de criterios en las transcripciones o la publicación de las imágenes de los facsímiles. Presentan, además, otras particularidades que los singularizan. Por citar solo tres, Biblia Medieval se beneficia de las ventajas metodológicas de un corpus paralelo; la triple presentación de los documentos de CODEA posibilita estudios de carácter interdisciplinar; la naturaleza de los textos ofrecidos en P. S. Post Scriptum permite compensar, en su justa medida, la carencia de fuentes orales.

En suma, estas herramientas electrónicas constituyen un complemento idóneo de los grandes corpus existentes, aportando nuevos datos y nuevas posibilidades de búsqueda al estudio del español en perspectiva diacrónica. Ofrecemos a continuación un resumen de cada presentación.

El sitio web y el corpus Biblia medieval

Desde el año 2008 se lleva poniendo en marcha el sitio Biblia Medieval (www.bibliamedieval.es). Este proyecto tiene como objetivo desarrollar recursos para el estudio de un fenómeno singular de la historica cultural hispánica; la traducción de la Biblia al vernáculo castellano en la Edad Media. El sitio contiene:

El aspecto más importante y novedoso de la web es el corpus Biblia Medieval, una herramienta informática de acceso libre en la red que permite la consulta en paralelo de las versiones bíblicas castellanas producidas a lo largo de la Edad Media así como acceder a los facsímiles de los originales. La creación de este recurso supone un avance importante en el estudio de la lengua y cultura en la Castilla medieval: por un lado se trata de la edición integral de los textos bíblicos medievales incluyendo importantes ejemplares que estaban inéditos o en ediciones de difícil acceso y por otro supone la creación de un corpus de cinco millones de palabras de texto paralelo, alineado con la fuente hebrea o latina, y con posibilidad de consulta de más de 17.000 imágenes digitales con el facsímil de los originales.

En esta comunicación se exponen las principales cuestiones técnicas y filológicas que ha planteado la confección de este corpus y se presentan algunas aplicaciones concretas del mismo para el estudio de la lengua y la cultura en la Castilla medieval.

Los corpus CHARTA y CODEA+2015

La Red Internacional CHARTA (“Corpus Hispánico y Americano en la Red: Textos Antiguos”) nació como reflexión de lo útil y ventajoso que resultaría para los estudios filológicos la edición de documentos archivísticos en español. Se trata de un proyecto innovador de dimensión internacional que, mediante la publicación en red de un corpus de documentos antiguos de los siglos XII-XIX de España e Hispanoamérica, pretende solucionar las nuevas necesidades de acceso a la información requeridas por los investigadores y satisfacer el creciente interés por los textos como fuente primaria de la investigación filológica e histórica. Los objetivos propuestos fueron la creación de una metodología y criterios comunes de edición de fuentes documentales y de un corpus ampliable y consultable en internet que diera cuenta del español en España y América en un amplio período de tiempo. Resultado visible son los criterios de edición, así como el establecimiento de una tipología documental (www.charta.es).

Al corpus de la Red Internacional CHARTA se incorporarán los documentos de CODEA 2011 (“Corpus de Documentos Españoles Anteriores a 1700” www.textoshispanicos.es). Este proyecto creó en su primera fase un corpus con 1502 piezas de diferentes archivos preparadas en doble presentación (transcripción paleográfica y presentación crítica) y con una muestra de 63 facsímiles del Archivo Municipal de Toledo. En su fase actual, CODEA+2015 (“Corpus de Documentos Españoles Anteriores a 1800”) se ha propuesto no solamente cubrir el hueco que existía en la documentación diacrónica del español, sino que pretende dar un salto conceptual mediante la ampliación del corpus en más de 1000 documentos; incorporar un sistema de navegación, búsquedas y herramientas novedosas de análisis; y, elaborar estudios con una metodología cualitativa y cuantitativa de examen de los documentos.

Este avance significativo puede observarse en la nueva web del corpus. Los textos aparecen ante el usuario en una triple presentación (transcripción paleográfica, presentación crítica y reproducción facsimilar). Se puede acceder a ellos mediante la navegación en el corpus buscándolos por signatura archivística, data, localización geográfica, ámbito de emisión, tipología documental, tipo de letra, (fórmula del) escribano, la presencia de mujeres en la elaboración del documento y palabras clave. Además, la web incorpora un aparato estadístico que permite realizar análisis cuantitativos de carácter cronológico, diastrático y diatópico. Los resultados se pueden exportar directamente a mapas, facilitando así el análisis lingüístico de textos.

El proyecto P. S. Post Scriptum

P. S. Post Scriptum (ps.clul.ul.pt/index.php) es un proyecto de investigación interdisciplinar formado por lingüistas e historiadores que se desarrolla desde el año 2012. Su objetivo fundamental es la creación de dos corpus diacrónicos compuestos por cartas privadas, uno para el español y otro para el portugués. El marco cronológico estudiado es la Edad Moderna, desde el siglo XVI hasta el primer tercio del siglo XIX, y el tamaño del corpus alcanzará al final del proyecto, en 2017, un total de 3500 cartas (un millón de palabras, aproximadamente) para cada lengua.

Estas epístolas constituyen textos inéditos producidos por autores de muy diversa condición social y se conservaron hasta nuestros días como parte de la documentación judicial e inquisitorial de la época, ya que estos tribunales solían hacer uso de la correspondencia privada como prueba instrumental de los delitos que se juzgaban, esto es, para condenar o exonerar a sus autores, a sus destinatarios o a otras personas relacionadas o mencionadas en el contenido de las misivas. Generalmente, la lectura atenta del proceso permite contextualizar la situación comunicativa de la carta, así como trazar un perfil biográfico de autores y destinatarios. Estas fichas biográficas están siendo almacenadas en una base de datos independiente, cuya información es posible cruzar con los datos del corpus.

P. S. Post Scriptum ofrece un recurso digital para el estudio de la escritura cotidiana en España y Portugal durante la Edad Moderna que responda a los intereses de varias disciplinas: la crítica textual, la lingüística histórica y la historia cultural. Actualmente, están disponibles para su consulta los siguientes aspectos:

Toda esta información se integra en una interfaz llamado TEITOK que facilita no solo la consulta de cualquiera de los aspectos mencionados sino también la búsqueda cruzada de los datos. Además de la consulta en línea, el usuario puede descargar libremente los archivos XML con la transcripción (<body>) y el extratexto (<header)> de cada carta, así como los achivos TXT con la parte del corpus que ya ha sido anotada.