Construcción de una base de datos y un repositorio de documentos de investigación para el proyecto TRACE

Alejandro Bia Platas
abia@umh.es
Universidad Miguel Hernández
Jesus Javier Rodríguez Sala
jesuja.rodriguez@umh.es
Universidad Miguel Hernández
Ramón P. Ñeco García
ramon.neco@umh.es
Universidad Miguel Hernández

Comunicación breve
Bases de datos


El presente trabajo describe el proceso de creación de una biblioteca digital para investigadores, que comprende una base de datos de datos de investigación de humanidades, y un repositorio de documentos de investigación asociados a estos datos.

A diferencia de una biblioteca digital convencional, la base de datos de esta aplicación abunda en campos de datos con datos de investigación especializados y detallados. Las relaciones entre las tablas de la base de datos también son complejas, lo que refleja las necesidades de los investigadores y la complejidad inherente a la realidad que estos datos representan.

Los usuarios objeto de esta aplicación es un grupo de cerca de una veintena de investigadores que trabajan en el análisis contrastivo de corpus bilingües paralelos. Su investigación se centra en varios aspectos de la traducción en el que comparan traducciones entre diferentes idiomas creadas bajo la censura, durante la época franquista. Los idiomas incluidos son el español, inglés, francés y el euskera. Además, se tratan varios géneros y tipos de obra, desde narrativa a obras escénicas (teatro, películas y guiones de televisión), y en algunos casos incluso hasta letras de canciones.

La base de datos de la biblioteca digital tiene que incluir no sólo las obras originales, sino que también sus múltiples traducciones a diferentes idiomas. Los datos se obtienen de varias fuentes, siendo el Archivo General de la Administración (AGA) la más frecuente.

Debido a la variada naturaleza de las obras (teatro, cine, libros) y el gran número de investigadores, la situación de partida era en cierto modo caótica, ya que cada investigador poseía una base de datos de carácter personal que, a pesar de ser similar a las bases de datos del resto de los investigadores del grupo, presentaba algunas diferencias derivadas de la naturaleza particular de su propio trabajo. Además, el grupo utilizaba dos tecnologías de bases de datos diferentes: Microsoft Access y FileMaker. Esta situación hizo que la integración de las diferentes bases de datos individuales en una única base de datos integrada para la aplicación (mySQL), fuera una tarea muy difícil.

En este trabajo, vamos a discutir las decisiones de diseño que debieron tomarse para evitar o minimizar estos problemas, y la experiencia que hemos adquirido en el proceso. Uno de los aspectos más interesantes del desarrollo de esta aplicación, fue la realimentación cruzada entre los humanistas y los ingenieros de software. En muchos casos hemos tenido que elegir entre lo que los diseñadores de software consideran un diseño de base de datos óptimo, y lo que los humanistas necesitan para poder representar su base de conocimientos.

Un ejemplo de este tipo de dificultad, lo experimentamos a la hora de reducir la información redundante en el diseño de la base de datos de la aplicación, mediante la creación de un tipo de registro de usos múltiples que pudiera contener información de los diferentes tipos de obras (libros, guiones escénicos, etc.), y al mismo tiempo ser capaz de presentar visualizaciones diferenciadas para cada uno de ellos.

También vamos a tratar el gran número de consultas diferentes que la aplicación debe ser capaz de resolver, desde consultas sobre las obras originales, a consultas sobre las obras derivadas (por ejemplo, traducciones).

Una característica de este proyecto, es la necesidad de tratar con diferentes roles y responsabilidades relacionadas con los diferentes géneros literarios (autores, editores, directores, actores, etc.). La existencia de diferentes títulos para una misma obra, incluyendo títulos traducidos, es otra de las características más comunes. Vamos a explicar cómo nos ocupamos de los nombres de persona y de los títulos, reales y normalizados.

En resumen, este trabajo describe la experiencia adquirida al reducir la brecha entre una biblioteca digital convencional, y una biblioteca con requisitos especializados de investigación en humanidades.

Agradecimientos

Este trabajo ha sido desarrollado dentro del proyecto TRACEsofTools (herramientas informáticas para análisis contrastivo de textos en corpus bilingües paralelos: alineación y marcado automático, y minería de datos semiestructurados y metadatos), y financiados con la ayuda FFI2012-39012-C04-02 del VI Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnológica del Ministerio de Economía y Competitividad de España.