Desarrollo de software de etiquetado y alineación textual: TRACE Corpus Tagger / Aligner 1.0©

Camino Gutiérrez Lanza
mcgutl@unileon.es
Universidad de León
Elena Bandín Fuertes
ebanf@unileon.es
Universidad de León
José Enrique García González
jegarcia@us.es
Universidad de Sevilla
Sergio Lobejón Santos
sergio.lobejon@outlook.com

Comunicación larga


Esta propuesta de comunicación presenta un trabajo desarrollado en el Proyecto de Investigación (REF FFI2012-39012-C04-03) de la Universidad de León titulado “Traducción inglés-español y censura en España (TRACE 1939-1985): cadenas textuales y contexto cultural”, dirigido por la Dra. Camino Gutiérrez Lanza. 

El equipo de investigación TRACE analiza la traducción y censura de diversos tipos textuales (narrativa, poesía, teatro, cine y televisión) importados en nuestro país desde 1939 hasta 1985, año en que se produjo el cese definitivo de los mecanismos burocráticos de censura heredados de la etapa franquista. Al contemplar los hechos de traducción desde una perspectiva histórica, el campo de acción del equipo TRACE se sitúa en un punto intermedio entre el estudio de los propios textos y el de los datos contextuales que rodean su producción y recepción. Además de la realización de análisis (con)textuales, uno de los principales objetivos del proyecto es el desarrollo de herramientas que faciliten la realización de dichos análisis. Para dar respuesta a estas necesidades, el equipo de trabajo se ha configurado desde una perspectiva interdisciplinar, integrando en el núcleo inicial de investigadores en filología y traducción a otros miembros del ámbito de la documentación, las humanidades digitales y la informática. 

La metodología utilizada en el análisis de la traducción y censura de los diversos tipos textuales es la propia de los Estudios Descriptivos de Traducción basados en catálogos y en corpus. En primer lugar, se ha realizado una exhaustiva recopilación y catalogación de datos sobre los textos originales en inglés, sus traducciones al español y su censura y recepción durante la época objeto de estudio. Toda esta información (unos 30000 registros) se ha recogido en forma de diferentes catálogos informatizados para cada tipo textual, que en la actualidad están en proceso de fusión en la Base de Datos TRACE-ULE. La realización de diversos estudios preliminares sobre los datos catalogados justifica la identificación de grupos homogéneos de textos y la selección de ciertos textos representativos de cada grupo, que constituyen el corpus de originales y traducciones objeto de estudio.

Aunque en un principio los análisis textuales descriptivo-comparativos de las traducciones con sus respectivos originales se realizaron de forma manual, para facilitar tanto la construcción del corpus como la realización de dichos análisis, se ha desarrollado el programa de ordenador (PO) denominado TRACE Corpus Tagger/Aligner 1.0©. En esta comunicación describiremos su diseño y desarrollo, presentaremos su interfaz y haremos una demostración de su funcionamiento. 

El TRACE Corpus Tagger / Aligner 1.0© ha sido desarrollado para el etiquetado y alineamiento de pares de textos de narrativa, poesía y dramáticos/audiovisuales (teatro, cine y televisión). El soporte de software de usuario final es una aplicación java, que puede ejecutarse en cualquier máquina virtual Java (JVM) independientemente del sistema operativo y de la arquitectura de la computadora subyacente.

El PO consta de tres bloques fundamentales: etiquetador, alineador y herramienta de análisis y exportación de resultados. Es una aplicación de escritorio basada en la metodología del TEI (Text Encoding Initiative) y diseñada para el etiquetado automático de los diferentes tipos textuales mencionados, almacenados en formato digital. Una vez preparados los textos para que su formato sea reconocido por el etiquetador, se cargan los archivos .txt en la aplicación y, de manera automática, obtenemos como resultado un archivo .xml. El etiquetador realiza un marcado estructural de los textos que permite hacer búsquedas basadas en la estructura de los documentos y su posterior alineación, teniendo en cuenta las etiquetas utilizadas (<s>, <p>, <sp>, <stage>, <speaker>, etc.) y los fragmentos textuales identificados. Así, los archivos .xml de los pares textuales se cargan en el alineador y de forma automática aparecen los textos alineados. No obstante, el investigador puede modificar el resultado obtenido por medio de diferentes opciones: unir o separar las unidades alineadas e insertar unidades en blanco. Una vez concluido el proceso se puede o bien guardar el trabajo realizado en un archivo .tmx, o generar un archivo .html que muestre el resultado de la alineación.

El TRACE Corpus Tagger / Aligner 1.0© se ha diseñado teniendo en cuenta los distintos tipos textuales con los que trabajan los investigadores y permite, a diferencia de otros productos, tomar como unidad de alineación el párrafo o la oración en el caso de textos narrativos, o la réplica, en el caso de textos audiovisuales y teatrales, y permite aislar los fragmentos de diálogo de los puramente descriptivos en los textos narrativos o de las acotaciones en los textos audiovisuales y dramáticos, lo que facilita el estudio comparativo de los fenómenos de traducción que nos interesa analizar. Dadas las características del programa, que opera gracias a la identificación de unidades de tipo estructural, una de sus principales ventajas es que se puede utilizar para el etiquetado y la alineación de pares de textos en la misma lengua o en diversas combinaciones de lenguas y en cualquier dirección (por ejemplo, español>inglés, inglés>español o español>español). Por lo tanto, aunque su principal utilidad hasta la fecha ha sido la investigación de la traducción y censura para la combinación inglés-español de los tipos textuales que hemos comentado, también se puede utilizar para la realización de otros estudios de corte descriptivo y/o para diferentes combinaciones de lenguas.

Consideramos, por todo ello, relevante la presentación de esta nueva herramienta tecnológica a la comunidad científica en el marco del II Congreso Internacional de la asociación Humanidades Digitales Hispánicas.