TEIdown: Uso de Markdown extendido para acelerar la creación de documentos TEI

Alejandro Bia Platas
abia@umh.es
Universidad Miguel Hernández
Ramón P. Ñeco García
ramon.neco@umh.es
Universidad Miguel Hernández

Comunicación larga
Digitalización, creación de recursos


Crear nuevos documentos XML (eXtensible Markup Language) desde cero, o a partir de texto plano, puede ser una tarea difícil, lenta y propensa a errores, sobre todo cuando el vocabulario de marcas utilizado es rico y complejo, como es el caso de la norma TEI (Text Encoding Initiative), cuyo vocabulario posee más de 500 etiquetas diferentes. Por lo general, lleva bastante tiempo lograr que el nuevo documento TEI valide por primera vez, y los errores que aparecen pueden ser muchos y difíciles de encontrar y reparar.

Hace un par de décadas, el SGML (Structured Generalized Markup Language) permitía ciertas libertades a los codificadores de documentos, orientadas a ahorrar tiempo y esfuerzo, como por ejemplo, dejar ciertas etiquetas sin cerrar, u omitir las comillas en los valores de algunos atributos. En este sentido, el SGML era más permisivo que el XML. Esto era bueno para los codificadores de documentos, pero hacía que el desarrollo de programas de análisis y procesamiento de documentos SGML fuera una tarea muy complicada, por el número y tipo de reglas de inferencia que estos programas debían incorporar. Por el contrario, el XML, al ser mucho más restrictivo y no permitir todas las libertadas que permitía el SGML, posee una sintaxis más previsible y en consecuencia más fácil de procesar, lo cual contribuyó a su rápida popularidad.

Por otro lado, en el mundo de las Wikis (sitios web donde el lector puede editar y agregar contenidos directamente a través del navegador web), surgieron varias “notaciones Wiki” (wiki-languages), con el fin de simplificar o evitar por completo el uso de etiquetas HTML en la edición de textos para la web. Entre estas notaciones breves, el Markdown es una de las más recientes, y ha sido ampliamente aceptada e incorporada por muchos proyectos importantes. Su objetivo, al igual que otras notaciones Wiki, es evitar escribir etiquetas HTML, pero en el caso del Markdown se insiste además en que la legibilidad del texto se mantenga intacta.

Uniendo el espíritu del SGML, y los principios del Markdown, hemos creado el proyecto TEIdown, que consiste en una ampliación del Markdown para obtener una sintaxis abreviada que sirva para la creación rápida de documentos XML-TEI, y en la creación de los programas de procesamiento correspondientes para llevar a cabo dicha conversión. Con este enfoque, es fácil obtener un documento TEI válido en un tiempo reducido, evitando pasar por una larga lista de errores de validación.

Este enfoque, sin embargo, tiene algunas limitaciones. Fue pensado para procesar las etiquetas más comunes, como las utilizadas para marcar textos en prosa y en verso, y las más comúnmente usadas en el teiHeader (el cabezal de metadatos de los documentos TEI). En resumen, las etiquetas más frecuentes de la DTD teixlile.dtd. Para aplicaciones más especializadas, como el marcado de manuscritos, es necesario agregar más etiquetas a mano después de la conversión inicial, pero incluso en estos casos se ahorra una cantidad significativa de tiempo en la creación del documento TEI.

En la presentación se describirá la notación Markdown extendida, el proceso de transformación a TEI, y las características de los documentos TEI resultantes. También vamos a hablar sobre los beneficios y limitaciones de esta técnica.

Agradecimientos

Este trabajo ha sido desarrollado dentro del proyecto TRACEsofTools (herramientas informáticas para análisis contrastivo de textos en corpus bilingües paralelos: alineación y marcado automático, y minería de datos semiestructurados y metadatos), y financiados con la ayuda FFI2012-39012-C04-02 del VI Plan Nacional de Investigación Científica, Desarrollo e Innovación Tecnológica del Ministerio de Economía y Competitividad de España.