De la preservación digital al acceso semántico de documentos históricos

Ana García Serrano
agarcia@lsi.uned.es
ETSI Informática. UNED
A. Castellanos
acastellanos@lsi.uned.es
ETSI Informática. UNED
J. Cigarrán
juanci@lsi.uned.es
ETSI Informática. UNED

Comunicación larga
Análisis de contenido


Resumen: se introduce y contextualiza la estructuración basada en contenidos que se ha realizado sobre las casi ocho mil fichas (documentos estructurados) en castellano de la Colección de Mapas, planos y dibujos del Archivo General de Simancas (AGS) para ayuda a la investigación en el proyecto DIMH (HAR2012-31117).

Palabras clave: Estructuración de la información; aplicaciones web.

Las aplicaciones software se incorporan a las Humanidades Digitales (HD), tras una primera etapa orientada a la preservación digital de los documentos históricos (J. Drucker et al, 2014), (I. Ruthven and G. Chowdhury, 2014). Una vez que se han digitalizado y anotado los documentos por humanistas expertos en cada tema, hay que gestionar estas fuentes de información para su acceso, visualización y explotación por parte de los usuarios. Por lo tanto, para el desarrollo deaplicaciones que utilicen estos datos es necesario responder a las siguientes preguntas, que dependen fundamentalmente de la tarea u objetivo a resolver:

La representación y el modelado de los datos para su uso compartido en la web, se basan en estándares que permiten su acceso por agentes o aplicaciones software y personas. Estos estándares incluyen por ejemplo a los metadatos (datos que describen a los datos reales), los términos “conocidos” de vocabularios de temas concretos, nombres de personas, etc.

En la Colección de Mapas, planos y dibujos del Archivo General de Simancas (AGS) se dispone de 7792 fichas con la información textual incluida en metadatos (RDF-DC) (www.mcu.es/ccbae/es/consulta/busqueda.cmd). Por ejemplo en la ficha 176927 se lee (todos los términos entre los caracteres < y > son del metalenguaje):

<rdf:Description>
<dc:relation>Referencias: Mapas, planos y dibujos (Años 1503-1805). Volumen I : p. 576</dc:relation>
<dc:coverage>La Habana</dc:coverage>

<dc:coverage>S.XVIII</dc:coverage>
<dc:title>Plano y perfiles que manifiestan el estado en que se alla la Real obra de Fuerte-Príncipe en 30 de Junio de 1779 [Material gráfico no proyectable]</dc:title>
<dc:description>AGS. Secretaría de Guerra, Legajos, 03222. Acompaña a carta y relación delas obras de don Luis Huet al Conde de Ricla de 1 de julio y de la misma fecha del plano</dc:description>
<dc:description>Tinta y colores a la aguada ocre y encarnado. Explicación con clave alfabética</dc:description>
<dc:description>Manuscrito sobre papel.</dc:description>
<dc:type>Ilustraciones y Fotos</dc:type>
<dc:language>spa</dc:language>
<dc:date>1779</dc:date>
<dc:creator>Huet, Luis</dc:creator>

En el marco del proyecto El dibujante ingeniero al servicio de la monarquía hispánica. Siglos XVI-XVIII (DIMH) (dimh.hypotheses.org/), tras una etapa de familiarización del corpus AGS, y enriquecimiento lingüístico de las fichas (en XML-RDF), se desarrolló y publicó una aplicación web para búsquedas configurables (parametrización de la estructura de los documentos del corpus y sobre el tipo de información lingüística o no contenida en el corpus).

albali.lsi.uned.es/DemoSimancasConfigurableWS/

Tras el proceso de anotación (codificación de las fichas) y búsqueda es momento de preguntarse ¿Qué ventajas recibe el humanista de esta codificación? La respuesta es: las aplicaciones que facilitan la estructuración de la información, concepto que va más allá de un primer nivel de estructuración como es la segmentación, identificación o anotación de cadenas de símbolos o datos.

 

El objetivo de la estructuración de la información es identificar, ordenar y crear modelos de conocimiento sobre la base de técnicas de: clasificación, clustering y otras. Con estas técnicas o procesos automáticos los resultados no son neutrales y están influenciados por la tarea en la que van a ser usados.

Las técnicas de clasificación permiten organizar colecciones de objetos, identificar sus características comunes y discriminantes y denotar los objetos de forma consistente. Un modelo de clasificación muy utilizado es la taxonomía, que es básicamente un sistema de denotación de objetos (cada una de las etiquetas de los niveles constituyen un vocabulario controlado).

Taxonomía sobre la ciencia (vista parcial)

Las ontologías son modelos de conocimiento que estructuran la información en una jerarquía. Son difíciles de construir pero si se construyen y reutilizan, ¡son muy útiles! (P. Cimiano, C. Unger, J. McCrae, 2014). Sin embargo tanto en las taxonomías como en las ontologías para su construcción es necesario disponer de todo el conocimiento relacionado con los objetos a clasificar. El Consorcio WWW (W3C) mantiene el RDF Resource Description Framework, metalenguaje para codificar ontologías, denominándose base de conocimiento a una ontología con los ejemplares de sus clases (o instancias).

Las ontologías sentaron las bases para la construcción de la web semántica, y algunas permiten la población del LOD cloud. Por ejemplo, el proyecto DBpedia ha generado información semántica a partir de la wikipedia inglesa y desde el 2011 (wiki.dbpedia.org/Documentation) extrae información de wikipedia en 15 de sus versiones (idiomas). Uno de ellos es el español y tiene asignado un sitio web y un SPARQL Endpoint (es.dbpedia.org/sparql) para hacer las consultas, sobre sus 100 millones de tripletas RDF. Tanto en DBpedia como en cualquier otro nodo del LOD, se consulta con un lenguaje de acceso estándar como es el SPARQL, bastante lejano al lenguaje natural.

Las técnicas de clustering persiguen agrupar los datos de manera automática de acuerdo a similitudes, correferencias o paralelismos que se puedan encontrar entre ellos. Por ejemplo, es esperable que dos documentos compartiendo un vocabulario similar pertenezcan a la misma categoría. Relacionada también con la organización automática de los datos está la aplicación de técnicas probabilísticas (tales como LDA), ampliamente utilizadas en el campo de las humanidades digitales (Yang et al 2011, Meeks y Weingart 2012). Este tipo de técnicas asume que existe una estructura latente en los datos basada en el conjunto de temáticas que estos abordan. Así mismo cada una de las temáticas es definida por la distribución de términos (de entre los incluidos en los datos) que mejor la representa. Por lo tanto, cada uno de los documentos individuales puede ser expresado mediante una distribución probabilística a lo largo del conjunto de temáticas latente. La organización de los datos quedará pues reducida a encontrar la estructura latente que mejor defina a dichos datos.

A diferencia de otras de las ya citadas técnicas (clasificación u ontologías), las aproximaciones probabilísticas o las basadas en clustering no requieren de información previa. Es decir, no es necesario que se establezca a priori las clases o se defina el modelo ontológico necesario para estructurar los documentos. Sin embargo, estas técnicas presentan también algunas desventajas. Es necesario parametrizar el funcionamiento de los algoritmos para crear la representación final de los datos, por ejmeplo el número de clusters (o grupos) en los cuales se desea estructurar los datos. Aquellos algoritmos que no lo requieren, sí que necesitan establecer de manera manual algún criterio de parada o de selección final de los clusters a generar. Del mismo modo, las técnicas probabilísticas en general como Latent Direchlet Allocation (LDA), necesitan que se establezca el número de temáticas que los datos abordan. Además, estas técnicas sufren el problema de dificultad en el análisis de los resultados ya que la estructura latente detectada a menudo no se corresponde con conceptos reales o entendibles por las personas. En consecuencia, la organización resultante tiene que ser analizada por expertos para interpretar su significado (Mimno 2012, Newman y Block, 2006).

Como lo deseable es contar con técnicas que automáticamente infieran la estructura desde los datos, en este trabajo se utiliza el Análisis de Conceptos Formales (o FCA por sus siglas en inglés). FCA permite organizar un conjunto de datos mediante la inferencia de relaciones entre los mismos de acuerdo a las características que los describen (Wille 1992): dado un conjunto de documentos representado por un conjunto de características (texto, metadatos…), FCA agrupa (en conceptos formales) a aquellos documentos que comparten el mismo grupo de características. Además es posible definir una relación de orden parcial sobre dichos conceptos formales, lo que permite ordenarlos en una representación jerárquica (retículo). La estructuración de los datos resultado, que se basa en conceptos definidos por la serie de características que han dado lugar a su creación, es fácilmente entendible.

En el proyecto DIMH, se ha realizado el diseño, desarrollo e implementación de un modelo basado en conceptos utilizando la técnica FCA, que pertenece a la misma área de investigación que la técnica LDA, ampliamente utilizada en el campo de las Humanidades Digitales. Una de las ventajas sobre LDA, es que no es necesario decidir a priori el número de conceptos o nodos de la estructura en red que se genera. La aplicación de la tecnología basada en FCA a los metadatos de la colección AGS, permite la organización de los contenidos en base a “conceptos formales” o grupos de objetos (fichas correspondientes a mapas, planos y dibujos) y sus atributos o términos elegidos automáticamente o manualmente. En el ejemplo pueden observarse los conceptos formales asociados a los mapas de la colección AGS (con indicación del número de fichas que incorporan.

albali.lsi.uned.es/DIMHDemo/

Las siguientes tareas a abordar en el proyecto DIMH son la evaluación de los resultados por parte de los humanistas, el refinamiento del proceso y su visualización.

Referencias:

 P. Cimiano, C. Unger, J. McCrae, Ontology-Based Interpretation of Natural Language (Synthesis Lectures on Human Language Technologies), 2014 www.ontosem.net/book/

 J. Drucker et al, Introduction to digital Humanities, dh101.humanities.ucla.edu, 2014

 Meeks, E., Weingart, S. The digital humanities contribution to topic modeling. Journal of Digital Humanities 2(1), 1 –6 (2012)

 Mimno, D. Computational historiography: Data mining in a century of classics journals. Journal on Computing and Cultural Heritage (JOCCH) 5(1), 3 (2012)

 Newman, D.J., Block, S. Probabilistic topic decomposition of an eighteenth-century american newspaper. Journal of the American Society for Information Science and Technology 57(6), 753–767 (2006).

I. Ruthven and G. Chowdhury, Cultural Heritage Information Access and Management. ISBN: 978-1 - 85604-930-6, 2014. http://www.facetpublishing.co.uk/title.php?id=9306&category_code=402 

 Wille, R. Concept lattices and conceptual knowledge systems. Computers & mathematics with applications 23(6), 493–515 (1992)

Yang, T.I., Torget, A.J., Mihalcea, R. Topic modeling on historical newspapers. Proc. 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. pp. 96– 104. ACL (2011)