Propuesta de una metodología para la extracción y creación de Gazetteers de entidades de nombre de forma automática en corpus de documentos medievales castellanos

José Antonio Moreiro González
joseantonio.moreiro@uc3m.es
Universidad Carlos III de Madrid
M Eugenia Iglesias Moreno
meugenia.iglesias@uc3m.es
Universidad Carlos III de Madrid
Sonia Sánchez Cuadrado
ssanchec@gmail.com

Comunicación breve
Corpora y lingüística del corpus


El objeto principal de esta comunicación es presentar la propuesta metodológica seguida en un trabajo en curso para el  diseño y creación de un gazetteer o base de datos de entidades de nombre (EN), Named Entities (NE) en inglés, contenidas en un corpus de documentos medievales. En su ejecución se ha partido de la anotación y extracción automática de los nombres propios contenidos en el corpus de documentación medieval que conforma el Libro Becerro de las Behetrías de Castilla (corpus LBB) utilizando herramientas de procesamiento del lenguaje natural (PLN). Para conseguirlo se ha empleado una adaptación de la aplicación de PLN Freeling a las características de las estructuras de las EN en castellano romance.

Metodología empleada

La metodología ha seguido tres etapas.

Etapa 1. Estudio de las características de las entidades de nombre del corpus LBB.

Esta primera fase se centra en el análisis de las características del corpus LBB y de las entidades de nombre que aparecen en él. Se ha tenido especial cuidado en identificar los elementos que podrían plantear problemas en el posterior tratamiento automático con la aplicación de PLN.

El corpus LBB está compuesto por 2.109 documentos correspondientes al registro de más de dos mil poblaciones castellanas, agrupadas en quince merindades localizadas en el territorio castellano situado al norte del Duero (Estepa Díez, 2003). Está escrito en castellano romance del siglo XIV y contiene un número de EN de personas, lugares e instituciones que permite  la posibilidad de estudiar las diferentes estructuras y grafías utilizadas en la baja edad media. Contiene un total de 210.609 tokens, de los que 4.460 son diferentes.

En primer lugar, se determinó un corpus que permitiese la identificación y anotación de forma manual de los nombres propios y que posteriormente se utilizará para la evaluación de los datos obtenidos en el proceso automático. Este corpus de evaluación está integrado por 325 documentos con 35.556 palabras, que representan un 17,07% del total del corpus LBB (208.278 palabras).

Este estudio de las entidades de nombre se ha dividido en dos grupos: las que vienen definidas por estructuras determinadas por elementos como nombre, apellido, topónimo, etc. y las que se identifican mediante una trigger-word o disparador (“fiio de”, “sennor de”, “cerca de”, etc.). Teniendo en cuenta que las trigger-words pueden ser de dos tipos:

Así, una entidad de nombre de persona como Garçi Ferrandez Sarmieinto puede además aparecer en el texto dentro de otra entidad de nombre identificada mediante una trigger-word como fiio de Garçi Ferrandez Sarmieinto.

Para evitar problemas en el reconocimiento y clasificación de las EN, en el proceso automático posterior, se han tenido en cuenta los principales problemas de ambigüedad que presenta su tratamiento respecto a la sinonimia, homonimia y variación gráfica. Esta ambigüedad se puede observar en las diferentes formas que presenta un mismo nombre a lo largo del corpus como  Ruy Gonçalez y Ruy Gonçalez de Castanneda, o diferentes personas o lugares con el mismo nombre, Alfonso Ferrandez, fiio de Iohan Alfonso de Fuydobro y Alfonso Ferrandez, fiios del ama.

En función de las reglas que presentan las entidades de nombre una vez detectados los problemas de ambigüedad para su tratamiento, se ha optado por un proceso de etiquetado manual. Éste método aunque más costoso resulta más preciso (Kilgarriff, 2003) porque ofrece la oportunidad al anotador humano de detectar y resolver los problemas de ambigüedad seleccionando la posibilidad más adecuada de acuerdo con su contexto de aparición.

Partiendo del concepto de clasificación semántica establecida en MUC-7 (Chinchor, 1997) se decide utilizar el estándar de las etiquetas EAGLES para la categoría “Nombres “, que identifica un nombre propio con NP seguido de 0 para género, 0 para número, dos dígitos para la clasificación (SP persona, G0 lugar, O0 organización y V0 otros) y 0 para el grado. Así por ejemplo, la etiqueta para una entidad de persona sería NP00SP0 (Figura 1). Se han etiquetado 1929 entidades de las que 961 (49,82%) corresponden a la categoría de personas, 494 (25,61%) a lugares, 403 (20,89%) a organizaciones y 71 (3,68%) a otros (Tabla 1).

Etapa 2. Etiquetado y extracción automática de las entidades de nombre del corpus.

Basándonos en los resultados obtenidos en la primera aproximación que planteamos en Iglesias Moreno, Azcárate Aguilar-Amat y Sánchez Cuadrado (2014), se realizó el proceso de etiquetado morfológico y clasificación de las EN con la adaptación de la aplicación de PLN, Freeling, versión 3.1. Para ello, se utilizó  el programa Analyzer, con las librerías para español estándar y la variante diacrónica del español de los siglos XII al XVI (Sánchez-Marco, Boleda y Padró, 2011). La adaptación se basó en la ampliación de diccionarios y en la modificación de módulos (Named Entity Recognition, Named Entity Classification, Multiword Recognition, User Map) para acercarlos a las características de las estructuras de las entidades de nombre obtenidas en la primera etapa de esta propuesta.

Para la evaluación de los resultados en todas las tareas desarrolladas en este método se han utilizado parámetros e indicadores cuantitativos a partir de métricas conocidas y efectivas como la Precisión, Cobertura o Recall y F-measure, definidas en las conferencias MUC, IREX y CoNLL.

Etapa 3. Diseño y creación de la base de datos o Gazetteer.

Como sistema de almacenamiento y recuperación de las entidades de nombre extraídas de forma automática a partir del etiquetado y clasificación con Freeling 3.1, mediante un script en Shell linux, se optó por la creación de un Gazetteer en forma de base de datos. Se utiliza el sistema gestor de base de datos relacional (RDBMS) MySQL que permite su posterior integración en un sistema de tratamiento de corpus para resolver problemas de desambigüación o la publicación en web de los resultados de las búsquedas con el lenguaje de programación PHP (Hypertext Preprocessor).

Las entradas del diccionario o gazetteer se estructuran en torno a los siguientes elementos:

  1. ID
  2. Forma canónica NE
  3. Variantes: NE con sus diferentes grafías en el texto
  4. Formas sinónimas: NE de las que forma parte en la que adquiere otro sentido semántico (Por ejemplo: topónimos que forman parte del nombre de persona)
  5. Grafía actual: NE con la grafía actual
  6. Etiquetas semánticas
  7. Trigger-words

Se diseñan formularios que permiten realizar búsquedas por entidades, documentos o merindades. Ofreciendo como resultado parte del texto dónde aparecen, su frecuencia y variantes, así como las trigger-words.

En conclusión, mediante esta propuesta se puede realizar el reconocimiento, clasificación y puesta a disposición en web de las entidades de nombre contenidas en un corpus de documentación bajomedieval castellana utilizando software libre que permita a los investigadores su modificación y adaptación a otros proyectos dentro de las Humanidades Digitales. Además, ofrece la ventaja de no suponer una formación tecnológica y capacidad técnica para el investigador humanista que puede obtener soluciones con la adaptación de los módulos de la aplicación de PLN con el propósito de aumentar el nivel de precisión y disminuir la supervisión en el proceso.

Bibliografía

Estepa Diez, C. 2003. Las behetrías castellanas. Valladolid: Junta de Castilla y León, Consejería de Cultura y Turismo. 2 vols.

Chinchor, N., & Robinson, P. 1997. MUC-7 named entity task definition. In Proceedings of the 7th Conference on Message Understanding (p. 29).

Iglesias Moreno, M.E., Azcárate Aguilar-Amat, P. y Sánchez-Cuadrado, S., 2014. Primera aproximación para la extracción automática de Entidades Nombradas en corpus de documentos medievales castellanos. Humanidades Digitales: desafíos, logros y perspectivas de futuro, Sagrario López Poza y Nieves Pena Sueiro (editoras), Janus [en línea], Anexo 1 (2014), 229-238, publicado el 11/04/2014, consultado el 14/04/2015. URL: http://www.janusdigital.es/anexos/contribucion.htm?id=21

Kilgarriff, A., 2003. What computers can and cannot do for lexicography, or Us precision. them recall. Tech. Rep. ITRI-03-16, Information Technology Research Institute, University of Brighton. Also published in Proceedings of ASIALEX.

Martínez Díez, G.,1981. Libro becerro de las behetrías: Estudio y texto crítico. León: Centro de Estudios e Investigación “San Isidoro”. 3 vols.

Sánchez-Marco, C., Boleda, G., y Padró, L. 2011. Extending the tool, or how to annotate historical language varieties. Paper presented at the Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities, pp. 1-9.