El apoyo de las tecnologías numéricas al estudio filológico de las lenguas generales de América del Sur

Vincent Maugis1
v.maugis@gmail.com

Comunicación breve
Corpora y lingüística del corpus


Resumen: el desarrollo de una herramienta para la búsqueda léxica y la consulta comparativa de textos en lenguas guaraní, quechua y tupí de los siglos XVI-XIX amplía las perspectivas de análisis sobre su historia social (externa), semántica y lingüística (interna). No sólo favorece una aproximación lexicográfica y estadística de los textos sino que también renueva las preguntas que los investigadores formulan acerca de los textos. La construcción común entre informático, historiador, antropólogo, filólogo y lingüista en el marco del proyecto LANGAS (Lenguas Generales de América del Sur), financiado por la Agencia Nacional de Investigación en Francia (ANR) entre 2011 y 2016, ha favorecido el intercambio de métodos y de agendas de trabajo.

Palabras claves: Filología numérica; lenguas aglutinantes; análisis lexicográfico; metadatos; paleografía; colaboración interdisciplinar.

Las lenguas generales de América del Sur y el proyecto LANGAS

La colonización española y portuguesa de América del Sur tuvo por efecto lingüístico ampliar la implantación geográfica de algunos idiomas de vasta difusión prehispánica (principalmente el quechua, el aimara, el tupí y el guaraní). Estos fueron los principales medios de comunicación entre indígenas y europeos y permitieron vertebrar nuevos espacios económicos y administrativos.

Calificadas de «generales», estas lenguas sirvieron de interfaces entre la administración colonial y los indígenas, y de vehículos casi exclusivos de la evangelización. Con ese fin fueron convertidas en lenguas escritas y dieron nacimiento a una producción textual rica y variada [1].

El proyecto LANGAS (Lenguas Generales de América del Sur) se dedica al estudio de estos documentos poco explotados hasta ahora pero que constituyen una irremplazable fuente de información para el conocimiento de las sociedades y las culturas indígenas antiguas. En su fase actual, LANGAS se centra en el guaraní y el quechua y presta particular atención al vocabulario político de estos idiomas y a los modos indígenas de expresión de instituciones y conceptos políticos nuevos en las épocas colonial tardía y republicana temprana.

En el proyecto colaboran lingüistas, filólogos, antropólogos e historiadores especialistas del quechua, del tupí, del guaraní y de las regiones donde esas lenguas son o fueron habladas. Al estudiar y cotejar los corpus y textos en estas tres lenguas, se confrontan métodos de análisis y pistas de interpretación. Se procura contribuir así tanto a la historia social de las lenguas como a la historia semántica y cultural.

Para ilustrar el corpus: los textos escritos en guaraní, por ejemplo, durante la época colonial provienen principalmente de las reducciones jesuíticas del Paraguay (1609-1813). Los autores y/o, traductores y scriptores son jesuitas e indígenas. Se conservan y catalogan alrededor de 7 630 páginas, impresas (4200 p.) y manuscritas (3 430 p.): 30% metalingüístico, 50% religioso y 20% de textos no religiosos (administración, medicina, relatos históricos, diálogos).

Los textos se almacenan en una base de datos en línea complementada con un buscador lexical adaptado a cada lengua. Proporciona acceso a las versiones de transcripción paleográfica, transliteración moderna, traducción castellana o portuguesa moderna y transcripción en castellano o portugués original y también al facsímile. El servicio está disponible para el público en un sitio web con interfaz en castellano, francés, guaraní y quechua. Ambiciona ser de interés para los hablantes actuales. Apoya los trabajos de investigación del proyecto LANGAS y pretende ser de utilidad para otros investigadores y estudiantes [2].

Desafíos y logros en la sistematización del análisis del corpus

Colaboración interdisciplinar

El proceso de construcción de la herramienta numérica del proyecto necesitó un diálogo entre los investigadores y con los ingenieros para satisfacer las exigencias metodológicas de las diferentes disciplinas y proporcionar beneficios operacionales distintos para cada especialista mientras conservaba manualidad informática para todos. Por ejemplo, los metadatos pedidos por el historiador les parecían inicialmente pletóricos a los demás investigadores; incorporarlos requirió por una parte demostrar el interés común en cruzar descriptores finos y características textuales y también justificar la importancia de informaciones especializadas (por ejemplo, la pertinencia de la paginación de los textos para la investigación histórica).

Paleografía

Las reglas diplomáticas de transcripción paleográfica relativas en particular a las referencias de páginas, a la disposición textual, a las abreviaciones y a las anotaciones resultan poco adaptadas al procesamiento sistemático de los textos. Por eso estamos ensayando y verificando prácticas desarrolladas en base a las experiencias de otros proyectos y a las obligaciones de cada corpus lingüístico (por ejemplo para el quechua se eligió extender las abreviaciones mientras que para el guaraní se eligió referirse a una lista estructurada) con vistas a ajustar, armonizar y últimamente codificarlas.

Metadatos

El registro de indexación de los textos procura reflejar la riqueza de los recursos y presenta unos cien descriptores relativos a los textos, autores y documentos. Fue estructurado para lograr beneficios inmediatos en términos de búsqueda contextual y de análisis estadístico y para proporcionar capacidad de evolución en términos de disponibilidad para la modelización y para la exposición y el señalamiento de los datos en la web semántica. La definición de los metadatos y su organización satisfacen así los requisitos funcionales más claves del estadio del arte de los registros bibliográficos.

Lenguas aglutinantes

El carácter aglutinante de las lenguas consideradas constituye una primera dificultad a la hora de sistematizar el análisis del corpus. Se añade a ésta la alta heterogeneidad gráfica en la transcripción de las lenguas, la cual surge entre los diferentes textos y también dentro de ellos (de hecho desde la llegada de los europeos en América del Sur esas lenguas se transcribieron fonéticamente con caracteres latinos y una misma palabra era entonces restituida mediante varias grafías). El proyecto desarrolló así un programa compuesto de un motor de inferencia y de una base de reglas para generar todas las grafías teóricamente posibles para restituir una palabra [3].

Búsqueda léxica y consulta comparativa

Los textos se colocan en la base de datos según el nivel de granularidad semántica útil para comparar variaciones morfológicas (sentencia o párrafo). El buscador se basa en las grafías generadas para identificar las ocurrencias (por supuesto también se puede buscar une grafía exacta); se puede dirigir la búsqueda hacia una o varias versiones de los textos. El sistema proporciona estadísticas de distribución según algunos descriptores claves: fechas, autores, lugares y géneros de textos.

Conclusiones y perspectivas

Esa herramienta está todavía en proceso de evolución funcional y alimentación mientras escribimos esta propuesta. El interfaz usuario se beneficiará de ajustamientos ergonómicos y se planifica un servicio estable de generación de grafías para el guaraní y el quechua para finales de 2015; se prevé desarrollar luego el programa para el tupí. El ingreso de textos a la base y la alimentación de los registros son continuos; cuenta ahora con el tres por ciento del corpus actualmente disponible.

La colaboración interdisciplinar acerca del desarrollo de la herramienta instauró una dinámica virtuosa en los trabajos del proyecto. En cuanto a la sistematización del análisis morfológico, fue necesario poner al día la formalización del sistema fonológico del guaraní primero para deducir reglas para la generación de grafías. Además, las reflexiones sobre los descriptores de las características gramaticales de los textos llevaron a formular la hipótesis de sociolectos y de fragmentación dialectal.

Aun si sobran dificultades por solucionar en los campos lexical y sintáctico, resultan significativos los avances en la sistematización del análisis morfológico y los primeros logros ya proporcionan un terreno prometedor para preparar la extensión del ejercicio al campo semántico. Se buscará en primer lugar alinear los resultados de la lematización de las grafías generadas desde el índex del corpus con las grafías modernas de las entradas de los diccionarios históricos.

Para terminar, el proyecto también estudia más pistas numéricas para mejorar la eficacia de sus trabajos, en particular para apoyar la transcripción paleográfica. El procesamiento gráfico de los facsímiles numerizados, el reconocimiento de formas y la asistencia al desciframiento podrán proporcionar ayuda para extraer los textos de aquellos documentos más largos.

Referencias

[1] Capucine Boidin, Géraldine Méret y Graciela Chamorro. Introducción al dossier “Fuentes en lenguas amerindias de América del Sur”. Corpus Archivos de la alteridad americana Vol. 4, No 2, 2014.

[2] LANGAS (sitio web): http://www.langas.cnrs.fr/

[3] Marc Thouvenot. Nahuatl, informatique et TEOMA. AMERINDIA n°17, 1992.