Video4ELE-UNED. Recuperación y análisis de información multimedia en español académico

Victoria Marrero Aguiar
vmarrero@flog.uned.es
UNED
Víctor Fresno Fernández
vfresno@lsi.uned.es
UNED
M. Antonieta Andión Herrero
maandion@flog.uned.es
UNED
José Luis Fernández Vindel
jlvindel@dia.uned.es
UNED

Comunicación breve
Corpora y lingüística del corpus


Motivación

El desarrollo de aplicaciones multimedia constituye uno de los puntos centrales de expansión en las humanidades digitales, entendidas como una “humanización” de la tecnología” (Rodríguez-Yunta, 2013, 38), en la que se atiende específicamente al componente humanístico, y no solo tecnológico, para potenciar la investigación en humanidades mediante el uso de recursos digitales. Esta comunicación muestra cómo emergen nuevas capacidades para la actividad humanística al aprovechar los recursos tecnológicos, tanto mediante relaciones de aplicación como epistemológicas de investigación (McCarty, 2005: 119, citado por Rojas Castro (2013).

Recuperación de información lingüistica de subtítulos y fragmentos de vídeo sincronizados

La aplicación Video4ELE-UNED es el primer producto de un proyecto más amplio (Sistema de  Acceso y Recuperación de la Información Lingüística en Repositorios Académicos Multimedia con Aplicaciones a la Enseñanza del Español como Lengua Extranjera. SARILRAM-ELE) con el que estamos construyendo un sistema de recuperación de la información lingüística procedente de repositorios multimedia de carácter académico (videos subtitulados) generando una plataforma específica de investigación y servicios que optimice recursos propios ya existentes.

Contamos como punto de partida con una gran base de datos, resultado de la programación semanal de la UNED en Televisión Española desde el curso 2010-2011. En su conjunto son 7.631 vídeos de muy diversa índole, aunque en esta primera fase del proyecto hemos analizado únicamente un total de 1.514 vídeos. 

El subtitulado asociado a los mismos (que ha sido desarrollado bajo supervisión de expertos y cuenta con una gran calidad) ha generado 236.000 transcripciones, en las cuales encontramos casi 65.000 unidades léxicas diferentes. Los textos han sido etiquetados morfológicamente (mediante las herramientas contenidas en el paquete Freeling, que utiliza las etiquetas de EAGLES (Padró y Stanilovsky, 2012) y fonéticamente mediante el transcriptor Aucel, desarrollado por López Morràs (aucel.com/pln).

En esta presentación se mostrará el prototipo en funcionamiento, con sus utilidades actuales: 

Al recuperar la información en cualquiera de los tres tipos de búsqueda el sistema devuelve los fragmentos de video, audio y subtítulos correspondientes, perfectamente sincronizados, lo cual permite acceder a información visual y auditiva, oral y escrita, fonética, léxica y textual de manera simultánea.

Características generales del corpus UNED-ELE. Comparación con el CREA

Desde el punto de vista léxico-semántico, en comparación con el Corpus de Referencia del Español Actual (CREA), de la Real Academia Española, se observan varios rasgos interesantes:

Tabla 1. Posición relativa de términos en ambos corpus
TérminoPosición en UNED-ELEPosición en CREA
universidad87508
educación121483
investigación144491
estudiantes1871.197
formación190781
ciencia204855

Desde el punto de vista de la combinatoria de categorías gramaticales: hemos recogido más de 5.500 patrones con frecuencia mayor que cero para un total de 10.648 combinaciones posibles. En la tabla siguiente se presentan las diez combinaciones de tres elementos más frecuentes, y el número de ocurrencias de las mismas:

Tabla 2. Patrones gramaticales más frecuentes en UNED-ELE
Categoría 1Categoría 2Categoría 3Frecuencia
PreposiciónDeterminanteSustantivo110.124
DeterminanteSustantivoPreposición68.230
VerboDeterminanteSustantivo54.896
SustantivoPreposiciónDeterminante49.904
DeterminanteSustantivoAdjetivo45.097
SustantivoPreposiciónSustantivo41.126
VerboPreposiciónDeterminante34.293
Verbo indicativoDeterminanteSustantivo34.199
Verb. indic. presenteDeterminanteSustantivo26.227
DeterminanteSustantivoVerbo22.213

Aplicaciones y conclusiones

Por último, en la ponencia se presentarán algunas de las aplicaciones didácticas para el área de la enseñanza del español como lengua extranjera que nuestro equipo ha pergeñado en esta fase piloto.

En las conclusiones se enmarcará este primer resultado en el conjunto de desarrollos previstos para el proyecto SARILRAM: creación de un sistema de etiquetado para niveles superiores de análisis del lenguaje (prosódica, textual y pragmático-discursivo) que se incrementaría mediante la contribución de usuarios expertos, incorporando conocimiento colectivo, desarrollo de interfaces gráficas que permitan recoger la información del usuario y aplicar técnicas de aprendizaje automático y adaptativo que mejoren el comportamiento del sistema según se vaya utilizando y recogiendo retroalimentación por parte del usuario, propuesta de enlaces a conjunto de datos (datasets) públicos, ampliando la nube de datos enlazados (linked-data) disponible en abierto, etc. 

Referencias

Padró, Ll y E. Stanilovsky. (2012). FreeLing 3.0: Towards Wider Multilinguality. En Proceedings of the Language Resources and Evaluation Conference (LREC 2012) ELRA. Istanbul, Turkey. May, 2012.

Rodríguez-Yunta, Luis (2013). “Humanidades digitales, ¿una mera etiqueta o un campo por el que deben apostar las ciencias de la documentación?”. Anuario ThinkEPI, v. 7, pp. 37-43

Rojas Castro, A. (2013): “Las Humanidades Digitales: principios, valores y prácticas”. Janus, 2, 74-99