Introduccion al proyecto Códice (Comunicación Digital: Corpus del Español): repositorio de datos multimodales de tipo interaccional

Cristina Vela Delfa
cveladelfa@gmail.com

Póster
Corpora y lingüística del corpus


Este póster muestra aspectos centrales del proyecto CODICE (COmunicación DIgital Corpus del Español sites.google.com/site/proyectocodice), cuyo objetivo central del proyecto es la creación de un repositorio abierto y colaborativo de muestras representativas de distintos géneros del discurso digital, prioritariamente de tipo interaccional.

Este proyecto emerge tras la detección de una necesidad dentro del campo de estudios de la comunicación digital y, en particular, dentro de los estudios sobre el español. Los investigadores del campo de la interacción mediada por diferentes plataformas e interfaces se enfrentan con problemas de orden metodológico en la configuración de sus objetos de estudios: la dificultad para establecer muestras de datos estables, representativos, fiables, con cierta objetividad y validez. Máxime aun cuando en el análisis se quiere mantener ciertos rasgos intrínsecamente propios de las muestras de lengua de la comunicación digital que fungen como propiedades constitutivas  (multimodalidad, multisimultaneaidad e hiperpersonalidad) entre otros factores que puedan interferir en la elaboración del intrumento. ¿Es posible abordar la complejidad propia de estos datos en la recolección de los datos? ¿Es posible fijar estos datos? ¿Etiquetarlos? Preguntas como estas han obligado a los investigadores a trabajar con datos no suficientemente idóneos.

La hipótesis de partida es que las dificultades de recogida y fijación de este tipo de datos justifican la limitaciones de las muestran con las que trabajan los investigadores, que en situaciones extremas deben recurrir a la propia introspección o al estudio de textos provenientes de círculos próximos. Ante tal situación, en CODICE proponemos  un espacio colaborativo y abierto a la comunidad científica, en el que distintos investigadores pongan a disposición muestras de lengua simples (fragmentarias y recolectadas mediante diferentes instrumentos) y  muestras ricas (recogidas en procesos de introspección y con mayor cantidad de datos contextuales).  En este sentido, estamos seguros que la creación del repositorio CODICE, en el que se compartan estos datos, permitirá la suma de muestras fragmentarias con las que lograr un corpus suficientemente representativo junto a muestras de gran valor para el estudio de variación intra e inter lingüística. Una vez establecidos los estándares comunes, en lo que concierne principalmente a los factores contextuales y situacionales, y de la propia naturaleza de los datos, se favorecerán los análisis sociopragmáticos y sociolingüísticos. En particular, respondiendo a los retos derivados de la multimodalidad y la hiperpersonalidad del medio. Dos características profundamente relacionadas que determinan buena parte de estos datos y que debieran, por ende, tener un reflejo en la metodología de recogida.

El proyecto CÓDICE presenta una orientación doble, por un lado, de reflexión metodológica que se evidencia en la planilla de transcripción de muestras de lengua y en el material complementario que se provee sobre la metodología de la conformación de corpus en la comunicación digital y, por otro lado, la sistematización de datos. En el póster se observarán aspectos centrales de los datos de comunicación digital, así como aspectos de su recogida y transcripción, para estudios de corte sociopragmáticos y sociolingüísticos.