Sobre el diseño de un corpus para el análisis del discurso digital en el marco del proyecto CODICE

Cristina Vela Delfa
cveladelfa@gmail.com

Comunicación breve
Corpora y lingüística del corpus


En esta comunicación presentamos los avances del proyecto CODICE (Comunicación Digital Corpus del Español), orientado al diseño e implementación de un repositorio de discurso Digital en español. En la actualidad, CODICE es aún un proyecto en desarrollo que no ha sido abierto a la comunidad científica. En corto plazo se dispondrá del dominio Web que servirá de plataforma tanto para acceder a los datos – mediante una ficha de inscripción donde se requieren datos de afiliación institucional a algún centro de investigación, universidad o instituto reconocido - como para depositar o cargar las muestras de lengua.

La importancia de CODICE radica en tres aspectos complementarios: por un lado, por la metodología de recogida, se accederá a dos tipos de datos unos de orden masivos y fragmentarios (muestras simples), y otros más personales y enriquecidos (muestras ricas), tal como se explica a continuación. Por otro, la continua alimentación del repositorio favorecerá la perspectiva diacrónica, y de lingüística histórica, del discurso digital en español.

El objetivo principal del proyecto CODICE es poner a disposición de la comunidad científica datos primarios, para solventar una de las principales carencias que el análisis del Discurso Digital tienen en relación a la lengua española. Uno de los problemas con los que se enfrenta el investigador de esta área estriba en el establecimiento de corpus de datos: no siempre es posible la recogida de muestras de lengua que conserven la representatividad necesaria para legitimar un estudio (Toruella y Llisterri, 1999) y cuando es posible acceder a ellas muchas veces se pierden datos multimodales y contextuales que resultan críticos para entender muchos fenómenos de la comunicación digital. Por ello, muchos investigadores se han visto obligados a trabajar con corpus “escasos” (Ling, 2005) o “fortuitos” (Campano Escudero, 2007). Estas circunstancias limitan el avance y la consolidación de la disciplina.

Para solventar esta carencia, se requiere establecer corpus estables de muestras de lengua de la comunicación digital. El objetivo de este trabajo es doble, por un lado, a partir de los antecedentes encontrados, reflexionar sobre los problemas metodológicos de recogida y fijación de datos en estos dispositivos de comunicación. Por otro lado, describir el proyecto de creación de un repositorio abierto y colaborativo de comunicaciones digitales (CODICE), que permita avanzar en los estudios de variación sociolingüística y pragmática intra/interlingüística.

Este proyecto se articula en tres fases diferentes. En la primera fase se han abordado las cuestiones relativas a la reflexión metodológica. Por las características del proyecto, creemos que las discusiones metodológicas previas a la publicación del repositorio son prioritarias. En ellas hemos reflexionados sobre las naturaleza de las muestras de lengua con las que se trabaja en el análisis del discurso digital (Vela & Cantamutto, en prensa a) que se caracterizan por su multimodalidad y su multisumultaneidad. Además, hemos abordado los principales problemas con que se topan los investigadores en el proceso de fijación y transcripción de las muestras (Vela & Cantamutto, en prensa b): intercambios simultáneos, gestión temporal difusa, multiplicidad de plataformas, etc. Ante la ausencia de corpus de conjunto y la dificultad que implica la recolección de muestras de datos ad hoc, en el proyecto CODICE nos decantamos por la propuesta un repositorio abierto y colaborativo que, si bien pudiera parecer en principio una solución precaria, permite aunar esfuerzos de muchos profesionales (Cantamutto & Vela, en prensa). Además, un repositorio con una orientación eclética favorece la puesta en relación de muestras con carencias parciales, que al unirse se complementan. Por todo ello, en el repositorio se encontrarán con dos perfiles de muestras:

  1. Las muestras simples: resultantes de recogidas masivas de datos a través colaboradores. Estas serán probablemente pobres en recursos multimodales, pero tendrán la ventaja de la representatividad.
  2. Las muestras ricas: recogidas en procesos de introspecciones sistematizadas y fijadas a partir de las prácticas comunicativas de los propios investigadores. Serán más ricas en datos contextuales y más pobres en representatividad.

Una vez establecida la reflexión metodológica, en una segunda etapa se debe proceder a diseñar un modelo de recogida de datos destinado a alimentar el repositorio. Para ello, será necesario contar con una plantilla lo suficientemente enriquecida para que satisfaga, al menos, la mayoría de las características de las comunicaciones digitales actuales (Vela & Cantamutto, en prensa b). Cerrada esta fase, en la tercera abordaremos la alimentación del repositorio.

Actualmente no encontramos entre la primera y la segunda fase del proyecto. Para testar la plantilla que estamos diseñando se está procediendo a la recogida de una muestra de discurso digital. Tal acción nos plantea una serie de reflexiones metodológicas complementarias orientadas, principalmente, a la reflexión sobre los géneros del discurso digital (López Alonso & Séré, 2003, Deborah Schiffrin, Deborah Tannen, and Heidi E. Hamilton, 2001, Yus (2010)). Esta nos llevará a poner en discusión las siguientes cuestiones:

  1. ¿es preferible optar por un criterio de clasificación basado en la aplicación tecnológica o en criterios enunciativos? En muchas ocasiones las aplicaciones albergan interacciones con una naturaleza muy dispar
  2. ¿Qué unidades del referencia pueden resultar operativas en estos entornos? ¿Se puede volver los ojos al modelo tradicional del Análisis de la conversación, propuesto, entre otros por la pragmática dialógica (Kerbrat-Orecchioni, C. (1996) o resulta imprescindible la propuesta de alternativas más eficientes para la sistematización de estos entornos (Alcantaá Pla, 2014, Vela Delfa & Jiménez Gómez, 2011)
  3. ¿Qué metodología de recogida/observación se adapta mejor a estos entornos? En tanto que muestras relativas a la comunicación privada e interpresonal, los investigadores se ven obligados a optar bien por la opción de que las muestras sean filtradas y sistematizadas por los propios informantes o bien porque estas estas sean recogidas a partir de procesos de observación participante en los que intervienen los propios inventigadores. Ambas opciones presentan limitaciones (Vela & Cantamutto, en prensa b).

En esta comunicación queremos presentar el proceso de recogida de una muestra de lengua del discurso digital con el objetivo de abordar los problemas específicos que encontramos en el proceso a fin de proponer soluciones que se adapten al marco del repositorio CODICE. Más que las respuestas, nuestro interés en esta fase está en la preguntas que puedan plantearse, porque a partir de ellas podremos generar estándares efectivos para la sistematización de este tipo de datos.

Bibliografía

[1] Alcantará Plá, M. (2014): “Las unidades discursivas en los mensajes instantáneos de wasap”,  Estudios de Lingüística del Español, 35, pp. 223-242

[2] Campano Escudero, B. (2007): “Análisis lingüístico-pragmático de un corpus de mensajes SMS”, Ferrán, 8, nov., pp. 185-210, en www.educa.madrid.org/web/ies.jaimeferran.colladovillalba/revista2 (consulta: mayo de 2011).

[3] Cantamutto, L. & Vela Delfa, C. (en prensa), “Repositorio abierto de comunicaciones digitales: hacia la construcción de un corpus para el español”, I Jornadas Nacionales de Humanidades Digitales. Buenos Aires: AAHD FyL-UBA

[4] Kerbrat-Orecchioni, C. (1996) La conversation, Seuil, Paris.

[5] Ling, R. (2005): “The sociolinguistics of SMS: An analysis of SMS use by a random sample of Norwegians”. Mobilecommunication, London: Springer , pp. 335-349.

[6] López Alonso, C. & Séré, A. (2003) Nuevos géneros discursivos: los textos electrónicos, Madrid, Biblioteca Nueva.

[7] Schiffrin, Deborah, D. Tannen and H. Hamilton (eds.) (2001): The Handbook of Discourse Analysis. Malden, Mass: Blackwell.

[8] Torruella, J., & Llisterri, J. (1999): “Diseño de corpus textuales y orales”. Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Departamento de Filología Española,Univ. Autónoma de Barcelona: Editorial Milenio, pp. 45-77.

[9] Vela Delfa, C., & Jiménez Gómez, J. (2011): “El sistema de alternancia de turnos en los intercambios sincrónicos mediatizados por ordenador”, Pragmalingüística, 0(19), pp. 121-138.

[10] Vela Delfa, C. & Cantamutto, L.  (en prensa a), “¿Qué datos se estudian  n el Discurso digital?”, Actas del Congreso  AESLA 2015

[11] Vela Delfa, C. & Cantamutto, L.  (en prensa b),  Methodological approach to the design of digital discourse corpora in Spanish. Proposal of the CÓDICE Project”, 7th International Conference on Corpus Linguistics: Current Work in Corpus Linguistics: Working with Traditionally-conceived Corpora and Beyond (CILC 2015)

[12] Yus, F. (2010): Ciberpragmática 2.0. Nuevos usos del lenguaje en Internet, Barcelona: Ariel.