El big data en los estudios del lenguaje

  1. Valenzuela, Javier 1
  1. 1 Universidad de Murcia
    info

    Universidad de Murcia

    Murcia, España

    ROR https://ror.org/03p3aeb86

Journal:
Estudios de Lingüística del Español (ELiEs)

ISSN: 1139-8736

Year of publication: 2022

Issue Title: Metodologías lingüísticas: de los datos empíricos a la teoría del lenguaje

Issue: 45

Pages: 241-260

Type: Article

DOI: 10.36950/ELIES.2022.45.8857 DIALNET GOOGLE SCHOLAR lock_openOpen access editor

More publications in: Estudios de Lingüística del Español (ELiEs)

Abstract

El presente trabajo examina las posibilidades que los acercamientos basados en los big data ofrecen a la investigación sobre el lenguaje. De manera resumida, los big data o “macrodatos” son los datos masivos que los usuarios generan en sus interacciones con el mundo digital y cuyo ingente volumen y naturaleza heterogénea precisa de un tratamiento especializado. El trabajo revisa de manera inicial las principales características de los big data para centrarse a continuación en los posibles problemas derivados del uso de big data en los análisis lingüísticos. La siguiente sección ofrece una revisión de estudios concretos que utilizan este acercamiento aplicándolo a la multimodalidad: un estudio del lenguaje que incluye no sólo el componente verbal sino aspectos multimodales como la gestualidad o la entonación. El trabajo concluye con una revisión de las ventajas y los problemas de la utilización de este tipo de datos.

Bibliographic References

  • Alcaraz Carrión, Daniel; Valenzuela, Javier. 2021. Distant time, distant gesture: speech and gesture correlate to express temporal distance. Semiotica 241. DOI: 10.1515/sem-2019-0120
  • Álvarez García, Esther. 2022. Lo que esconden tus ojos: la metodología eye-tracking aplicada al estudio del lenguaje. Estudios de Lingüística del Español 45: 205-239.
  • Atkins, Sue; Clear, Jeremy; Ostler, Nicholas. 1992. Corpus design criteria. Literary and Linguistic Computing 7.1: 1-16.
  • Biber, Douglas. 1993. Representativeness in Corpus Design. Literary and Linguistic Computing 8.4: 243-257.
  • Boersma, Paul; Weenink, David. 2021. Praat: doing phonetics by computer [Computer program]. Version 6.1.50.
  • Brunner, Marie-Louise; Diemer, Stefan. 2018. “You are struggling forwards, and you don’t know, and then you … you do code-switching…” – Code-switching in ELF Skype conversations. Journal of English as a Lingua Franca 7.1: 59-88.
  • Cao, Zhe; Hidalgo, Gines; Simon, Tomas; Wei, Shih-En; Sheikh, Yaser. 2021. OpenPose: Realtime multi-person 2D pose estimation using part affinity fields. IEEE Transactions on Pattern Analysis and Machine Intelligence 43 .1: 172-186.
  • García-Miguel, José M. 2022. Lingüística de corpus: de los datos textuales a la teoría lingüística. Estudios de Lingüística del Español 45: 11-42:
  • Hardie, Andrew. 2010. Big data in language studies: from cargo-cult science to phantom revolution. Conferencia plenaria en el 7 Congreso de AELINCO 2015, Universidad de Valladolid.
  • Keevallik, Leelo; Ogden, Richard. 2020. Sounds on the Margins of Language at the Heart of Interaction. Research on Language and Social Interaction 53.1: 1-18. DOI: 10.1080/08351813.2020.1712961
  • Knight, Dawn. 2010. The future of multimodal corpora. Revista Brasileira de Linguística Aplicada 11.2: 391-415.
  • Krishnamurthy, Ramesh. 2001. Size Matters: creating Dictionaries from the World’s Largest Corpus. 8th Annual KOTESOL Conference Proceedings. Taegu: KOTESOL: 169-180.
  • Igoa, José Manuel. Las tareas conductuales en la investigación sobre el procesamiento del lenguaje. Estudios de Lingüística del Español 45: 133-158.
  • Leech, Geoffrey. 1991. The state of the art in corpus linguistics. En K. Aijmer y B. Altenberg, eds. English Corpus Linguistics, Londres: Longman, pp. 8-29.
  • Olza, Inés; Valenzuela, Javier; Pagán-Cánovas, Cristobal. 2017. Automatic visual analysis and gesture recognition: Two preliminary pilots. Universidad de Navarra: Instituto Cultura Sociedad.
  • Pagán Cánovas Cristóbal; Valenzuela Javier; Alcaraz Carrión Daniel; Olza Inés; Ramscar Michael. 2020. Quantifying the speech-gesture relation with massive multimodal datasets: Informativity in time expressions. PLOS ONE 15.6: e0233892.
  • Rumelhart, David E.; McClelland, James L.; PDP Research Group. 1986. Parallel distributed processing: Explorations in the microstructure of cognition. Vol. 1. Cambridge: MIT Press.
  • Sinclair, John. 1991. Corpus, Concordance, Collocation. Oxford: Oxford University Press.
  • Tognini-Bonelli, Elena. 2001. Corpus Linguistics at Work. Amsterdam: Benjamins.
  • Turchyn Sergiy; Olza Moreno, Inés; Pagán Cánovas, Cristóbal; Steen, Francis F; Turner Mark; Valenzuela, Javier; Ray, Soumya. 2018. Gesture Annotation with a Visual Search Engine for Multimodal Communication Research. En The Thirtieth AAAI Conference on Innovative Applications of Artificial Intelligence (IAAI-18) [Internet]. 2018. https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/viewFile/16703/16398
  • Valenzuela, Javier; Pagán-Cánovas, Cristóbal; Olza, Inés; Alcaraz, Daniel. 2020. Gesturing in the wild: spontaneous gestures co-occurring with temporal demarcative expressions provide evidence for a flexible mental timeline. Review of Cognitive Linguistics 18.2: 289-316. DOI: 10.1075/rcl.00061.val