Detección automática de errores lingüísticos en textos clínicos: análisis de patrones de error en varias especialidades médicas

  1. Almela Sánchez-Lafuente, Ángela 1
  1. 1 Universidad de Murcia
    info

    Universidad de Murcia

    Murcia, España

    ROR https://ror.org/03p3aeb86

Revista:
Panace@: Revista de Medicina, Lenguaje y Traducción

ISSN: 1537-1964

Año de publicación: 2021

Volumen: XXII

Número: 53

Páginas: 96-108

Tipo: Artículo

Otras publicaciones en: Panace@: Revista de Medicina, Lenguaje y Traducción

Resumen

El objetivo de este trabajo es aportar el primer análisis cuantitativo de tipos de errores contenidos en un corpus formado por informes clínicos en español. Se han analizado informes clínicos pertenecientes a las especialidades de urgencias, uci, psiquiatría y cirugía general. Los errores fueron estudiados teniendo en cuenta criterios como distancia de edición, tipo de error o existencia de multierror en la palabra. Para tal cometido, se desarrolló una herramienta de identificación y clasificación de errores, se utilizaron técnicas estadísticas y se compararon los resultados con trabajos previos sobre patrones de errores. Los resultados indican que el tipo de error más frecuente es el de omisión de tilde y la mayoría de los errores ocurren a distancia de edición 1, entre parejas de caracteres con similitudes fonéticas y parejas de caracteres adyacentes en el teclado.

Referencias bibliográficas

  • Aguilar Ruiz, Manuel José (2013): «Las normas ortográficas y ortotipográficas de la nueva Ortografía de la lengua española (2010) aplicadas a las publicaciones biomédicas en español: una visión de conjunto», Panace@, 14 (37): 101-120. <https://www.tremedica.org/wp-content/uploads/n37-tribuna-MJAguilarRuiz.pdf > [consulta: 5.x.2020].
  • Aleixandre, Rafael; Juan Carlos Valderrama y Francisco Jesús Bueno-Cañigral (2015): «Utilización adecuada del lenguaje médico: principales problemas y soluciones», Revista Clínica Española, 215 (7): 396-400. <https://doi.org/10.1016/j. rce.2015.04.001> [consulta: 8.xii.2020].
  • Baba, Yukino y Hisami Suzuki (2012): «How are spelling errors generated and corrected? A study of corrected and uncorrected spelling errors using keystroke logs», en Haizhou Li et al. (eds.): Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers. Jeju Island: Association for Computational Linguistics (acl), pp. 373-377. < https://www.aclweb.org/anthology/ P12-2073 > [consulta: 12.x.2020].
  • Chipere, Ngoni; David D. Malvern y Brian J. Richards (2004): «Using a corpus of children’s writing to test a solution to the sample size problem affecting Type-Token Ratios», en Guy Aston, Silvia Bernardini y Dominic Stewart (eds.): Corpora and language learners. Amsterdam: John Benjamins, pp. 139-147. <https://doi.org/10.1075/scl.17.10chi> [consulta: 6.ix.2020].
  • Chomsky, Noam (1986): Knowledge of language: its nature, origin, and use. New York: Praeger Publishers.
  • Damerau, Frederick Jacob (1964): «A technique for computer detection and correction of spelling errors», Communications of acm, 7 (3): 171-177. <https://doi. org/10.1145/363958.363994> [consulta: 26.ix.2020].
  • Díaz Villa, Ana María (2005): «Tipología de errores gramaticales para un corrector automático», Procesamiento del Lenguaje Natural, 35: 409-416. <http://hdl.handle. net/10045/1341> [consulta: 23.ix.2020].
  • Dziadek, Juliusz; Aron Henriksson y Martin Duneld (2017): «Improving terminology mapping in clinical text with context-sensitive spelling correction», Studies in health technology and informatics, 235: 241-245. <https://pubmed.ncbi. nlm.nih.gov/28423790/> [consulta: 10.xi.2020].
  • Gimenes, Priscila Azar; Norton Trevisan Roman y Ariadne M. Carvalho (2015): «Spelling error patterns in Brazilian Portuguese», Computational Linguistics, 41 (1): 175-183. <https://www.aclweb.org/anthology/J15-1011.pdf> [consulta: 10.xi.2020].
  • Jurafsky, Daniel y James Martin (2014): Speech and Language Processing. Upper Saddle River, NJ: Pearson Education.
  • Kilicoglu, Halil; Marcelo Fiszman, Kirk Roberts y Dina Demner-Fushman (2015): «An ensemble method for spelling correction in consumer health questions», en American Medical Informatics Association (eds.): amia Annual Symposium Proceedings. San Francisco: amia, pp. 727-736. <https://pubmed.ncbi.nlm.nih.gov/26958208/> [consulta: 12.xii.2020].
  • Kukich, Karen (1992): «Technique for automatically correcting words in text», acm Computing Surveys, 24 (4): 377439. <https://doi.org/10.1145/146370.146380> [consulta: 12.xii.2020].
  • Lai, Kenneth H.; Maxim Topaz, Foster R. Goss y Li Zhou (2015): «Automated misspelling detection and correction in clinical free-text records», Journal of Biomedical Informatics, 55: 188-195. <https://doi.org/10.1109/ ICAIBD.2018.8396209> [consulta: 3.xii.2020].
  • Lehal, Gurpreet y Meenu Bhagat (2007): «Spelling error pattern analysis of Punjabi typed text», en Proceedings of the 2007 International Symposium on Machine Translation, nlp and tss. New Delhi: Tata McGraw-Hill, pp. 128-141. <http://learnpunjabi.org/pdf/icon2004.pdf> [consulta: 20.xii.2020].
  • Levenshtein, Vladimir Iosifovich (1966): «Binary codes capable of correcting deletions, insertions and reversals», Soviet Physics Doklady, 10 (8): 707-710.
  • Liu, Hongfang; Stephen T. Wu, Dingcheng Li, Siddhartha Jonnalagadda, Sunghwan Sohn, Kavishwar Wagholikar, Peter J. Haug, Stanley Mark Huff y Christopher G. Chute (2012): «Towards a semantic lexicon for clinical natural language processing», en amia Annual Symposium proceedings. Chicago: American Medical Informatics Association, pp. 568-576. <https://pubmed.ncbi.nlm.nih. gov/23304329/> [consulta: 20.xii.2020].
  • López-Hernández, Jésica; Ángela Almela y Rafael Valencia-García (2019): «Automatic spelling detection and correction in the medical domain: A systematic literature review», en Rafael Valencia-García et al. (eds.): Technologies and Innovation. citi 2019. Communications in Computer and Information Science, vol. 1124. Cham: Springer, pp. 104-117. <https://doi.org/10.1007/978-3-030-349899_8> [consulta: 29.x.2020].
  • Meystre, Stephane y Peter Haug (2006): «Natural language processing to extract medical problems from electronic clinical documents: Performance evaluation», Journal of Biomedical Informatics, 39: 589-599. <https://doi.org/10.1016/j.jbi.2005.11.004> [consulta: 15.xii.2020].
  • Naber, Daniel (2003): A rule-based style and grammar checker. Munich: grin Verlag. <http://www.danielnaber.de/languagetool/download/style_and_grammar_checker.pdf> [consulta: 9.xi.2020].
  • Nagata, Ryo; Hiroya Takamura y Graham Neubig (2017): «Adaptive spelling error correction models for learner English», Procedia Computer Science, 112: 474-483. <https:// doi.org/10.1016/j.jbi.2005.11.004> [consulta: 20.xii.2020].
  • Navarro, Fernando A. (2015): Medicina en español. Laboratorio del lenguaje: florilegio de recomendaciones, dudas, comentarios etimológicos, errores, anglicismos y curiosidades varias del lenguaje médico. Madrid: Fundación Lilly.
  • Paggio, Patrizia (2000): «Spelling and grammar correction for Danish in scarrie», en Proceedings of the Sixth Conference on Applied Natural Language Processing. Seattle: Association for Computational Linguistics (acl), pp. 255-261. <https://www.aclweb.org/anthology/A00-1035.pdf> [consulta: 22.xii.2020].
  • Pedler, Jennifer y Roger Mitton (2010): «A large list of confusion sets for spellchecking assessed against a corpus of real-word errors», en Language Resources Evaluation Conference. Malta: European Language Resources Association (elra), pp. 755-762. <http://www.lrec-conf. org/proceedings/lrec2010/pdf/122_Paper.pdf> [consulta: 20.xii.2020].
  • Pollock, Joseph J. y Antonio Zamora (1983): «Collection and characterization of spelling errors in scientific and scholarly text», Journal of American Society of Informatics and Science, 34 (1): 51-58. <https://doi.org/10.1002/ asi.4630340108> [consulta: 20.xii.2020].
  • Ramírez, Flora y Enrique López (2006): «Spelling error patterns in Spanish for word processing applications», en Proceedings of Fifth international conference on Language Resources and Evaluation (lrec). Genoa: European Language Resources Association, pp. 93-98. <http://www.lrecconf.org/proceedings/lrec2006/pdf/119_pdf.pdf> [consulta: 3.i.2021].
  • Real Academia Española y Asociación de Academias de la Lengua Española (2005): Diccionario panhispánico de dudas. Madrid: Santillana. <https://www.rae.es/dpd/> [consulta: 3.xii.2020].
  • Real Academia Española y Asociación de Academias de la Lengua Española (2010): Nueva gramática de la lengua española. Madrid: Espasa.
  • Real Academia Española y Asociación de Academias de la Lengua Española (2010): Ortografía de la lengua española. Madrid: Espasa.
  • Real Academia Nacional de Medicina (2011): Diccionario de Términos Médicos. Madrid: Panamericana.
  • Rello, Luz; Ricardo Baeza-Yates y Joaquim Llisterri (2014): «DysList: An annotated resource of dyslexic errors», en Proceedings of the Ninth International Conference on Language Resources and Evaluation (lrec). Reykjavik: European Language Resources Association, pp. 12891296. < https://doi.org/10.13140/2.1.2542.7205> [consulta: 8.xi.2020].
  • Rodríguez-Rubio Mediavilla, Santiago (2018): «Análisis cuantitativo de erratas del Diccionario Terminológico de las Ciencias Farmacéuticas Inglés-Español/Spanish-English (Ariel, 2007)», Panace@, 19 (47): 76-88. <https://www.tremedica.org/wp-content/uploads/n47-analisis.pdf> [consulta: 14.ix.2020].
  • Ruch, Patrick; Robert Baud y Antoine Geissbühler (2003): «Using lexical disambiguation and named-entity recognition to improve spelling correction in the electronic patient record», Artificial intelligence in medicine, 29 (2): 169-184. <https://doi.org/10.1016/S0933-3657(03)00052-6> [consulta: 25.x.2020].
  • Sayle, Roger Anthony; Plamen Petrov, Jon James Winter-Holt y Sorel Muresan (2012): «Improved chemical text mining of patents using infinite dictionaries, translation and automatic spelling correction», Journal of Chemical Information and Modeling, 3: 51-62. <https://doi.org/10.1186/17582946-3-S1-O16> [consulta: 13.xii.2020].
  • Siklósi, Borbála; Attila Novák y Gábor Prószéky (2016): «Context-aware correction of spelling errors in Hungarian medical documents», Computer Speech and Language, 35: 219233. <https://doi.org/10.1016/j.csl.2014.09.001> [consulta: 2.ix.2020].
  • Wong, Wilson y David Glance (2011): «Statistical semantic and clinician confidence analysis for correcting abbreviations and spelling errors in clinical progress notes», Artificial Intelligence in Medicine, 53 (3): 171-180. <https://doi. org/10.1016/j.artmed.2011.08.003> [consulta: 27.ix.2020].
  • Yannakoudakis, Emmanuel J. y David Fawthrop (1983): «The rules of spelling errors», Information processing and management, 19 (12): 101-108. <https://doi.org/10.1016/03064573(83)90045-6> [consulta: 4.x.2020].
  • Zech, John; Jessica Forde; Joseph Titano; Deepak Kaji; Anthony Costa y Enric Karl Oermann (2019): «Detecting insertion, substitution, and deletion errors in radiology reports using neural sequence-to-sequence models», Annals of translational medicine, 7 (11): 233-242. <https://doi. org/10.21037/atm.2018.08.11> [consulta: 22.x.2020].