Análisis y tipificación de errores lingüísticos para una propuesta de mejora de informes médicos en español

López Hernández, Jésica

Análisis y tipificación de errores lingüísticos para una propuesta de mejora de informes médicos en español

López Hernández, Jésica

Dirigida por:

Ángela Almela Sánchez-Lafuente Directora
Fernando Molina Molina Director/a
Rafael Valencia García Director

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 18 de mayo de 2022

Tribunal:

Pascual Cantos Gómez Presidente
Gema Alcaraz Mármol Secretario/a
Mario Andrés Paredes Valverde Vocal

Departamento:

Filología Inglesa

Tipo: Tesis

Teseo: 732694 DIALNET DIGITUM editor

Resumen

El objetivo principal de esta investigación es la detección, análisis y clasificación de errores lingüísticos presentes en informes médicos en español. Los sistemas de corrección automática más actuales y potentes, como las arquitecturas basadas en redes neuronales, requieren grandes conjuntos de datos de entrenamiento para un rendimiento óptimo. Por tanto, debido a la ausencia de corpus de dominio biomédico disponibles, en el procesamiento del lenguaje natural ha ganado importancia la recopilación y generación artificial de errores para el entrenamiento de los sistemas. El desarrollo de una tipología de errores a partir del estudio empírico de un corpus de informes médicos va a permitir añadir nuevos patrones a la generación de errores de forma más exhaustiva y, con ello, la creación de modelos más robustos para el procesamiento de datos en medicina. Para la detección y clasificación de errores se ha analizado un corpus formado por informes médicos reales pertenecientes a cuatro especialidades (urgencias, UCI, cirugía general y psiquiatría), con más de dos millones de tokens. El enfoque metodológico desarrollado ha incluido distintas técnicas de detección y corrección automática, entre las que se encuentran la implementación de un modelo lingüístico basado en n-gramas, la representación vectorial de las palabras del corpus a partir de Word2Vec y el etiquetado gramatical del corpus. Se ha desarrollado una herramienta de cómputo y clasificación de errores, y se ha realizado un análisis cuantitativo y cualitativo de los resultados obtenidos. Los resultados han permitido identificar semejanzas y diferencias entre estas especialidades y han reflejado que la especialidad cuyos informes médicos presentan una mayor tasa de errores es urgencias. La mayoría de las palabras con errores están a distancia de edición 1 de la palabra correcta correspondiente, gran parte de los errores detectados se concentran en un número específico de caracteres y el tipo de error más cometido con una alta incidencia es el de omisión. Muchos de los errores presentan patrones de reproducción consistentes que es posible sistematizar, como la sustitución de caracteres con similitudes fonéticas, los errores provocados por desconocimiento de la norma ortográfica actual y los errores derivados del uso del teclado. En síntesis, esta tesis doctoral pretende ser una contribución al estudio de errores lingüísticos en informes médicos para aportar una base de conocimiento lingüístico a los métodos de detección y corrección existentes para este dominio.