Análisis y tipificación de errores lingüísticos para una propuesta de mejora de informes médicos en español
- López Hernández, Jésica
- Ángela Almela Sánchez-Lafuente Directora
- Fernando Molina Molina Director/a
- Rafael Valencia García Director
Universidad de defensa: Universidad de Murcia
Fecha de defensa: 18 de mayo de 2022
- Pascual Cantos Gómez Presidente
- Gema Alcaraz Mármol Secretario/a
- Mario Andrés Paredes Valverde Vocal
Tipo: Tesis
Resumen
El objetivo principal de esta investigación es la detección, análisis y clasificación de errores lingüísticos presentes en informes médicos en español. Los sistemas de corrección automática más actuales y potentes, como las arquitecturas basadas en redes neuronales, requieren grandes conjuntos de datos de entrenamiento para un rendimiento óptimo. Por tanto, debido a la ausencia de corpus de dominio biomédico disponibles, en el procesamiento del lenguaje natural ha ganado importancia la recopilación y generación artificial de errores para el entrenamiento de los sistemas. El desarrollo de una tipología de errores a partir del estudio empírico de un corpus de informes médicos va a permitir añadir nuevos patrones a la generación de errores de forma más exhaustiva y, con ello, la creación de modelos más robustos para el procesamiento de datos en medicina. Para la detección y clasificación de errores se ha analizado un corpus formado por informes médicos reales pertenecientes a cuatro especialidades (urgencias, UCI, cirugía general y psiquiatría), con más de dos millones de tokens. El enfoque metodológico desarrollado ha incluido distintas técnicas de detección y corrección automática, entre las que se encuentran la implementación de un modelo lingüístico basado en n-gramas, la representación vectorial de las palabras del corpus a partir de Word2Vec y el etiquetado gramatical del corpus. Se ha desarrollado una herramienta de cómputo y clasificación de errores, y se ha realizado un análisis cuantitativo y cualitativo de los resultados obtenidos. Los resultados han permitido identificar semejanzas y diferencias entre estas especialidades y han reflejado que la especialidad cuyos informes médicos presentan una mayor tasa de errores es urgencias. La mayoría de las palabras con errores están a distancia de edición 1 de la palabra correcta correspondiente, gran parte de los errores detectados se concentran en un número específico de caracteres y el tipo de error más cometido con una alta incidencia es el de omisión. Muchos de los errores presentan patrones de reproducción consistentes que es posible sistematizar, como la sustitución de caracteres con similitudes fonéticas, los errores provocados por desconocimiento de la norma ortográfica actual y los errores derivados del uso del teclado. En síntesis, esta tesis doctoral pretende ser una contribución al estudio de errores lingüísticos en informes médicos para aportar una base de conocimiento lingüístico a los métodos de detección y corrección existentes para este dominio.