Análisis de sentimientos en español en tuits relacionados con las enfermedades infecciosas

Apolinario Arzube, Oscar Omar

Análisis de sentimientos en español en tuits relacionados con las enfermedades infecciosas

Apolinario Arzube, Oscar Omar

Dirigida por:

Rafael Valencia García Director

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 11 de noviembre de 2021

Tribunal:

Juan Miguel Gómez-Berbís Presidente/a
Francisco García Sánchez Secretario/a
María del Pilar Salas-Zárate Vocal

Departamento:

Informática y Sistemas

Tipo: Tesis

Teseo: 157027 DIALNET DIGITUM editor

Resumen

La ingeniería lingüística es la herramienta que, por medio de las computadoras permiten investigar o entender lo expresado en el lenguaje natural sobre las redes sociales. El procesamiento del lenguaje natural es un área de inteligencia artificial enfocada para entender y modelar el cerebro humano. En este entorno, la minería de opiniones o análisis del sentimiento abarca técnicas del procesamiento del lenguaje natural, lingüística computacional y minería de textos que tienen como objetivo la extracción de información subjetiva a partir de contenidos generados en las redes sociales. Del estudio del estado del arte se concluye que, aunque existen estudios relacionados sobre el procesamiento del lenguaje natural en la salud, no son suficientes para verificar las nuevas técnicas de clasificación de información para los corpus propuestos; que permitan maximizar modelos predictivos del análisis de sentimiento tanto por los investigadores como por los profesionales de la salud. La motivación de este estudio es proporcionar nuevos recursos para el análisis de sentimientos en medicina, la creación de dos corpus; uno para las enfermedades infectocontagiosas como el ZIKA y otro para el COVID-19; aplicando así el estudio de distintas tecnologías para ver cómo se pueden clasificar los sentimientos en estos dominios y ampliar el estudio de esas mismas tecnologías para la detección de la SATIRA. Objetivos. El objetivo principal de esta tesis doctoral es la aplicación de técnicas para clasificación de sentimientos en modelos predictivos para el procesamiento del lenguaje de corpus en el dominio de enfermedades infectocontagiosas como ZIKA y COVID-19; extendiendo este mismo análisis sobre un corpus del género literario SATIRA para lograr una mejor precisión en la predicción de sentimiento sobre lo expresado en redes sociales y el entendimiento del lenguaje natural. Para conseguir este objetivo se plantearon los siguientes subobjetivos: • Obtención de un corpus sobre el dominio de enfermedades infectocontagiosas Zika, dengue y chikungunya. • Obtención de un corpus sobre el dominio de enfermedades infectocontagiosas Covid-19. • Obtención de un corpus sobre el dominio en el género literario de la sátira. • Obtención de modelos de clasificación para la predicción de sentimientos en cada uno de los corpus. • Obtención del mejor clasificador de precisión en cada uno de los corpus por tipos de clasificadores. Metodología. Esta tesis doctoral se desarrolló mediante 3 fases principalmente: la primera fase fue el estudio del estado del arte que se ha mostrado en este capítulo; la segunda fue la elaboración de métodos y artefactos de clasificación y predicción que permitan el tratamiento de los corpus propuestos; y la tercera la validación de la propuesta. • Estudio del estado del arte: Estudio de los conceptos y términos de la inteligencia artificial en el campo del lenguaje natural, técnicas del aprendizaje automático supervisado y no supervisado, modelos para la predicción de sentimiento y herramientas para la clasificación de texto. Además, se analizaron las distintas investigaciones en el ámbito de la minería de opiniones sobre modelos y su aplicabilidad en distintos dominios. • Elaboración de laboratorios para la obtención de modelos que realicen la predicción de sentimientos sobre los corpus en el contexto de esta tesis doctoral; también se desarrollaron las matrices de confusión para evaluar del sentimiento real vs la predicción obtenida en cada uno de los corpus. Resultados. Validación de los laboratorios: Con el detalle de los hyper-parámetros utilizados y el resultado obtenido de las predicciones para cada una de las ejecuciones realizadas. Aquí encontraremos los resultados del mejor modelo usado para evaluar la partición de validación y test. Cada una tiene el reporte de clasificación con la accuracy, precision, recall y f1 de cada clase.