Combinación de clustering, selección de atributos y métodos ontológicos para la clasificación semántica de texto

  1. Mackenzie Rivero, Alexander
Dirigida por:
  1. Rodrigo Martínez Béjar Director
  2. Fernando Jiménez Barrionuevo Director

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 10 de octubre de 2023

Departamento:
  1. Ingeniería de la Información y las Comunicaciones

Tipo: Tesis

Resumen

Con el aumento exponencial en la cantidad de datos textuales disponibles en Internet desde fuentes diversas como redes sociales, blogs/foros, sitios web, correos electrónicos, bibliotecas en línea, etc., se ha hecho necesaria la utilización de la Inteligencia Artificial en plataformas digitales, como la aplicación de métodos de aprendizaje profundo y de reconocimiento de patrones, para que esta información pueda ser aprovechada por todo tipo de modelos de negocios, estudios de mercado, planes de marketing, campañas políticas o toma de decisiones estratégicas entre otros, con la finalidad de hacer frente a la competencia y dar respuesta de manera eficiente. El objetivo de esta tesis doctoral fue desarrollar un modelo que combina clustering, selección de atributos y métodos ontológicos para la clasificación semántica de texto, que permita estructurar una metodología aplicable en conjuntos de datos textuales y así mejorar la clasificación automática de texto. El modelo propuesto en esta tesis doctoral se realizó siguiendo los siguientes objetivos específicos: redactar el estado del arte relacionado con la temática estudiada; conformación de un conjunto de datos textuales lo suficientemente extenso para la aplicación de las diferentes técnicas de análisis de datos; desarrollo de una metodología para la clasificación semántica de datos textuales y evaluación de los resultados obtenidos. La metodología consistió de 9 etapas, las 5 primeras (preprocesamiento, clustering, se- lección de atributos, clasificación y test estadístico. Posteriormente 4 etapas adicionales correspondientes análisis ontológico (validación del clúster, análisis semántico, interpretación y representación de relaciones). Se pudo determinar que haciendo SToWVector junto con selección de atributos mediante el wrapper MOES (estrategia de búsqueda) y NaiveBayesMultinomial (evaluador) con ACC (métrica), se obtienen mejores resultados con el clasificador NaiveBayesMultinomial que con otros métodos de clasificación evaluados. Además el método de búsqueda ENORA ha sido utilizado y evaluado demostrando ser un método eficaz para la selección de atributos en datos textuales. De igual manera se pudo dar significado a los dos clústeres obtenidos, logrando identificar un concepto para cada clúster. Clúster 1: UE-G20-G77-MEC y clúster 2: Resto del mundo. Ello permitió establecer una relación directa entre los clústers.