Computación evolutiva multi-objetivo para selección de atributos y clasificación interpretable

Martinez Cortes, Carlos

Computación evolutiva multi-objetivo para selección de atributos y clasificación interpretable

Martinez Cortes, Carlos

Dirigida per:

Gracia Sánchez Carpena Directora
Fernando Jiménez Barrionuevo Director

Universitat de defensa: Universidad de Murcia

Fecha de defensa: 24 de d’octubre de 2019

Tribunal:

Antonio Skarmeta Gómez President
Fernando Terroso Sáenz Secretari/ària
Javier Prieto Tejedor Vocal

Departament:

Ingeniería de la Información y las Comunicaciones

Tipus: Tesi

Teseo: 152211 DIALNET DIGITUM editor

Resum

En el contexto del aprendizaje supervisado, en esta Tesis Doctoral se han desarrollado modelos de optimización multi-objetivo para los problemas de selección de atributos y de clasificación interpretable, así como algoritmos evolutivos multi-objetivo para sus resoluciones. El problema de la selección de atributos se enmarca dentro de un proceso más general que es la reducción de la dimensionalidad de los datos. Este proceso es fundamental hoy día debido a la gran cantidad de datos que cada vez más se generan con el desarrollo imparable de las tecnologías de la información. El problema de la clasificación o predicción interpretable juega también un papel crucial hoy día, ya que no siempre es aceptable un modelo automático si éste no es entendible y validable por un experto, sobre todo en contextos donde la ética profesional lo requiere, como por ejemplo, la medicina o los negocios. Por otro lado, la Computación Evolutiva Multi-objetivo se ha mostrado como un metaheurística muy potente para resolver ambos tipos de problemas, y aunque no garantiza soluciones óptimas, éstas pueden resultar más satisfactorias que las proporcionadas con las técnicas clásicas de búsqueda, optimización y aprendizaje. Los algoritmos evolutivos multi-objetivo desarrollados en esta tesis han sido implementados en la plataforma Weka de machine learning con los nombres MultiObjectiveEvolutionarySearch y MultiObjectiveEvolutionaryFuzzyClassifier respectivamente. Para el problema de selección de atributos, la estrategia de búsqueda MultiObjectiveEvolutionarySearch puede combinarse con distintos evaluadores para configurar métodos de selección de atributos tanto filter como wrapper, con diferentes medidas estadísticas, clasificadores y métricas de evaluación, lo que hace que la técnica sea muy flexible y robusta. Los algoritmos ENORA y NSGA-II han sido implementados como estrategia de búsqueda, resolviendo un problema de optimización booleana con los objetivos de precisión y de cardinalidad de los subconjuntos de atributos. Para el problema de clasificación interpretable, el clasificador MultiObjectiveEvolutionaryFuzzyClassifier permite construir clasificadores basados en reglas, tanto fuzzy (gaussianos) como crisp, con datos numéricos y categóricos, en problemas de clasificación multi-clase, permitiendo configurar distintos evaluadores en la fase de aprendizaje. Los algoritmos ENORA y NSGA-II han sido implementados para la construcción de clasificadores basados en reglas, resolviendo un problema de optimización combinatoria mixta con restricciones, con los objetivos de precisión y de complejidad del conjunto de reglas, y restricciones de similaridad de los conjuntos fuzzy gaussianos. Para los experimentos se han utilizado dos campos de fundamentales de aplicación, en el screening virtual para el descubrimiento de fármacos, y en la gestión de las habilidades profesionales de agentes en un centro de contacto con datos extraídos de la empresa GAP S.R.L. en el norte de Italia. También se han utilizado bases de datos públicas del UCI Machine Learning Repository por razones de reproducibilidad. Los resultados han sido analizados siguiendo metodologías propias del análisis inteligente de datos, y las conclusiones están abaladas por tests estadísticos, los cuales muestran un excelente comportamiento de las técnicas propuestas tanto para selección de atributos como para clasificación basada en reglas, en comparación con otras técnicas, algoritmos y clasificadores del estado del arte ampliamente consolidados.