Minería de opiniones basada en características guiada por ontología

  1. Peñalver Martínez, Isidro
Dirigida por:
  1. Francisco García Sánchez Director
  2. Rafael Valencia García Director

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 24 de junio de 2015

Tribunal:
  1. Rodrigo Martínez Béjar Presidente
  2. Ángela Almela Sánchez-Lafuente Secretaria
  3. Dagoberto Castellanos Nieves Vocal
  4. Alejandro Rodríguez González Vocal
  5. Juan Miguel Gómez-Berbís Vocal
Departamento:
  1. Informática y Sistemas

Tipo: Tesis

Resumen

OBJETIVOS El trabajo realizado en esta tesis doctoral persigue los siguientes objetivos: (i) Definición y formalización de una metodología de minería de opiniones basada en características para clasificar los sentimientos de las opiniones. Esta metodología incluirá procesamiento del lenguaje natural, identificación de características, cálculo de la polaridad de las características y análisis de sentimientos; (ii) Diseño e implementación de una aplicación software para llevar a cabo el proceso de análisis de sentimientos de las opiniones de los usuarios. Este sistema se diseñará para cumplir con los requisitos que implica el entorno de minería de opiniones descrito. Se emplearán para ello las tecnologías más novedosas y los recursos mejor valorados disponibles actualmente; (iii) Validación de la aplicación de software en varios dominios. La metodología propuesta y el software desarrollado serán validados en dos dominios totalmente diferentes: opiniones sobre películas y finanzas. METODOLOGÍA La metodología que se ha creado responde a un innovador sistema de análisis de sentimientos basado en características que utiliza como base de conocimiento una ontología del dominio. Esta metodología propuesta es independiente del dominio y del idioma empleados. A partir de ella se identifican las características relevantes dentro de cada opinión. Durante el proceso de identificación se tiene en cuenta la estructura semántica de la ontología. Cada una de las frases que contengan expresiones lingüísticas que estén directamente relacionadas con términos de la ontología se tienen en cuenta para calcular la polaridad global de la opinión del usuario. La aplicación de esta metodología ha propiciado el desarrollo de un nuevo software para la clasificación de sentimientos de opiniones basado en cálculos vectoriales en el espacio R3. CONCLUSIONES El tipo de lenguaje informal que emplean los usuarios en sus opiniones dificulta mucho el empleo de técnicas de PLN efectivas. Las herramientas que tenemos en la actualidad no contemplan irregularidades lingüísticas en la mayoría de los casos. La investigación llevada a cabo en este trabajo ha estado motivada principalmente por la carencia de recursos, métodos y herramientas para un efectivo procesamiento de la información subjetiva. Además, el uso de ontologías en el proceso de minería de opiniones basada en características resulta muy beneficioso. El sistema de software implementado alcanza resultados óptimos cuando hay muchas palabras con alto contenido emocional cerca de la expresión lingüística que identifica a una característica dentro de la opinión de un usuario. Ya que el sistema tiene mucha información para poder calcular correctamente la polaridad de la característica. Dependiendo del dominio en el que se trabaje se tendrá un grado de subjetividad más o menos alto a la hora de clasificar las características identificadas en las opiniones. En dominios donde la ambigüedad y el margen de interpretación en función del contexto son bajos, cómo por ejemplo el dominio de las películas, los resultados para la clasificación de sentimientos de características serán buenos. En otros donde las opiniones tengan mucho margen de interpretación, exista un componente de ambigüedad alto y las opiniones tengan un significado muy ligado al momento temporal en el que se emiten, los resultados para la clasificación de sentimientos de características serán peores. Este es el caso del dominio financiero. OBJECTIVES The work done in this thesis has the following objectives: (i) Definition and formalization of a feature-based opinion mining methodology to classify the feelings of opinions. This methodology will include natural language processing, feature identification, features polarity calculation and sentiment analysis; (ii) Design and implementation of a software application to perform the sentiment analysis in user reviews. This system will be designed to meet the requirements involving the methodology. The latest technologies and the most valued resources currently available will be used; (iii) Validation of the software application in several domains. The proposed methodology and the software application will be validated in two entirely different domains: movies and finance reviews. METHODOLOGY The methodology proposed in this work has been used to develop a software system to perform featured-based opinion mining in user reviews. It uses a domain ontology as knowledge base. This methodology is independent of the domain and language used. The relevant features are identified within each review. During the features identification process the system uses the semantic structure of the ontology. Each phrase that contain linguistic expressions that are directly related to ontology concepts are taken into account when calculating the overall polarity of the user opinions. The system for the classification of feelings in user opinions is based on vector calculations in the R3 space. CONCLUSIONS The informal language used by users in their opinions hinders the use of effective NLP techniques much. In most cases the existing tools do not include irregularities linguistic. The research conducted in this work has been motivated primarily by a lack of resources, methods and tools for effective processing of subjective information. Furthermore, the use of ontologies in the feature based opinion mining process produces large profits. The software system deployed achieves optimal results when there are many words with high emotional content near linguistic expression identifying a feature within a user's opinion. Since the system has a lot of information to calculate the feature polarity properly. Each domain will have a degree of subjectivity rather high when classifying identified features in the opinions. In domains where ambiguity and interpretation depending on the context are low, such as the domain of movies, the results for features sentiment analysis are promising. In other where opinions have much interpretation of context and there is a high component ambiguity results for feature based opinion mining process will be worse. This is the case in the financial domain.