Interfaces del lenguaje natural para la consulta y recuperación de información de bases de conocimiento basadas en ontologías

Paredes Valverde, Mario Andres

Interfaces del lenguaje natural para la consulta y recuperación de información de bases de conocimiento basadas en ontologías

Paredes Valverde, Mario Andres

unter der Leitung von:

Rafael Valencia García Doktorvater
Miguel Ángel Rodríguez García Doktorvater/Doktormutter

Universität der Verteidigung: Universidad de Murcia

Fecha de defensa: 16 von Mai von 2017

Gericht:

Juan Miguel Gómez-Berbís Präsident/in
Francisco García Sánchez Sekretär
Catalina Martínez Costa Vocal

Fachbereiche:

Informática y Sistemas

Art: Dissertation

Teseo: 144040 DIALNET DIGITUM editor

Zusammenfassung

Objetivos. Existe un exponencial crecimiento de información disponible en bases de conocimiento semánticas, sin embargo, el acceso a este tipo de información requiere experiencia en el uso de lenguajes formales de consulta y el conocimiento de la estructura de datos de la base de conocimiento subyacente. El objetivo principal de esta tesis es la investigación y desarrollo de soluciones basadas en tecnologías de procesamiento de lenguaje natural y Web Semántica que permitan reducir la brecha existente entre el usuario y las bases de conocimiento a través de lenguaje natural. Metodología. La metodología seguida durante el desarrollo de esta tesis se divide en cuatro partes principales. (1) Estudio del arte que permita conocer todos aquellos desarrollos de última tecnología realizados en los contextos de Web Semántica, procesamiento de lenguaje natural e interfaces de lenguaje natural. (2) La propuesta de solución se formaliza en tres elementos: (a) una ontología para la descripción de la estructura sintáctica de la pregunta, así como de su contexto en términos de la base de conocimiento del dominio; (b) Proceso de análisis de la pregunta basado en análisis de dependencias sintáctica; y (c) Proceso de generación de consultas SPARQL a partir de la representación semántica de la pregunta. (3) Implementación de la solución propuesta por medio de herramientas de procesamiento de lenguaje natural y Web Semántica. (4) Validación de las soluciones propuestas utilizando bases de conocimiento basadas en Linked Data. En concreto, Dbpedia, un esfuerzo comunitario por extraer conocimiento estructurado de Wikipedia; y MusicBrainz, una fuente de información ampliamente utilizadas en el dominio de la música. Resultados. Como resultados se obtiene: (a) Una ontología que permite describir semánticamente la estructura sintáctica de la pregunta y el contexto de ella en términos de la base de conocimiento del dominio. (b) Una clasificación de preguntas y respuestas adaptada al contexto de bases de conocimiento. (c) Un método para la representación semántica de la pregunta en lenguaje natural basada en el análisis sintáctico de dependencias. (d) Un conjunto de plantillas RDF que permiten la generación de consultas SPARQL a partir de la representación semántica de la pregunta. (e) Una interfaz de lenguaje natural que permite la obtención de respuesta de bases de conocimiento semánticas a partir de preguntas expresadas en lenguaje natural. Esta interfaz implementa cada uno de los resultados antes mencionados. Conclusiones. Las bases de conocimiento basadas en ontologías han sido adoptadas por individuos y organizaciones de múltiples dominios debido a que, entre otras cosas, permiten asignar a la información un significado bien definido que puede ser entendido tanto por humanos como por computadoras. Sin embargo, el acceso a estas bases de conocimiento sigue siendo un reto para una gran parte de los usuarios pues demanda el conocimiento de tecnologías de la Web Semántica, lenguajes formales de consulta, así como la estructura de datos de dicha fuente de información. Utilizar un enfoque basado en lenguaje natural permite al usuario utilizar el lenguaje que ya tiene en vez de verse forzado a utilizar un lenguaje poco natural o limitado. Las herramientas desarrolladas han demostrado ser efectivas en la obtención de información de bases de conocimiento semánticas a partir de preguntas expresadas en lenguaje natural, contribuyendo así, a reducir la brecha existente entre el usuario y este tipo de bases de conocimiento. Aims of the thesis. A lot of individuals and organizations from different domains have adopted the ontology-based approach to publish their information. This has led to an exponential growth of information available on the Web and intranets represented by RDF. Nowadays, the access to this kind of information is performed by using formal query language such as SPARQL. However, this approach is complicated for casual users because of the necessity of learning formal query language of the functioning of graphical interfaces, and even, of knowing the underlying knowledge base structure. This thesis aims to provide natural language-based solutions for reducing the gap between ontology-based knowledge bases and users. Methodology. The methodology followed in this research is decomposed on next main tasks. (1) Analysis of the state of art, which involves studying the technologies used in this research, namely, Semantic We, Natural Language Processing, and Natural Language Interfaces. (2) Formalization of three elements: (a) an ontology for representing the syntactic structure and context of the natural language question; (b) Question's analysis process based on the dependence analysis; and (c) Generation of SPARQL-based queries based on the semantic representation of the question. (3) Implementation of the proposal by means of natural language processing and Semantic Web technologies. (4) Validation of the proposal on Linked Data based knowledge bases, namely, DBpedia and MusicBrainz. Results. The main contributions of this work are: (a) An ontology for representing the syntactic structure and context of the natural language question. (b) Question and answer classification adapted to the context of ontology-based knowledge bases. (c) A method for the representing the natural language question based on the dependence analysis. (d) A set of RDF-based templates that are the basis for the generation of graph pattern that constitute the SPARQL-based query. (e) A natural language interface that allows obtaining information from semantic knowledge bases. This interface implements all contributions above. Conclusions. The semantic knowledge bases have been adopted by individuals and organizations of different domains. However, current mechanisms for accessing this type of knowledge bases are intended to be used by users with knowledge and expertise on Semantic Web technologies. Natural language solutions allow users to use all communicative power of language that they already possess instead of being forced to use an unnatural and limited mode of communication. Furthermore, NLIs hide from users the formality of a knowledge base as well as the formal query language. The developed tools have demonstrated their effectiveness in providing information (domain knowledge base resources) that answers the user's question. Therefore, we have presented our effort for reducing the gap between ontology-based knowledge bases and users.