Integración de información biomédica basada en tecnologías semánticas avanzadas
- Jesualdo Tomás Fernández Breis Directeur
Université de défendre: Universidad de Murcia
Fecha de defensa: 28 juillet 2015
- José Alberto Maldonado Segura President
- Francisco García Sánchez Secrétaire
- Ronald Cornet Rapporteur
Type: Thèses
Résumé
Objetivos La medicina traslacional requiere la explotación integrada de información biomédica para dar soporte a la investigación, sin embargo, resulta difícil el acceso al conocimiento biomédico, por ser heterogéneo y estar distribuido entre distintos sistemas de información. El objetivo principal de esta tesis es la investigación y desarrollo de soluciones basadas en las tecnologías de la Web Semántica para la integración de conocimiento biomédico utilizado en medicina traslacional. Metodología Para conseguir este objetivo, primero se lleva a cabo un estudio del estado del arte que incluye los formatos de representación más comunes de la información biomédica, las tecnologías de la Web Semántica y su aplicación en el ámbito biomédico, las propuestas de transformación de contenidos a representación semántica y los sistemas de integración de repositorios heterogéneos. Después, la solución propuesta se formaliza en tres pasos: (1) formalización de una metodología de transformación genérica de información, (2) formalización de un proceso de integración de recursos heterogéneos basado en transformación a una ontología OWL, (3) formalización de una plataforma de integración, gestión y explotación de información biomédica. Todas estas soluciones se implementan en herramientas web. Por último, las soluciones propuestas se validan en cuatro escenarios diferentes: clasificación automática de pacientes a partir de sus datos clínicos dentro un programa de cribado de cáncer de colon y recto; transformación entre modelos clínicos CEM y arquetipos openEHR; creación de un repositorio integrado de genes ortólogos, enfermedades y anotaciones sobre secuencias genómicas; representación OWL de bases de datos de componentes químicos. Resultados Como resultado se obtiene: " Un modelo de transformación genérica de datos. Está compuesto de reglas de correspondencia que permiten la transformación de instancias de entrada a una representación según un modelo de salida, de reglas de identidad que identifican instancias redundantes, y que usa patrones de diseño para realizar transformaciones más complejas. " Un modelo de integración de información biomédica heterogénea, que aplica el modelo de transformación y tiene como modelo de salida una arquitectura ontológica (ontología OWL y patrones de diseño de contenido ontológico) para la transformación e integración de recursos heterogéneos en un repositorio único. " Una plataforma de integración, gestión y explotación de información biomédica, que explota distintas representaciones OWL de modelos clínicos e incluye métodos de validación, anotación, comparación, y búsqueda semántica, además de permitir la ejecución de procesos de transformación e integración. " Dos herramientas web que implementación las soluciones. SWIT realiza la transformación de información a representación RDF/OWL, mientras que ArchMS implementa la plataforma integrada que permite la gestión y explotación de modelos y datos clínicos y su explotación en repositorios semánticos junto a otros recursos biomédicos externos. Conclusiones Los estándares de información clínica tratan de favorecer la interoperabilidad semántica de la información, mientras que propuestas como Linked Open Data fomentan la publicación y enlazado de los datos biomédicos. Sin embargo, los lenguajes utilizados para representar modelos clínicos resultan insuficientes para su gestión, mientras que la mayoría de métodos de publicación de datos en la Web de Datos no tienen en cuenta la semántica del contenido y son difíciles de generalizar. Utilizar modelos globales basados en ontologías OWL en la transformación e integración de contenidos permite definir una transformación dirigida por la semántica del dominio y utilizar esta semántica para explotar el repositorio final. OWL permite validar y comparar el contenido atendiendo a su semántica y facilita la integración de recursos. Las herramientas desarrolladas han demostrado ser efectivas en su utilización en distintos escenarios de validación, creando repositorios semánticos abiertos que contribuyen al desarrollo de la Web de Datos y permitiendo su explotación en el espacio tecnológico de la Web Semántica. Aims of the thesis Translational medicine requires intensive collaboration between different areas of biomedical informatics. However, this collaboration is difficult due to the fact that the biomedical knowledge generated by the different disciplines has the quality of being distributed and heterogeneous. This thesis aims to assist translational research by improving the integrated exploitation of biomedical information through the use of Semantic Web technologies. Methodology The methodology proposed is based on the analysis of the state of art, the formalization of the proposed methods, their implementation and their validation in application domains. The analysis of the state of art includes the study of the most common representation formats for biomedical information, the application of Semantic Web technologies to the biomedical domain, methods of content transformation to semantic representation and existing proposals for integrating heterogeneous repositories. The proposed solution is formalized in three steps: (1) formalization of a generic methodology for semantic data transformation, (2) formalization of a heterogeneous resources integration process based on the transformation into an OWL ontology, (3) formalization of an integrated platform for managing and exploiting the biomedical information. All these proposed solutions are implemented in web tools. The solutions have been validated in four different scenarios: study of clinical data from patients of a colorectal screening program for performing automatic classification of the patients; transformation between CEM clinical models and openEHR archetypes; creation of an integrated repository about orthologous genes, genetic disorders and information about genomic sequences annotations; transformation of a dataset of chemical components into an OWL representation. Results The main contributions of this work are: " A generic data transformation model between structured representation schemata. The definition of mappings transforms input instances into a representation guided by the output model. Identity rules identify redundant instances. The accepted input and output models are defined by a metamodel and the use of design pattern allows making more complex transformations. " A heterogeneous biomedical information integration model. Through the instantiation of the transformation model with an output model defined by an ontological architecture (OWL ontology and ontology design content patterns), different heterogeneous resources are transformed and integrated. " A platform for integrating, managing and exploiting biomedical information. The platform selects the most suitable OWL representations for clinical models and includes semantic methods for validating, annotating, comparing and searching together with the defined transformation and integration models. " Implementation of the transformation and integration models, and the integrated platform in two web applications. SWIT implements the transformation model while AchMS implements the integrated platform. Conclusions Al the clinical level, Electronic Health Record standards intend the achievement of semantic interoperability, while initiatives like Linked Open Data pursues the publication and sharing of biomedical datasets. However, the syntactic nature of languages used for clinical models representation is not enough for their management, while methods for datasets publication in the Web of Data make a syntactic transformation, guided by the logical schema of the source representation and there exists problems in the generalization of the methods. The use of global models based on OWL ontologies for representing information content allows the definition of transformation processes driven by the domain semantics, which can be exploited in the final repository. An OWL representation allows the validation and comparison of the content attending to its semantic, making easier the integration of different resources. The developed tools have demonstrated their effectiveness in different validation scenarios, creating semantic open datasets that will contribute to the development of the Web of Data and allowing their exploitation in the Semantic Web technological space.