Modelos de análisis semántico de información y conocimiento genético y genómico para el estudio de enfermedades genéticas y cáncer

  1. Almagro Hernandez, Gines
Dirigida por:
  1. Jesualdo Tomás Fernández Breis Director

Universidad de defensa: Universidad de Murcia

Fecha de defensa: 17 de noviembre de 2020

Tribunal:
  1. Manuel Franco Nicolás Presidente
  2. Horacio E. Pérez Sánchez Secretario/a
  3. M. Carme Camps Febrer Vocal
Departamento:
  1. Informática y Sistemas

Tipo: Tesis

Resumen

Modelos de análisis semántico de información y conocimiento genético y genómico para el estudio de enfermedades genéticas y cáncer Autor: Ginés Almagro Hernández Director: Dr. Jesualdo Tomás Fernández Breis Un experimento (ChIP-seq) realizado parar estudiar el comportamiento de una proteína de unión al DNA concreta, en una línea celular específica sometida a una condición biológica determinada, consistente en una etapa de inmuno-precipitación de fragmentos de cromatina (ChIP) y su posterior identificación mediante tecnología de secuenciación (seq) con técnicas denominadas Next Generation Sequencing (NGS). Los métodos de análisis de los resultados (regiones enriquecidas o peaks) de este tipo de experimentos, implementados hasta ahora, tienen en común dos características principales: (i) El tratamiento de la incertidumbre que envuelve a dichos resultados mediante el uso de métodos estadísticos basados en modelos dicotómicos. (ii) El tipo de resultados de estos análisis consisten en relacionar un elemento funcional (gen, término Gene Ontology, rutas metabólicas) a un p-value calculado mediante un test de enriquecimiento. Objetivos El objetivo principal de esta tesis es el diseño, implementación y evaluación de un marco analítico multi-nivel, escalable, flexible, con una sólida base estadística n-dimensional e interpretación matemática, basado en la elaboración de unos modelos de conocimiento que proporcionan la semántica y estructura necesaria para tratar la numerosa, heterogéna y compleja información genómica y biológica existente. Con el fin de evaluar el comportamiento a escala genómica de la proteína en estudio. Para poder conseguir esto, los objetivos secundarios definidos son: (i) Abordar la incertidumbre que acompaña a los resultados de este tipo de experimentos mediante métodos estadísticos, basados en una distribución hipergeométrica multivariada, no utilizados hasta ahora. (ii) Crear estándares de actuación en los análisis y modelos necesarios, con el fin de generar perfiles de referencia que describan una específica terna (proteína, línea celular, condición biológica). (iii) Permitir la comparación, compartición, evaluación e integración de los datos obtenidos de este tipo de experimentos, independientemente de donde se hayan realizado. Metodología Diseño, desarrollo e implementación de los modelos de conocimiento: (i) El Genome Model, que alberga información sobre el genoma en estudio, tanto sobre su estructura (cromosomas, gaps, regiones autosomales,¿), como sobre las entidades funcionales que lo componen (genes de varios biotípos, secuencias funcionales como enhancers, insulators,¿). (ii) El Gene Model, que alberga información sobre las entidades funcionales que codifican algún producto funcional, ya esta este una proteína, un tRNA, iRNA, etc. (iii) El Functional Model, que alberga información sobre recursos funcionales, tales como rutas metabólicas, términos funcionales, etc. Conversión de los modelos de conocimiento anteriores en modelos probabilísticos, representando una población finita de posibles sitios de unión de la proteína al genoma del organismo en estudio. Diseño de un marco analítico que interrelacione los modelos probabilísticos anteriores con los peaks del experimento mediante un análisis matemático y estandarizado, que determine el comportamiento de la proteína en estudio a diferentes niveles de resolución, como son el Region level, Gene level y Functional level. Validación del marco analítico multi-nivel desarrollado en esta tesis tomando el genoma humano como modelo. Para ello se han tomado de la base de datos pública Remap 2020, 19 experimentos ChIP-seq agrupados en 7 estudios sobre la proteína MYC, en las líneas celulares P493-6 y U2OS. Resultados y Conclusiones Los resultados obtenidos verifican la hipótesis principal de esta tesis, que los peaks obtenidos de un experimento ChIP-seq se pueden modelar como el resultado de un experimento aleatorio que se ajusta a una distribución hipergeométrica multivariada. Proporcionando así un nuevo marco de análisis sobre este tipo de experimentos. El cual minimiza los efectos de la incertidumbre que acompaña a los resultados de dichos experimentos, generando nueva información y conocimiento sobre el comportamiento de la proteína en estudio, desde perspectivas innovadoras y diferentes a las utilizadas hasta la fecha.