Algoritmos de combinación de clasificaciones y distancias para el análisis de datos de expresión genómica

BLANCO GONZÁLEZ, ÁNGELA

Algoritmos de combinación de clasificaciones y distancias para el análisis de datos de expresión genómica

BLANCO GONZÁLEZ, ÁNGELA

Dirigida por:

Manuel Martín-Merino Acera Director
Javier de las Rivas Sanz Codirector/a

Universidad de defensa: Universidad Pontificia de Salamanca

Fecha de defensa: 21 de octubre de 2009

Tribunal:

Luis Alonso Romero Presidente/a
Ana María Fermoso García Secretaria
Luis Joyanes Aguilar Vocal
Quintín Martín Martín Vocal
G.I. Sáinz Vocal

Tipo: Tesis

Teseo: 299734 DIALNET

Resumen

Los microarrays de DNA permiten monitorizar los niveles de expresión de grandes cantidades de genes de manera simultánea. Dicha tecnología ha sido aplicada para la predicción de diferentes tipos de cáncer con resultados esperanzadores. Varias técnicas de aprendizaje automático han sido propuestas para realizar dicha predicción como las Máquinas de Vectores Soporte (SVM) o k- NN (k-vecinos más cercanos). Los microarrays presentan ciertas características que se deben tener en cuenta a la hora de aplicar técnicas de reconocimiento de patrones. Se dispone de muy pocas muestras etiquetadas y el espacio de genes está codificado en alta dimensión. Los algoritmos propuestos están basados en la distancia euclídea que no refleja de manera fiel las proximidades entre perfiles de expresión. Además, se debe buscar reducir los errores de clasificación y en especial los falsos negativos que son los que tienen un mayor impacto en la salud del paciente. La SVM es especialmente recomendable en el problema de microarrays de DNA porque es robusta frente al ruido y capaz de trabajar con problemas de alta dimensión. Varias extensiones han sido propuestas que incorporan distancias no euclídeas. Puesto que no hay un clasificador óptimo, en la literatura se ha propuesto combinar clasificadores que exhiben características diferentes para reducir el error. Dichas técnicas muestrean aleatoriamente los patrones o los genes reduciendo el tamaño de la muestra de entrenamiento. Como consecuencia, aumenta el sesgo y el error de la combinación. En esta tesis, se realiza un estudio riguroso y original de las distancias en el contexto de microarrays estudiando diferentes criterios que nos dan idea del impacto de la métrica en los resultados tanto de clasificación como de cluster. Para evitar la elección de una distancia concreta y aprovechar la información proporcionada por las diferentes medidas, se proponen diferentes métodos para combinar clasificadores. La diversidad se induce considerando diferentes disimilaridades, diferentes kernel no lineales, diferentes transformaciones no lineales y diferentes modelos de clasificación. Este enfoque evita reducir el tamaño de la muestra como ocurre en las técnicas de remuestreo. Se proponen dos métodos para incorporar una combinación de disimilaridades no euclídeas en la SVM. Se busca que la disimilaridad resultante refleje mejor las proximidades entre los perfiles de expresión. La combinación se aprende en un HRKHS (Hyper Reproducing Kernel Hilbert Space) siguiendo la aproximación de los hiperkernels. Esta aproximación es menos propensa al sobreajuste que otros métodos de combinación propuestos en la literatura. La propuesta ha sido aplicada a la predicción de diferentes tipos de cáncer y a la predicción de la función de los genes obteniéndose resultados prometedores.