Charles Schmitt, Director of Informática y Ciencias de los Datos de RENCI, UNC
La Universidad de Carolina del Norte en Chapel Hill (UNC) ha decidido invertir a fondo en tecnologías de secuenciación genómica tanto para respaldar la atención clínica de su sistema sanitario como para seguir investigando en biología y en el genoma. Esta iniciativa a nivel institucional es una empresa de muchos datos que exige analizar y gestionar de cientos a miles de datos de genomas individuales para que se adapten a las diferentes necesidades del personal médico y los investigadores.
Para afrontar este reto del Big Data, utilizamos un proceso de tres pasos. Empieza en el laboratorio, donde se recoge el tejido del paciente. Luego se realiza una combinación de 11 secuenciadores genómicos de alta capacidad de producción, creados por Illumina y Pacific Biosciences, que generan cientos de millones de secuencias cortas del ADN de cada paciente. Con estos datos, los investigadores utilizan flujos de trabajo informáticos en paralelo para volver a unir el genoma y realizar controles de calidad y solucionar errores.
Una vez se han reunido todos los genomas, la segunda fase detecta las variaciones de un individuo, generalmente utilizando grandes poblaciones de pacientes para solucionar las ambigüedades en los datos de la secuencia del individuo. Estos datos se organizan en una solución híbrida que utiliza una base de datos relacional para almacenar variaciones canónicas, sistemas de archivos de alto rendimiento para almacenar los datos y un enfoque basado en Hadoop* para análisis de datos exigentes. Los vínculos con dominios públicos y bases de datos privadas ayudan a los investigadores a identificar la repercusión que tienen las variaciones en la formación de proteínas, ya se sepa que las variantes están asociadas con las condiciones clínicas relevantes, así como otras características conocidas de la variación.
El paso final consiste en emitir un informe a los médicos, esta es la tercera fase del proceso. La clave para esta fase es un proceso denominado “agrupación clínica” que se realiza utilizando un programa de software creado y personalizado por la UNC para tal efecto. Este proceso asigna una importancia clínica a cada una de las variantes, permitiendo al personal clínico y a los pacientes determinar los tipos de variantes que más les importan. Una vez las variantes se han agrupado, contamos con un sitio web que envía la información sobre el individuo a su médico. Esta fase también gestiona el proceso general, desde la extracción de sangre hasta el análisis pasando por los informes, incluyendo varias fases que proporcionan validación independiente de las variantes identificadas.
Nuestra solución se sustenta en un clúster de gran tamaño que utiliza 50 servidores de hoja equipados con procesadores Intel® que procesan hasta 30 genomas a la semana. Ahora mismo, disponemos entre 200 y 300 terabytes de datos genómicos en un sistema de datos EMC Isilon* de gran tamaño.
La gestión de los datos genómicos se organiza a través de una tecnología de red de datos basada en la UNC denominada Enterprise iRODS*. La seguridad de los datos de los pacientes y de los genomas está cubierta por la tecnología Secure Medical Workspace* creada por la UNC.
El sistema Hadoop nos permite realizar análisis muy personalizados que no se encontrarían en una herramienta de inteligencia empresarial tradicional ni funcionarían en un tipo de estructura relacional SQL*. Nuestros análisis se arreglan bien con una estructura MapReduce*. La otra cuestión es que las pruebas con bases de datos que utilizan ETL (extraer, transformar y cargar por sus siglas en inglés) tardan mucho tiempo en ejecutarse con tantos datos. Con Hadoop no hay ETL, sólo tenemos que añadir un archivo al sistema.
Hemos aprendido mucho del análisis del Big Data. Por ejemplo, hemos invertido en algunas tecnologías que se han diseñado para ofrecer flexibilidad en flujos de trabajo que funcionan en diferentes clústeres informáticos, antes incluso de que supiéramos qué era lo que realmente necesitábamos. En su lugar, estaríamos mejor sin centrarnos en personalizar nuestras necesidades analíticas específicas para nuestra infraestructura actual. Pero esto siempre es un reto que afrontar.
Lo mejor que hemos hecho es agilizar nuestros procesos y ser flexibles en los enfoques técnicos. Después de todo, la secuenciación genómica es una nueva tecnología y las cosas están cambiando muy rápidamente. Las preguntas que las personas se hacen en la actualidad cambian igual de rápido, por lo que las soluciones informáticas deben ser igualmente adaptables y ajustables.

