Charles Schmitt, Director of Informatics and Data Sciences på RENCI, UNC
University of North Carolina i Chapel Hill (UNC) beslutade att göra stora investeringar i teknik för genomsekvensering, både för att stödja det kliniska vårduppdraget och för att främja grundforskningen inom genomik och biologi. Initiativet inbegriper hela institutionen och är ett dataintensivt projekt som innebär att man hanterar och analyserar hundratals till tusentals enskilda genom på ett sätt som är anpassat till läkarnas och forskarnas olika behov.
Vi använder oss av en trestegsprocess för att hantera dessa stora datamängder. Det börjar i våtlabbet, där patientens vävnad samlas in. Därefter används en kombination av 11 genomsekvenseingsmaskiner med hög genomströmning, tillverkade av Illumina och Pacific Biosciences, för att generera hundratals miljoner korta DNA-sekvenser för varje patient. Forskarna använder sedan dessa data i parallelliserade datorarbetsflöden för att montera ihop genomet på nytt och kontrollera kvaliteten – och samtidigt åtgärda problem – hos det monterade genomet.
När genomen har monterats inleds det andra steget, där vi identifierar variationer för en individ. Det gör vi ofta utifrån stora patientpopulationer, vilket hjälper oss att reda ut oklarheter i individens sekvenseringsdata. Dessa data arrangeras i en hybridlösning där vedertagna variationer lagras i en relationsdatabas, data lagras i filsystem med hög prestanda och dataintensiva analyser görs med Hadoop*-baserade metoder. Med hjälp av länkar till öppna och privata databaser kan forskarna fastställa variationers effekter på proteinbildningen, om det har påvisats att det finns något samband mellan varianterna och kliniskt relevanta tillstånd och om en variation har några andra kända egenskaper.
Det sista och tredje steget är att rapportera till läkarna. En viktig del av det är en process som benämns ”klinisk indelning" (clinical binning), som görs med en skräddarsydd programvara som har utvecklats av UNC. Programmet används för att avgöra varje enskild variants kliniska relevans, vilket gör att läkarna och patienterna kan välja vilka varianttyper som är intressanta. När den kliniska indelningen har gjorts levererar vi informationen om en viss patient till hans eller hennes läkare via en webbplats. I det här steget hanterar vi även den övergripande processen, från blodprov till analys till rapport, vilket inkluderar en rad steg där det görs en oberoende validering av de påvisade varianterna.
Vår lösning bygger på ett stort produktkluster med 50 bladservrar baserade på Intel® processorer som bearbetar upp till 30 genom per vecka. För tillfället har vi omkring 200 till 300 terabyte genomdata i ett stort datasystem från EMC Isilon*.
Hanteringen av genomdata sker med hjälp av den UNC-baserade datatabellstekniken Enterprise iRODS*. Med den UNC-utvecklade tekniken Secure Medical Workspace* garanteras säkerheten för känsliga genom- och patientdata.
Tack vare Hadoop-systemet kan vi utföra analyser som är skräddarsydda på ett sätt som inte förekommer i vanliga beslutsstödsverktyg och som inte skulle kunna göras i en relationsbaserad struktur av typen SQL*. Våra analyser lämpar sig väl för en MapReduce*-struktur. En annan sak är att det tar oerhört lång tid att utföra testning med databaser som extraherar, omvandlar och läser in data (ETL) när det gäller så stora datamängder. Med Hadoop slipper vi ETL – det är bara att lägga till en fil i systemet.
Vi har lärt oss mycket om analys av stora datamängder. Vi investerade till exempel i en del tekniker som var tänkta att ge flexibilitet i arbetsflöden under körning i olika datorkluster – innan vi ens visste vad vi egentligen behövde. Det hade varit bättre om vi hade fokuserat på att anpassa våra specifika analysbehov efter den befintliga infrastrukturen. Det är ju förstås alltid en fråga om att balansera.
Vår främsta bedrift är att vi har fortsatt att ha agila processer och att vi har varit flexibla i fråga om teknik. Genomsekvensering är ju faktiskt en ganska ny teknik, och omständigheterna ändras ständigt. Och de frågor som ställs i dag ändras också snabbt, vilket innebär att våra informatiklösningar måste var minst lika flexibla.

