MLL nutzt AWS Cloud Computing Infrastruktur für NGS-Daten

Beitragsbewertung
Beitrag bewerten

Durch eine rasante Steigerung der Technologie zur Sequenzierung wird es leichter, einen immer größeren Anteil der DNA auszulesen. Genpanels sind schon Standard in der Leukämiediagnostik und ein Wechsel auf Exomsequenzierung mittelfristig absehbar. Jedoch ist die Fähigkeit, diese Daten zu interpretieren, nicht im gleichen Maß gewachsen. Es werden dazu leistungsfähige Verbünde von Rechnern benötigt, um die großen Datenmengen eines üblichen Next-Generation-Sequencing (NGS) Laufs zu analysieren.

Durch niedrigere Sequenzierkosten und die Einführung von Geräten mit signifikant höherer Kapazität steigt der Sequenzierdurchsatz. Damit verlagert sich der Flaschenhals weg von der Sequenzierung hin zur Datenverarbeitung und -interpretation. Die jetzt zunehmende Verfügbarkeit von Rechenressourcen durch sog. Cloud Computing konkurriert damit mit einer großen initialen Investition in die lokale Rechnerinfrastruktur.

Das MLL hat deshalb eine initiale Evaluierung von Cloud Computing für NGS im Rahmen des 5.000 Genom Projekts unternommen. Schnell wurde klar, dass dieses Projekt Petabytes an Daten produzieren würde, die verarbeitet und langfristig sicher im Rahmen einer ISO 27001 gesicherten und DSGVO konformen Rechnerlandschaft gespeichert werden müssen. Der Aufbau einer derartigen Infrastruktur hätte eine große initiale Arbeitslast und Kosten für das MLL bedeutet. Auch die Unterhaltskosten sind immens. Mit der Entscheidung zur Nutzung von Cloud Computing und dem damit einhergehenden Pay-per-use Ansatz ist das entfallen und wir konnten uns komplett auf das Ziel des Projekts fokussieren: eine bessere Leukämiediagnostik auf molekularer Basis. 

Nach den ersten positiven Erfahrungen von Cloud Computing im Rahmen dieses Forschungsprojektes haben wir uns entschieden, auch für die Auswertung der Daten der NGS-Routinediagnostik in die Cloud umzusteigen, nachdem wir die Jahre zuvor aufwändige lokale Lösungen suchen mussten, um trotz immer größer werdenden Datenvolumina eine gleichbleibende Turnaround-time zu gewährleisten.

Eine Akkreditierung der so neu aufgesetzten NGS Paneldiagnostik nach DIN EN ISO 15189 und DIN EN ISO/IEC 17025 mit einer eigens dafür entwickelten Pipeline unter Nutzung von Illuminas BaseSpace und der AWS Cloud Computing wurde Anfang 2019 durchgeführt. Mit dieser Pipeline hat die Anzahl an täglichen Patientendaten keinen Einfluss mehr auf die Verarbeitungsdauer, da die Daten eines jeden Patienten in der Cloud parallel und zeitgleich verarbeitet werden können. 

Mit der Fähigkeit von Cloud Computing zu einer nahezu unendlichen Skalierung, sowohl was die Verarbeitung als auch die Speicherung von Daten angeht, sehen wir uns gut gerüstet für die zukünftige Entwicklung von NGS – sei es durch die Erweiterung der Panels, Whole exome- oder Whole genome Sequenzierung. Darüber hinaus streben wir an, weitere Workflows in die MLL-eigene Partition der AWS Cloud zu verlagern. Im Rahmen von Kollaborationsprojekten mit AWS und seinem Envision-Engineering-Team erarbeiten wir z.B. gerade skalierbare Lösungsansätze, um die Zelldifferenzierung in der Zytomorphologie durch Künstliche Intelligenz durchzuführen und in der Immunphänotypisierung Durchflusszytometriedaten ohne manuelles Gating automatisch zu analysieren.