Whole Genome Sequencing (WGS)

Jede menschliche Zelle beherbergt in ihrem Zellkern den kompletten diploiden Chromosomensatz (46, XY bzw. 46, XX), der die gesamte Erbinformation eines jeden Menschen trägt. Die informationstragende DNA besteht aus 3 Milliarden Basenpaaren, die für ca. 23.000 Gene kodieren. Da jede menschliche Zelle, unabhängig von ihrer Funktion, die identische DNA enthält, stellt die DNA den ursprünglichsten Baustein der Zelle dar. Das Whole Genome Sequencing (WGS) zielt darauf ab, die komplette Erbinformation eines Menschen zu lesen, die Polymorphismen zu erkennen und somatische Mutationen, die in der Krebsdiagnostik eine wichtige Rolle spielen, zu identifizieren.

Die DNA zweier Menschen ist sehr ähnlich (99,9% Identität), unterscheidet sich jedoch in einer Vielzahl an Polymorphismen (ca. 4 Mio. unterschiedliche Basen pro Mensch). Man kennt aktuell ca. 10 Millionen Polymorphismen, dies entspricht ca. 1 Veränderung pro 1.300 Basenpaaren, die jeder Mensch durch die mütterlichen und väterlichen Chromosomen als Keimbahnvarianten bei der Befruchtung der Eizelle erhält. Neben den klinisch nicht relevanten Polymorphismen können auch krankheitsassoziierte Mutationen vererbt werden, die zu einem angeborenen Gendefekt und damit einer Erbkrankheit führen können. Im Laufe eines Lebens sammelt der Mensch jedoch auch Veränderungen an (somatische Mutationen), die unter Umständen zu einer Erkrankung, wie Krebs, führen können. Durch Sequenzierung von Stammzellen wurde gezeigt, dass bei Neugeborenen maximal 1 Mutation pro Stammzelle nachweisbar war, während sich die Anzahl an Mutationen auf 8 bis 12 bei 70- bis 80-Jährigen steigerte (Welch et al., Cell, 2012). Nur wenn diese Mutationen in wichtigen Genen für die Hämatopoese entstehen, kann es jedoch zu einer klonalen Expansion dieser Stammzelle kommen, und damit das Risiko für eine hämatologische Neoplasie steigen (Jaiswal et al., NEJM, 2014).

Das Whole Genome Sequencing (WGS) zielt darauf ab, die komplette Erbinformation eines Menschen zu lesen, die Polymorphismen zu erkennen und somatische Mutationen zu identifizieren. Darüber hinaus können durch WGS auch Zugewinne und Verluste von chromosomalem Material (Copy Number Variations, CNV) und Translokationen von chromosomalem Material (Structural Variation, SV) detektiert werden. Neben der Suche nach krankheitsassoziierten Mutationen und Veränderungen versucht man immer mehr auch prädiktive Informationen, wie z.B. das Ansprechen auf einzelne Therapien, aus genomweiten Daten zu gewinnen (Genome Wide Assoziation Studies, GWAS). Je mehr Information man über die Tumorerkrankung, aber auch den genetischen Hintergrund des Patienten weiß, umso effizienter mag eine gezielte Therapie (targeted therapy) in Zukunft möglich werden.

Vorbereitung der DNA – Library Preparation

Bei der Library Preparation für das WGS gibt es zwei grundlegend unterschiedliche Ansätze: die PCR-freie und die DNA-amplifizierende Variante. Für die PCR-freie Methode wird relativ viel Input DNA benötigt (1µg), jedoch werden PCR-Artefakte vermieden. Aus Knochenmark und peripherem Blut lässt sich in der Regel ausreichend DNA für eine PCR-freie Library Prep gewinnen. Liegt als Ausgangsmaterial fixiertes Gewebe (Formalin-fixiertes Paraffin-eingebettetes, FFPE) oder zellfreie DNA aus Liquid Biopsy Proben vor, so muss eine prä-amplifizierende Methode gewählt werden, um ausreichend Material für die Sequenzierung zu gewinnen. Zur Library Prep gehören die Fragmentierung der DNA, das End Repair und die Adapter-Ligation, die eindeutige Indices enthalten, sodass jeder einzelne Read nach der Sequenzierung eindeutig zu einem Patienten zugeordnet werden kann. Die Library Prep im MLL wird vollautomatisiert auf Pipettierrobotern (Hamilton NGS Star) durchgeführt. Dadurch wird eine standardisierte und homogene Library Prep gewährleistet.

Sequenzierung

Die Sequenzierung erfolgt im MLL mit der sequencing by synthesis Methode von Illumina auf der neuesten Generation von Sequenziergeräten, den NovaSeq 6000. Während in der Humangenetik oft eine Lesetiefe (Coverage) von 30x ausreichend ist, ist in der Tumorbiologie die Detektion von somatischen Mutationen und damit auch kleinen Klonen von großer Bedeutung. Daher wird meist mit einer Lesetiefe von >60-90x sequenziert.

Datenanalyse

Anschließend erfolgt die Datenanalyse. Am MLL werden die Daten von den Sequenziergeräten direkt in die Amazon Web Services (AWS) Cloud in Frankfurt transferiert und in BaseSpace Sequence Hub von Illumina analysiert. Der Datenschutz wird gemäß der EU-Datenschutz-Grundverordnung (EU-DSGVO) erfüllt und über die ISO 27001 Zertifizierung gewährleistet (Cloud Computing). Zuerst erfolgt das Alignment der Reads (iSAAC, Ilumina) zum Referenzgenom, also der Zuordnung der Fragmente zu ihrer Position im Genom. Nachgelagert erfolgt das Variant Calling (Strelka, Illumina), also das Bestimmen der Veränderungen eines Patienten im Vergleich zu einer Referenzsequenz (GRCh37, hg19). Meist wird hier ein sogenannter „Tumor-Normal Abgleich“ angewendet: durch Sequenzierung des Tumors und z.B. peripherem Blut als Normalkontrolle kann das Genom eines Menschen für beide Materialien verglichen und so die Unterschiede im Tumor bestimmt werden. In der Hämatologie stehen wir hier vor einer großen Herausforderung, da das häufig verwendete periphere Blut bei Patienten mit einer hämatologischen Neoplasie bereits den „Tumor“ enthält, nämlich die Leukämiezellen und somit als leicht verfügbare Normalkontrolle nicht zur Verfügung steht. Daher verwenden wir einen sogenannten „Tumor-unmatched Normal“ Workflow, um Artefakte und einen Teil der Polymorphismen zu eliminieren. Hierbei handelt es sich um die Sequenz von gesunden Kontrollen anderer Menschen. Zum weiteren Entfernen der irrelevanten Veränderungen und der Detektion von CNV (GATK, Broad Institute) und SV (Manta, Illumina) stehen im MLL in-house Analyse Pipelines zu Verfügung.

Referenzen:
Welch et al., Cell. 2012 Jul 20;150(2):264-78.
Jaiswal et al., N Engl J Med 2014; 371:2488-2498.

Whole Exome Sequencing (WES)

Im Gegensatz zum Whole Genome Sequencing (WGS) steht beim Whole Exome Sequencing (WES) der kodierende Bereich des Genoms, das sogenannte Exom, im Fokus. Das Exom eines Menschen macht lediglich ca. 1% des Genoms aus, somit werden beim WES nur ca. 30 Millionen Basenpaare gelesen. Der Großteil von krankheitsassoziierten Mutationen und Veränderungen findet sich jedoch im Exom wieder, da sich hier auftretende Sequenzveränderungen direkt auf die Struktur und damit Funktionalität von Proteinen auswirkt und somit die Funktion der Zelle verändern können.

Durch WES werden also auch Genmutationen detektiert, jedoch ermöglicht dies nur einen lückenhaften Blick auf das Genom eines Patienten. Dadurch können z.B. GWAS (Genome Wide Assoziation Studies), die auch Veränderungen in nicht-kodierenden Bereichen erfassen, nur eingeschränkt durchgeführt werden. Chromosomale Veränderungen (Structural Variations, SV; Copy Number Variations, CNV) können nur detektiert werden, sofern sie kodierende Bereiche betreffen.

Vorbereitung der DNA – Library Preparation

Die Library Preparation für das WES beinhaltet neben der Fragmentierung der DNA, dem End Repair und der Adapter-Ligation, die eindeutige Indices enthalten, sodass jeder einzelne Read nach der Sequenzierung eindeutig einem Patienten zugeordnet werden kann, auch die Anreicherung der kodierenden Sequenzen. Durch sogenannte Probes, die eine komplementäre Sequenz zu den kodierenden Bereichen des Genoms aufweisen, können spezifisch die Exomsequenzen selektiert (capturing) und angereichert werden. Das xGen Exome Research Panel (IDT, Integrated DNA Technologies) verwendet 429.826 Probes um 39 Mb genomische Sequenz (19.396 Gene) anzureichern und für die Sequenzierung vorzubereiten. Die Library Prep im MLL wird vollautomatisiert auf Pipettierrobotern (Hamilton NGS Star) durchgeführt. Dadurch wird eine standardisierte und homogene Library Prep gewährleistet.

Sequenzierung

Die Sequenzierung erfolgt im MLL mit der sequencing by synthesis Methode von Illumina auf der neuesten Generation von Sequenziergeräten, dem NovaSeq 6000. In der Regel wird beim WES eine Lesetiefe (Coverage) von >100x angestrebt, da in der Tumorbiologie die Detektion von somatischen Mutationen und damit auch kleinen Klonen von großer Bedeutung ist.

Datenanalyse

Anschließend erfolgt die Datenanalyse. Am MLL werden die Daten von den Sequenziergeräten direkt in die Amazon Web Services (AWS) Cloud in Frankfurt transferiert und in BaseSpace Sequence Hub von Illumina analysiert. Der Datenschutz wird gemäß der EU-Datenschutz-Grundverordnung (EU-DSGVO) erfüllt und über die ISO 27001 Zertifizierung gewährleistet (Cloud Computing). Zuerst erfolgt das Alignment der Reads (iSAAC, Illumina) zum Referenzgenom (GRCh37, hg19), also der Zuordnung der Fragmente zu ihrer Position im Genom. Nachgelagert erfolgt das Variant Calling, also das Bestimmen der Veränderungen eines Patienten im Vergleich zu einer Referenzsequenz. Zum weiteren Filtern der relevanten Veränderungen stehen im MLL in-house Analyse Pipelines zu Verfügung.

RNA-Sequenzierung

Jede Zelle im menschlichen Körper besitzt eine identische Kopie des Genoms (DNA) - der Gesamtheit des Erbmaterials - jedoch unterscheiden sich die Zellen in ihrem Transkriptom (RNA). Bei der RNA Sequenzierung (RNA-Seq) geht es um die Analyse des Transkriptoms, also der quantitativen Bestimmung der in einer Zelle vorliegenden transkribierten (von DNA in RNA umgeschriebene) Gene. Die Ausprägung des Transkriptoms liefert die Grundlage für die Identität einer Zelle und der damit einhergehenden Funktionalität. Im Falle einer Erkrankung, wie zum Beispiel Krebs, kommt es zu einer abnormalen Genregulation, welche das Transkriptom der betroffenen Zellen signifikant verändert und das Mengenverhältnis der transkribierten Gene beeinflusst.

Ausdifferenzierte Zellen besitzen ein spezifisches Repertoire an biologischen Funktionen, so spielen zum Beispiel die weißen Blutzellen eine wichtige Rolle im Immunsystem, die roten Blutkörperchen beim Transport von Sauerstoff zu den einzelnen Organen und die Blutplättchen bei der Blutgerinnung. Für jede dieser Funktionen ist ein bestimmtes Set an Genen notwendig, genauso wie für die Regulation der Lebensdauer einer Zelle. Die Genexpression wird durch verschiedene Mechanismen streng kontrolliert. Im Falle einer Erkrankung, wie zum Beispiel Krebs, kommt es zu einer abnormalen Genregulation, welche das Transkriptom der betroffenen Zellen signifikant verändert und das Mengenverhältnis der transkribierten Gene beeinflusst. Diese Änderungen lassen sich mit RNA-Seq detektieren und quantifizieren, zum Beispiel in dem das Transkriptom der Tumorzellen mit dem Profil gesunder Zellen verglichen wird.

Zusätzlich zu der Veränderung in der Genexpression lassen sich mit RNA-Seq auch Fusionsgene nachweisen, welche das Resultat struktureller Veränderungen (Translokationen von chromosomalem Material) sind. Zum Transkriptom des Menschen gehören neben den protein-kodierenden Transkripten auch Transkripte, die nicht zur Bildung eines Proteins führen. Diese Transkripte lassen sich auf Grund ihrer Länge in zwei Gruppen unterteilen: kurze RNAs (microRNA, snoRNA, snaRNA, etc) mit einer Länge von 20-24 Basen und die langen nicht protein-kodierenden RNAs (long non-coding RNAs, lncRNAs) mit einer Länge von über 200 Basen. Diese Transkripte sind in der Regulation der Genexpression involviert und sind deshalb ein guter Ansatzpunkt für Interventionen und Therapien.

Vorbereitung der RNA – Library Preparation

Wie auch bei der Analyse der DNA (WGS, WES) geht bei der Sequenzierung des Transkriptoms eine Library Preparation voraus. Dieser Prozess beinhaltet die Fragmentierung der RNA, das Entfernen von ribosomaler RNA, das Umschreiben der RNA in cDNA, die Ligation eindeutig identifizierbarer Indices, welche es ermöglichen ein Sample von einem anderen zu unterscheiden, und eine abschließende Anreicherung des Materials mittels PCR. Die Library Prep im MLL wird vollautomatisiert auf Pipettierrobotern (Hamilton NGS Star) durchgeführt. Dadurch wird eine standardisierte und homogene Library Prep gewährleistet.

Sequenzierung

Die so vorbereitete Library wird dann auf die Sequenziergeräte gebracht, am MLL handelt es sich hierbei um den NovaSeq 6000, der neusten Generation von Sequenziergeräten von Illumina, und mit der sequencing by synthesis Methode ausgelesen. Um eine ausreichende Genauigkeit bei der Transkriptomanalyse zu erreichen, werden 50 Millionen Reads (sequenzierte Fragmente) pro Probe angestrebt.

Datenanalyse

Anschließend erfolgt die Datenanalyse. Am MLL werden die Daten von den Sequenziergeräten direkt in die Amazon Web Services (AWS) Cloud in Frankfurt transferiert und in BaseSpace Sequence Hub von Illumina analysiert. Der Datenschutz wird gemäß der EU-Datenschutz-Grundverordnung (EU-DSGVO) erfüllt und über die ISO 27001 gewährleistet (Cloud Computing). Zuerst erfolgt das Alignment der Reads (STAR, Illumina) zum Referenzgenom (GRCh37, hg19), also der Zuordnung der Fragmente zu ihrer Position im Genom. Es folgt die Ermittlung der Counts, also der Anzahl an Reads pro Gen, welche dann in einer MLL internen Pipeline normalisiert werden. Die normalisierten Counts bilden den Ausgangspunkt für alle weiteren Analysen. Zur Detektion von Fusionsgenen wird ein Variant Caller (Manta, Illumina) verwendet, der Abweichungen in der Basenabfolge der Reads zur Referenzsequenz erkennt.

Liquid Biopsy

Zusätzlich zur DNA in den Zellen, lässt sich auch zellfreie DNA aus Körperflüssigkeiten gewinnen. Meist handelt es sich dabei um frei zirkulierende DNA aus dem Blut (cfDNA, cell free DNA). Man geht davon aus, dass diese DNA aus apoptotischen Zellen freigesetzt wird. Tumore sind durch hohe Raten an Proliferation und Apoptose gekennzeichnet. Beim Prozess der Apoptose durchläuft eine Zelle den programmierten Zelltod, was dazu führt, dass die Zelle aufbricht und DNA in das umgebende Gewebe abgegeben wird. Diese Art der Diagnostik wird als „Liquid Biopsy“ bezeichnet. Es handelt sich hierbei um eine nicht-invasive Methode welche vorzugsweise eingesetzt wird, um den Verlauf bereits diagnostizierter Krebserkrankungen zu verfolgen und das Ansprechen auf eine Therapie, ohne aufwendige Gewebeentnahme bei soliden Tumoren, zu beurteilen.

Da die Konzentration dieser cfDNA äußerst gering ist, muss diese erst mittels spezieller Amplifikationsmethoden vervielfältigt werden, bevor sie auf Veränderungen (Mutationen) untersucht werden kann. Es kann so untersucht werden, ob noch Zellen des Resttumors im Körper vorhanden sind, welche das Risiko eines Rezidivs erhöhen würden. Zusätzlich wird intensiv an der Entwicklung von Tests gearbeitet, die eine Krebs-Früherkennung anhand zellfreier DNA aus dem Blut ermöglichen sollen. Grundsätzlich lässt sich neben der cfDNA eine zweite Art von DNA durch Liquid Biopsy gewinnen, die zellulär gebundene DNA von freizirkulierenden Tumorzellen (CTCs). Diese zeigen möglicherweise eine Metastasierung des Primärtumors an. Der Wert der Liquid Biopsy mit dem Nachweis von cfDNA bei Patienten mit Lymphomen wird aktuell evaluiert.

Vorbereitung der DNA – Gewinnung und Library Preparation

Zur Extraktion von cfDNA werden dem Patienten 10ml Blut in spezielle Blutröhrchen abgenommen. In diesen wird das Blut anti-coaguliert, stabilisiert, transportiert und kann bis zu 7 Tagen gelagert. In den Röhrchen wird die Hämolyse und Apoptose der Blutzellen inhibiert, sodass keine zelluläre DNA von kaputtgehenden Blutzellen ins Plasma gelangt. Dann kann aus dem Plasma selektiv cfDNA isoliert werden. Spezielle Extraktions-Kits erlauben die Isolierung der cfDNA aus großen Volumen (ca. 10ml Plasma) und Elution in einem geringen Volumen (20µl), um die sehr gering vorkommende cfDNA konzentriert in wenig Volumen zu erhalten.

Anschließend kann die so erhaltene cfDNA mittels PCR oder Next Generation Sequencing analysiert und auf tumor-charakterisierende Marker untersucht werden. Für die der Sequenzierung vorangehenden Library Preparation ist zu beachten, dass cfDNA häufig sehr stark fragmentiert ist (~180bp lang) und in äußerst geringer Konzentration vorkommt, so dass prä-amplifizierende Library Preps, bei denen zuerst die DNA Menge vervielfältigt wird, verwendet werden sollten.

Künstliche Intelligenz in der Medizin

Moderne Analyseverfahren liefern den Ärzten eine immer größer werdende Menge an Informationen, deren Auswertung sich ohne die Hilfe von Computern als zunehmend schwierig gestaltet. Diese Flut an Daten hat dazu geführt, dass sich im Bereich der Datenanalyse in den letzten zwei Jahrzehnten ein intensiver Wandel vollzogen hat. Während die ursprüngliche Art der Programmierung vorsah, dass dem Computer mittels wohl definierter Regeln beigebracht wurde Probleme zu lösen, sind heutzutage immer mehr Computer in der Lage, eigenständig zu lernen und somit künstliche Intelligenz zu entwickeln.

Anstatt dem Computer die Regeln vorzugeben, werden Beispieldaten gesammelt (z.B. Bilder, Texte, Audio) aus denen der Algorithmus (=Computerprogramm) selbstständig die relevanten Informationen selektiert, extrahiert und seine eigenen Regeln erstellt. Solche Algorithmen sind häufig an die Funktionsweise des menschlichen Gehirns angelehnt und werden deshalb als „neuronale Netze“ bezeichnet.

Klassische Mustererkennung in der Medizin

In der Medizin gibt es verschiedene Bereiche in denen künstliche Intelligenz Anwendung findet bzw. finden kann. Besonders ausgereift ist die Verwendung von neuronalen Netzen in der Bilderkennung. Die Diagnostik der Leukämie ist den WHO Richtlinien folgend nach wie vor stark von der Zytomorphologie geprägt. In der Zytomorphologie steht die Beurteilung von Blut- und Knochenmarkausstrichen zur Beschreibung und Differenzierung von malignen und gesunden Zellen im Vordergrund. Der Morphologe sucht hier nach abnormen Mustern in Bezug auf Aussehen und Anzahl der verschiedenen Zelltypen, welche er dann anhand festgelegter Richtlinien klassifiziert. Dieser manuelle Prozess ist vergleichsweise zeitaufwendig und die Qualität des Ergebnisses hängt stark von der Erfahrung des Morphologen ab. Ein standardisiertes und automatisiertes Verfahren, welches mittels Mustererkennung den Morphologen bei seiner Arbeit unterstützt ist demnach wünschenswert.

Mustererkennung ist ein mehrschichtiger Prozess, an dessen Anfang die sogenannte Segmentierung steht. In diesem Schritt geht es darum, relevante Formen (z.B. eine Zelle) zu erkennen und von Bildartefakten, wie z.B. Schmutz zu unterscheiden. Zusätzlich gilt es innerhalb der gefundenen Formen weitere Substrukturen zu erkennen, z.B. den Zellkern einer Zelle zu definieren. Es ist offensichtlich, dass die Definition eines Regelsets, anhand dessen diese Unterscheidung durchgeführt werden soll, alle auftretenden Eventualitäten nur unzureichend abdecken könnte und sich sehr schnell als extrem umfangreich und aufwendig gestalten würde. Aus diesem Grund hat es sich als effizienter erwiesen, den Algorithmus an Beispielbildern zu trainieren. Zusätzlich bringt diese Methode den Vorteil, dass der Computer eigenständig aus den gelernten Informationen generalisieren kann, das heißt, dass er auch Zellen, welche nicht exakt den Beispieldaten entsprechen als solche erkennt. Es gilt hierbei eine Balance zwischen Generalisierung und Spezifität zu finden. Diese Feinjustierung ist ein iterativer Prozess, dessen Genauigkeit mit zunehmender Datenmenge steigt – je mehr Daten zur Verfügung stehen, desto akkurater wird die Aussage. Auch die Genauigkeit eines Morphologen steigt mit seiner Erfahrung – je mehr Zeit er vor einem Mikroskop verbracht hat und je umfangreicher das Spektrum an betrachteten Ausstrichen war, desto genauer und schneller wird seine Einschätzung.

Ähnliche Verfahren lassen sich in allen Bereichen anwenden, welche vorrangig auf der Analyse von Bilddateien beruhen. So ist es zum Beispiel auch denkbar, dass mit der fortschreitenden Verbesserung der Algorithmen zur automatischen Bilderkennung diese Techniken eingesetzt werden, um in der Zytogenetik eine automatische Erkennung und Zuordnung chromosomaler Aberrationen in aufgenommenen Metaphasen zu ermöglichen. Gleiches gilt für die Immun-phänotypisierung, in der maligne Zellen von gesunden Zellen aufgrund ihres Antigenexpressionsmusters mittels Durchflusszytometrie unterschieden werden. Die einzelnen Zelltypen sind charakterisiert durch die Expression spezifischer Antigen- Kombinationen. Die Diagnose der verschiedenen hämatologischen Neoplasien erfolgt durch die Interpretation der aufgenommenen, zweidimensionalen Grafiken der Durchfluss-zytometrie. Jede Analyse beinhaltet das Messen tausender Zellen, was die Menge der Daten stark erhöht. Mit der großen Anzahl an zur Verfügung stehendem Bildmaterial lassen sich künstliche neuronale Netzwerke trainieren und für die automatische Interpretation der erhaltenen Daten einsetzen. Das MLL arbeitet hier in enger Kollaboration mit verschiedenen Einrichtungen um die Forschung in diesem Bereich weiter voran zu treiben.

Automatische Klassifizierung in der Medizin

In der Molekulargenetik werden durch die Zunahme an durchgeführten Sequenzierungen die Datenmengen immer größer und eine manuelle Interpretation der Daten zunehmend schwieriger. Während man sich früher auf die Untersuchung einzelner Gene beschränkt hat, erlauben die Methoden der Hochdurchsatzsequenzierung die gleichzeitige Untersuchung des gesamten Genoms (WGS) und/oder Transkriptoms (RNA-Seq). Das Ziel dieser Methoden ist nicht nur die genspezifische Analyse von Veränderungen und/oder Überexpressionen im Hochdurchsatz, sondern es geht vielmehr um das Aufdecken zugrundeliegender regulatorischer Mechanismen und das Erkennen wiederkehrender genetischer Muster. Gibt es zum Beispiel bestimmte Kombinationen an genetischen Veränderungen, die das Krankheitsbild einer bestimmten Leukämieart charakterisieren? Verschiedene molekulare Marker sind bereits bekannt, die die einzelnen Subtypen der Leukämie voneinander unterscheiden, aber das Wissen ist bisher noch limitiert. Die immensen Datenmengen machen ein manuelles Durchforsten genomischer Daten unmöglich und da man nicht weiß, wonach man sucht, kann man auch keinem Computer erklären, wie er es finden soll. Aus diesem Grund verwendet man Methoden des maschinellen Lernens, welche eigenständig aus den Daten lernen und relevante Informationen extrahieren. Mit diesem Ansatz verfolgt man prinzipiell zwei Ziele: zum einen wünscht man sich eine automatische Klassifizierung unbekannter Proben und zum anderen möchte man weitere Erkenntnisse über die Grundlagen der verschiedenen Erkrankungen gewinnen. Damit dies funktioniert wird der Algorithmus, häufig handelt es sich hierbei um neuronal Netzwerke, an genomischen Daten der verschiedenen Subtypen trainiert und die Performance evaluiert. Dabei handelt es sich um einen hochiterativen Prozess, um die optimale Einstellung der Parameter zu finden, die die beste Performance und damit die genaueste Klassifizierung garantieren. Auch wenn das Genom verschiedener Menschen zu 99,9% identisch ist, unterscheiden sie sich doch in einer Vielzahl an Polymorphismen. Um zu verhindern, dass diese individuellen Unterschiede die Performance des Classifiers negativ beeinflussen, sind große Mengen an Trainingsdaten notwendig um die auftretende Diversität abzudecken und akkurate Einschätzungen zu garantieren. Da der Algorithmus sich die Merkmale für die einzelnen Subtypen selber sucht, liegt es nahe, dass dadurch auch neue Korrelationen und Assoziationen gefunden werden können, die möglicherweise helfen, die molekularen Grundlagen besser zu verstehen. Dies sollte zusammen mit den bereits bekannten Merkmalen der Routinediagnostik eine verbesserte Diagnose und Prognoseeinschätzung möglich machen.

Data Management/Storage (Cloud Computing)

Cloud Computing erlaubt neben dem Speichern großer Mengen an Daten auch eine schnelle Bearbeitung und Analyse der Daten, da die benötigten Berechnungen stark parallelisiert durchgeführt werden können. Damit stehen uns für Forschungsprojekte durch Cloud Computing Rechenkapazitäten zur Verfügung, die eine zügige Bearbeitung der Daten erlauben und in-house nur mit großem Aufwand abbildbar wären.

Cloud Computing hat es uns ermöglicht, die WGS-Daten aus dem 5.000 Genomprojekt direkt in der Cloud über die BaseSpace Sequence Hub von Illumina zu prozessieren. Zusätzlich können wir unsere private Domäne der Cloud nutzen, um selbstentwickelte Software hochzuladen und unsere Daten damit zu analysieren, ohne die Daten transferieren zu müssen. So stehen uns die Daten für sämtliche Analysen und wissenschaftliche Fragestellungen direkt zur Verfügung.

Neben der Datenanalyse bedarf es einem Data Management, da vor allem das WGS eine große Menge an Daten produziert (~130 GB pro Patient bei 90x Coverage). Dafür muss eine eigene Infrastruktur zu Verfügung stehen, die sowohl die Analyse als auch die Lagerung der Daten erlaubt. Während früher die Skepsis gegenüber der Cloud für die Datenverarbeitung, aber vor allem als Datenspeicher sehr hoch war, wird heute mit dem rasanten Anstieg produzierter Daten immer deutlicher, dass nicht nur die Hardware, sondern auch die Pflege der IT-Infrastruktur sehr aufwändig ist. Daher ist es für spezialisierte Anbieter einer Cloud meist einfacher und ökonomischer sowohl sicherheitstechnisch als auch hardwaretechnisch auf dem aktuellsten Stand zu sein und die höchsten Sicherheitsstandards anzubieten. Die WGS, WES und RNA-Seq Daten des MLL liegen komplett anonymisiert in einer privaten AWS-Instanz der Amazon Cloud in Frankfurt (AWS, Amazon Web Services), auf die der Zugriff auf spezielle Mitarbeiter des MLL beschränkt ist. Die dort gespeicherten Daten sind ausschließlich Sequenzdaten, die über einen arbiträren MLL_Identifier verfügen. Es befinden sich keinerlei personenbezogene Daten, wie klinische Parameter oder persönliche Daten in der AWS-Instanz. Datensicherheit entspricht hier den höchsten Standards nach der neuen EU-Datenschutz-Grundverordnung (EU-DSGVO), die auch von externen Auditoren in ihren Berichten inklusive ISO 27001, ISO 27017 und ISO 27018 verifiziert wurden. Darüber hinaus verfügt AWS über das C5-Testat des Bundesamts für Sicherheit in der Informationstechnik (BSI).

 

Kontakt

Dr. rer. nat. Manja Meggendorfer, MBA

MLL Münchner Leukämielabor GmbH
Max-Lebsche-Platz 31
81377 München

T: +49 (0)89 99017-355

Anfahrt