Bioinformatik
Organisation, Verarbeitung, Analyse und klinische Interpretation von Daten, die über Next Generation Sequencing (NGS) Verfahren erhoben werden.
Durch die Optimierung der Sequenziertechnologien für den Hochdurchsatz ist es heutzutage in vergleichsweise kurzer Zeit möglich Einblicke in biologische Regulationsnetzwerke zu bekommen. Ausgehend von der Untersuchung einzelner Gene bis hin zum gesamten menschlichen Genom. Somit ergibt sich als wichtiges Aufgabenfeld der Bioinformatik die Entwicklung von spezifischer Software für die Analyse und Extraktion von molekularbiologisch oder klinisch relevanten Informationen aus Hochdurchsatz Sequenzierungen.
Methodik
Die Rohdaten einer jeden Sequenzierung durchlaufen eine Anzahl an Verarbeitungsschritten, bevor die diagnostische Evaluation der Ergebnisse durch einen Molekularbiologen erfolgt.
Datenvorverarbeitung
Während der Vorbereitung der Proben für die Sequenzierung wird jede Patientenprobe mit einem eindeutigen Barcode versehen, welcher nach der Sequenzierung die eindeutige Zuordnung der sequenzierten Fragmente (reads) zu den einzelnen Patienten erlaubt. Dieser Prozess wird als ‚demultiplexing‘ bezeichnet, der während der Konvertierung der Rohdaten automatisch durchgeführt wird und die Erzeugung von patientenspezifischen FASTQ-Dateien ermöglicht. Die FASTQ-Dateien sind mit einer zufälligen ID versehen, um die Anonymität der Daten zu gewährleisten. Ausgehend von den FASTQ-Dateien erfolgt das Alignment der Reads zum humanen Referenzgenom, das heißt die sequenzierten DNA Fragmente werden basierend auf ihrer Sequenz (=Basenabfolge) zu dem übereinstimmenden Bereich im menschlichen Genom zugeordnet. Das menschliche Genom besteht aus rund 3 Billionen Basen, die im Falle eines whole genome sequencings (WGS) auch alle ausgelesen werden. In der Routinediagnostik konzentriert sich die Analyse jedoch auf ein ausgewähltes Set an Genen/Genbereichen, die mit hämatologischen Neoplasien assoziiert sind und mit einer hohen Abdeckung (= Coverage) sequenziert werden. Um auch Mutationen kleiner Klone nachweisen zu können, wird häufig eine Coverage von >400-2000 angestrebt und es werden damit pro Patient mehrere hundert Millionen von Basenpaaren an Sequenzinformationen erstellt. Die genaue Bestimmung der genomischen Position der Reads zur Referenzsequenz ist sehr rechenintensiv, lässt sich aber durch Parallelisierung deutlich beschleunigen. Das Resultat vom Alignment wird in einer sogenannten BAM (Binary Alignment Map) Datei gespeichert.
Bestimmung von Varianten und deren Annotation
Die BAM Dateien werden anschließend mittels spezieller Algorithmen nach Veränderungen (= variants) gegenüber dem menschlichen Referenzgenom abgesucht. Es lassen sich hierbei einzelne Basenaustausche (SNV, Single Nucleotide Variant), sowie kleinere Insertionen und Deletionen detektieren. Anschließend erfolgt die Annotation der Varianten, welche zusätzliche Informationen zu den gefundenen Veränderungen liefert. Dazu zählt die Identifikation des Gens, welches mit der Variante überlappt, eine genaue Charakterisierung der genomischen Region (Exon, Intron, Intron-Exon-Übergang) in der die Veränderung gefunden wurde, eine Übersetzung der Variante in eine standardisierte Nomenklatur, eine Einschätzung über den möglichen funktionellen Effekt der gefundenen Variante (missense, synonymous, Polymorphsimus, etc.), sowie, falls verfügbar, weitere relevante Fakten. Um einschätzen zu können ob die entdeckten Sequenzvarianten klinisch relevante Mutationen oder benigne Polymorphismen sind, findet am MLL ein Abgleich mit klinischen Datenbanken, sowie dem hauseigenen Datenbestand statt. Die so erzeugten Daten werden in Datenbanksysteme überführt, was einen raschen Abgleich von Ergebnissen aus verschiedensten Analysemethoden und eine zeitige Diagnose für jeden Patienten ermöglicht.
Das könnte Sie auch interessieren
Ihr Ansprechpartner
»Durch künstliche Intelligenz wird sich die Medizin schnell weiterentwickeln.«
Niroshan Nadarajah
Bioinformatiker, M.Sc.
Innovation & Partner Management
Stv. Abteilungsleitung Forschung
niroshan.nadarajah@mll.com