Bedeutung

Bei der Bioinformatik handelt es sich um ein relativ neues, interdisziplinäres Feld der Wissenschaft, das Methoden für die computergestützte Analyse, Organisation und Speicherung von biologischen Daten entwickelt und implementiert. Das Hauptziel der Bioinformatik ist es, biologische Prozesse und deren krankhafte Veränderungen durch die Entwicklung eines tieferen Verständnisses der zugrundeliegenden molekularen Regulationsnetzwerke zu verbessern. Durch die Optimierung der Sequenziertechnologien für den Hochdurchsatz ist es heutzutage in vergleichsweise kurzer Zeit möglich Einblicke in diese Regulationsnetzwerke zu bekommen. Ausgehend von der Untersuchung einzelner Gene bis hin zum gesamten menschlichen Genom. Somit ergibt sich als wichtiges Aufgabenfeld der Bioinformatik die Entwicklung von spezifischer Software für die Analyse und Extraktion von molekularbiologisch oder klinisch relevanten Informationen aus Hochdurchsatz Sequenzierungen.

Methodik

Die Rohdaten einer jeden Sequenzierung durchlaufen eine Anzahl an Verarbeitungsschritten, bevor die diagnostische Evaluation der Ergebnisse durch einen Molekularbiologen erfolgt.

Datenvorverarbeitung

Während  der  Vorbereitung  der  Proben  für  die Sequenzierung  wird  jede  Patientenprobe  mit  einem  eindeutigen  Barcode  versehen, welcher  nach  der  Sequenzierung  die  eindeutige  Zuordnung  der sequenzierten Fragmente (reads) zu den einzelnen Patienten erlaubt. Dieser Prozess wird als ‚demultiplexing‘ bezeichnet, der während der Konvertierung der Rohdaten automatisch durchgeführt wird und die Erzeugung von patientenspezifischen FASTQ-Dateien ermöglicht. Die FASTQ-Dateien sind mit einer zufälligen ID versehen, um die Anonymität der Daten zu gewährleisten. Ausgehend von den FASTQ-Dateien erfolgt das Alignment der Reads zum humanen Referenzgenom, das heißt die sequenzierten DNA Fragmente werden basierend auf ihrer Sequenz (=Basenabfolge) zu dem übereinstimmenden Bereich im menschlichen Genom zugeordnet. Das menschliche Genom besteht aus rund 3 Billionen Basen, die im Falle eines whole genome sequencings (WGS) auch alle ausgelesen werden. In der Routinediagnostik konzentriert sich die Analyse jedoch auf ein ausgewähltes Set an Genen/Genbereichen, die mit hämatologischen Neoplasien assoziiert sind und mit einer hohen Abdeckung (= Coverage) sequenziert werden. Um auch Mutationen kleiner Klone nachweisen zu können, wird häufig eine Coverage von >400-2000 angestrebt und es werden damit pro Patient mehrere hundert Millionen von Basenpaaren an Sequenzinformationen erstellt. Die genaue Bestimmung der genomischen Position der Reads zur Referenzsequenz ist sehr rechenintensiv, lässt sich aber durch Parallelisierung deutlich beschleunigen. Das Resultat vom Alignment wird in einer sogenannten BAM (Binary Alignment Map) Datei gespeichert.     

Bestimmung von Varianten und deren Annotation

Die BAM Dateien werden anschließend mittels spezieller Algorithmen nach Veränderungen (= variants) gegenüber dem menschlichen Referenzgenom abgesucht. Es lassen sich hierbei einzelne Basenaustausche (SNV, Single Nucleotide Variant), sowie kleinere Insertionen und Deletionen detektieren. Anschließend erfolgt die Annotation der Varianten, welche zusätzliche Informationen zu den gefundenen Veränderungen liefert. Dazu zählt die Identifikation des Gens, welches mit der Variante überlappt, eine genaue Charakterisierung der genomischen Region (Exon, Intron, Intron-Exon-Übergang) in der die Veränderung gefunden wurde, eine Übersetzung der Variante in eine standardisierte Nomenklatur, eine Einschätzung über den möglichen funktionellen Effekt der gefundenen Variante (missense, synonymous, Polymorphsimus, etc.), sowie, falls verfügbar, weitere relevante Fakten. Um einschätzen zu können ob die entdeckten Sequenzvarianten klinisch relevante Mutationen oder benigne Polymorphismen sind, findet am MLL ein Abgleich mit klinischen Datenbanken, sowie dem hauseigenen Datenbestand statt. Die so erzeugten Daten werden in Datenbanksysteme überführt, was einen raschen Abgleich von Ergebnissen aus verschiedensten Analysemethoden und eine zeitige Diagnose für jeden Patienten ermöglicht.