Durch abnehmende Sequenzierkosten und Einführung von Geräten mit signifikant höherer Datenkapazität und der damit einhergehenden Steigerung des Sequenzierdurchsatzes, verlagert sich der Flaschenhals weg von Sequenzierung hin zu Dateninterpretation. Zur Beseitigung dieses Problems wurden über die Jahre hinweg viele verschiedene Bioinformatiklösungen entwickelt. Die ersten Schritte unmittelbar nach der Sequenzierung, genannt Alignment (die Lesefragmente der Sequenzierung an eine Referenz DNA ausrichten) und Variant Calling (Auffinden von Unterschieden zwischen den ausgerichteten Lesefragmenten und der Referenz DNA), brachten initial heterogene Ergebnisse hervor, behaftet mit vielen Artefakten. Diese sind jedoch mittlerweile zu stabilen Algorithmen mit einer hohen Reproduzierbarkeit gereift. Obwohl beträchtliche Bemühungen aufgewandt wurden, verbleiben aber die Annotation und insbesondere Klassifikation, d.h. die Unterteilung in benigne und pathogene Varianten, verbesserungswürdig.

Es existiert heute eine Auswahl an verschiedenen Verfahren zur Datenanalyse, jede mit eigenen Stärken und Schwächen. Eine der ersten und einfachsten Ansätze ist der Aufbau einer Datenbank zur Sammlung von Varianten inkl. ihrer Klassifikation. Typischerweise geschieht dies durch freiwillige Einreichung der Daten in eine Datenbank, häufig leider ohne klare Standardisierung und Offenlegung, wie sie erhoben und klassifiziert worden sind, wodurch es zu Konsistenzproblemen kommen kann. Um dies zu entschärfen, wurden in silico Mutationsvorhersagetools entwickelt, die ein algorithmisches Verfahren benutzen, um die Intensität einer Veränderung auf den Organismus zu bestimmen. Jedoch tendieren auch diese Verfahren in einem gewissen Anteil zu Fehlklassifikationen.


Populationsfrequenzdatenbanken, die mithilfe von Sequenzierprojekten in großen Populationsstudien entstanden sind, sind mittlerweile eine gute Möglichkeit, um häufige, benigne Varianten zu identifizieren. Im Laufe der Zeit und durch Zunahme von Datenbanken und verschiedenen Verfahren, hat sich der Zugang zu diesen Ressourcen von einem Segen zu einem Fluch gewandelt. Die Landschaft ist unübersichtlich geworden, insbesondere für Neueinsteiger im Bereich der NGS Sequenzierung. Oft sind Informationen in (verschiedenen) Datenbanken widersprüchlich und es gibt keine einfache Methode, diese aufzulösen. Auf der einen Seite gibt es große, öffentlich zugängliche Datenbanken, deren Validität nicht einfach zu bestimmen ist: hier stellt sich beispielsweise die Frage, wie die Daten erhoben wurden. Auf der anderen Seite gibt es gut kuratierte, laborinterne Datenbanken, die jedoch für die Öffentlichkeit meist unzugänglich sind.

Hier setzt das neue MLLi an, indem wir mit dem Projekt MLLi:db (‚db‘ für ‚database‘) manuell kuratierte Daten anonym veröffentlichen, die in den letzten 12 Jahren durch Sequenzierung von Proben in der Diagnostik in einem ISO 15189 akkreditierten Umfeld am MLL erhoben wurden. Jede Variante in MLLi:db hat eine Klassifikation in einem 3-stufigen System („pathogen“, „benign“ oder „Variante mit unbekannter Signifikanz (VUS)“), welche in mindestens fünf verschiedenen Patienten gesehen wurde und unzweideutig von einem Experten im MLL in Zusammenhang mit den anderen diagnostischen Verfahren und der Diagnose des Patienten klassifiziert wurde. Der Zugang zu den Daten wird über eine Webapplikation unter https://mlli.com bereitgestellt und ist nur mit einem eigenen Account zugänglich. Neben Frequenzdaten der laboreigenen Datenbank wird auch ein bequemer Zugriff auf folgende Quellen ermöglicht: COSMIC, dbSNP, gnomAD, ClinVar und dbNSFP.

Die Datenbank wird quartalsweise mit neuen und aktualisierten Informationen veröffentlicht. Die erste Veröffentlichung in einer Betaphase besteht aus 1.452 Varianten  in 103 Genen, die aus Daten von 189.753 Proben erhoben wurden.