Künstliche Intelligenz in der Medizin
Moderne Analyseverfahren liefern den Ärzten eine immer größer werdende Menge an Informationen, deren Auswertung sich ohne die Hilfe von Computern als zunehmend schwierig gestaltet. Diese Flut an Daten hat dazu geführt, dass sich im Bereich der Datenanalyse in den letzten zwei Jahrzehnten ein intensiver Wandel vollzogen hat. Während die ursprüngliche Art der Programmierung vorsah, dass dem Computer mittels wohl definierter Regeln beigebracht wurde Probleme zu lösen, sind heutzutage die entwickelten Modelle in der Lage, eigenständig zu lernen und kommen somit künstliche Intelligenz immer näher.
Anstatt dem Computer die Regeln vorzugeben, werden Beispieldaten gesammelt (z.B. Bilder, Texte, Audio) aus denen der Algorithmus (=Computerprogramm) selbstständig die relevanten Informationen selektiert, extrahiert und seine eigenen Regeln erstellt. Solche Algorithmen sind häufig an die Funktionsweise des menschlichen Gehirns angelehnt und werden deshalb als „neuronale Netze“ bezeichnet.
Künstliche Intelligenz in der Zytomorphologie
In der Medizin gibt es verschiedene Bereiche in denen künstliche Intelligenz Anwendung findet bzw. finden kann. Besonders ausgereift ist die Verwendung von neuronalen Netzen in der Bilderkennung. Die Diagnostik der Leukämie ist den WHO Richtlinien folgend nach wie vor stark von der Zytomorphologie geprägt. In der Zytomorphologie steht die Beurteilung von Blut- und Knochenmarkausstrichen zur Beschreibung und Differenzierung von malignen und gesunden Zellen im Vordergrund. Der Morphologe sucht hier nach abnormen Mustern in Bezug auf Aussehen und Anzahl der verschiedenen Zelltypen, welche er dann anhand festgelegter Richtlinien klassifiziert.
Die Qualität des Ergebnisses hängt jedoch stark von der Erfahrung des Morphologen ab, und selbst bei erfahrenen und geschulten Hämatopathologen liegt die Reproduzierbarkeit nur bei 75 bis 90%. Darüber hinaus kann die manuelle Auswertung ziemlich mühsam und zeitaufwändig sein, was die Anzahl der Zellen, die pro Probe verarbeitet werden können, und den Probendurchsatz im Allgemeinen einschränkt. Durch die Fortschritte in der digitalen mikroskopischen Bildgebung und verschiedener Techniken des maschinellen Lernens ist jedoch eine automatische Bildverarbeitung und Klassifizierung möglich geworden. Um den Prozess der Differenzierung von Zellen des peripheren Blutes zu standardisieren, haben wir einen Arbeitsablauf zur automatischen Erfassung und Digitalisierung von mikroskopischen Bildern von Blutausstrichen eingerichtet und in Zusammenarbeit mit AWS ein ML-Modell trainiert, das 21 vordefinierte Klassen verschiedener Zelltypen identifiziert. Die Blutausstriche werden initial bei 10-facher Vergrößerung gescannt, um relevante Bereich zu definieren und anschließend werden Bilder von einzelnen Zellen durch einen hochauflösenden 40x-Scan erzeugt. Diese Bilder werden dann dem ML-Modell zugeführt, welches für jedes Bild die Klasse (= Zelltyp) mit der höchsten Wahrscheinlichkeit zurückliefert. In einer ersten Zwischenanalyse ergab der Vergleich der Ergebnisse für die Zelldifferenzierung zwischen den Experten und dem ML-Modell eine hohe Übereinstimmung, so dass wir zuversichtlich sind, dass die Methode bald in der Routine zur Unterstützung der Hämatologen eingesetzt werden kann. In einem weiteren Projekt arbeiten wir in Kollaboration mit dem Institut für Künstliche Intelligenz im Gesundheitswesen (Helmholtz München) an der automatisierten Analyse von Knochenmarkausstrichen, wobei die ersten Ergebnisse äußerst vielversprechend sind.
Hier gilt, wie bei allen ML-basierten Algorithmen: je mehr Daten zur Verfügung stehen, desto akkurater wird die Aussage. Auch die Genauigkeit eines Morphologen steigt mit seiner Erfahrung – je mehr Zeit er vor einem Mikroskop verbracht hat und je umfangreicher das Spektrum an betrachteten Ausstrichen war, desto genauer und schneller wird seine Einschätzung.
Künstliche Intelligenz in der Zytogenetik
Ähnliche Verfahren lassen sich in allen Bereichen anwenden, welche vorrangig auf der Analyse von Bilddateien beruhen. Der bisher größte Erfolg beim Einsatz von künstlicher Intelligenz am MLL wurde in der Zytogenetik erzielt. Hier wird bereits seit November 2019 ein ML-basiertes System eingesetzt, um verschiedene Schritte der Chromosomenanalyse zu automatisieren. Bei der Chromosomenanalyse geht es darum patientenspezifische Informationen durch die Klassifizierung der Chromosomen und der Detektion etwaiger chromosomaler Aberrationen zu erhalten. Die Chromosomen werden hier basierend auf Größe und Bänderungsmuster klassifiziert und in einem Karyogram dargestellt. Die Erstellung eines solchen Karyogramms ist jedoch ein sehr zeitaufwändiger und komplexer Prozess. So müssen die Chromosomen in den aufgenommenen Metaphasen erst sorgfältig voneinander getrennt werden, bevor sie ihrem Platz im Karyogramm zugeordnet werden können. Die automatische Trennung der einzelnen Chromosomen ist keine triviale Aufgabe, da es immer mal wieder auch zu Überlappungen kommt. Seit Februar 2021 wird jedoch in der Zytogenetik am MLL ein Algorithmus zur automatischen Chromosomentrennung eingesetzt, welcher nur noch bedingte manuelle Unterstützung/Korrektur benötigt. Bereits seit November 2019 ermöglicht der Einsatz eines trainierten und optimierten neuronalen Netzes die automatische Klassifizierung der einzelnen Chromosomen und die Erstellung der Karyogramme für Patienten ohne zytogenetische Veränderungen. Im Sommer 2021 wurde dieser Algorithmus weiter optimiert, so dass jetzt alle aufgenommenen Metaphasen pro Patient gleichzeitig analysiert werden. Dadurch konnte die Anzahl der Fälle, welche innerhalb von 7 Tagen berichtet werden, weiter erhöht werden. Weitere Verbesserungen haben dazu geführt, dass mittlerweile numerische Aberrationen (Zugewinn oder Verlust ganzer Chromosomen) ebenfalls verlässlich klassifiziert werden. Strukturelle Aberrationen (z.B. Translokationen, Inversionen, etc) stellen eine größere Herausforderung dar, allerdings werden während der automatischen Klassifizierung Chromosome, welche sich eindeutig von normalen Chromosomen unterscheiden, für eine manuelle Klassifizierung aussortiert, so dass auch bei aberranten Karyotypen Zeit gespart werden kann.
Künstliche Intelligenz in der Immunphänotypisierung
ML-basierte Modelle finden am MLL auch in der Immunphänotypisierung ihren Einsatz, in der maligne Zellen von gesunden Zellen aufgrund ihres Antigenexpressionsmusters mittels Durchflusszytometrie unterschieden werden. Die einzelnen Zelltypen sind charakterisiert durch die Expression spezifischer Antigen- Kombinationen. Die Diagnose der verschiedenen hämatologischen Neoplasien erfolgt durch die Interpretation der aufgenommenen, zweidimensionalen Grafiken der Durchflusszytometrie. Jede Analyse beinhaltet das Messen tausender Zellen, was die Menge der Daten stark erhöht. In Zusammenarbeit mit AWS wurden verschiedene ML-basierte Modelle mit den Rohdaten der Durchflusszytometrie trainiert, die die Klassifizierung von sechs verschiedenen Subtypen hämatologischer Neoplasien (AML, MDS, ALL, T-NHL, B-NHL, Multiples Myelom/MGUS) ermöglichen. Die Modelle werden aktuell in der Routine getestet und evaluiert. Wir gehen davon aus, dass die trainierten Modelle in Zukunft bis zu 75 % der routinemäßigen Datenanalyse in der Immunphänotypisierung ersetzen werden. Unsere nächsten Schritte konzentrieren sich hier auf die Klassifizierung zusätzlicher Entitäten, die Anwendung von Transfer-Learning, um eine universelle Anwendbarkeit zu erreichen, und die Erweiterung der Modelle, um auch messbare Restkrankheitsmuster zu erkennen.
Künstliche Intelligenz in der Molekulargenetik
In der Molekulargenetik werden durch die Zunahme an durchgeführten Sequenzierungen die Datenmengen immer größer und eine manuelle Interpretation der Daten zunehmend schwieriger. Während man sich früher auf die Untersuchung einzelner Gene beschränkt hat, erlauben die Methoden der Hochdurchsatzsequenzierung die gleichzeitige Untersuchung des gesamten Genoms (WGS) und/oder Transkriptoms (RNA-Seq). Das Ziel dieser Methoden ist nicht nur die genspezifische Analyse von Veränderungen und/oder Überexpressionen im Hochdurchsatz, sondern es geht vielmehr um das Aufdecken zugrundeliegender regulatorischer Mechanismen und das Erkennen wiederkehrender genetischer Muster. Gibt es zum Beispiel bestimmte Kombinationen an genetischen Veränderungen, die das Krankheitsbild einer bestimmten Leukämieart charakterisieren? Verschiedene molekulare Marker sind bereits bekannt, die die einzelnen Subtypen der Leukämie voneinander unterscheiden, aber das Wissen ist bisher noch limitiert. Die immensen Datenmengen machen ein manuelles Durchforsten genomischer Daten unmöglich und da man nicht weiß, wonach man sucht, kann man auch keinem Computer erklären, wie er es finden soll. Aus diesem Grund verwendet man Methoden des maschinellen Lernens, welche eigenständig aus den Daten lernen und relevante Informationen extrahieren. Mit diesem Ansatz verfolgt man prinzipiell zwei Ziele: zum einen wünscht man sich eine automatische Klassifizierung unbekannter Proben und zum anderen möchte man weitere Erkenntnisse über die Grundlagen der verschiedenen Erkrankungen gewinnen. Damit dies funktioniert wird der Algorithmus, häufig handelt es sich hierbei um neuronal Netzwerke, an genomischen Daten der verschiedenen Subtypen trainiert und die Performance evaluiert. Dabei handelt es sich um einen hochiterativen Prozess, um die optimale Einstellung der Parameter zu finden, die die beste Performance und damit die genaueste Klassifizierung garantieren. Auch wenn das Genom verschiedener Menschen zu 99,9% identisch ist, unterscheiden sie sich doch in einer Vielzahl an Polymorphismen. Um zu verhindern, dass diese individuellen Unterschiede die Performance des Classifiers negativ beeinflussen, sind große Mengen an Trainingsdaten notwendig um die auftretende Diversität abzudecken und akkurate Einschätzungen zu garantieren. Da der Algorithmus sich die Merkmale für die einzelnen Subtypen selber sucht, liegt es nahe, dass dadurch auch neue Korrelationen und Assoziationen gefunden werden können, die möglicherweise helfen, die molekularen Grundlagen besser zu verstehen. Dies sollte zusammen mit den bereits bekannten Merkmalen der Routinediagnostik eine verbesserte Diagnose und Prognoseeinschätzung möglich machen.