KI Regulatory Affairs – News von der FDA und zum Testen von Systemen

Die US-amerikanische Gesundheitsbehörde FDA hat einen Fahrplan veröffentlicht, der das Prüfen und Zulassen von Künstliche Intelligenz (KI)-Anwendungen in Medizinprodukten auch mit veränderlichen, weiterlernenden Algorithmen ermöglichen soll. Währenddessen haben auch die internationale Normungsorganisationen ISO und IEC einen Technischen Bericht zum Testen von KI-Systemen veröffentlicht. In diesem Beitrag erfahren Sie, was in den beiden Dokumenten steht und welche Implikationen diese für Medizinprodukte haben.

Neuer FDA-Aktionsplan für KI/ML-basierte Software

In der Zeit von 1998 bis 2017 sammelte die FDA erste Erfahrungen aus Zulassungen von Computer Aided Detection (CADe) und anderen Anwendungen von Künstlicher Intelligenz / Maschinellem Lernen (KI/ML) für Bildverarbeitungsaufgaben. In der Folge etablierte die FDA über das De Novo Verfahren 510(k)-Zulassungswege für weitere radiologische und weitere AI/ML-Produkte, bis sie 2019 das Diskussionspapier „Proposed Regulatory Framework for Modifications to Artificial Intelligence/Machine Learning (AI/ML)-Based Software as a Medical Device (SaMD)“ veröffentlichte. Das daraufhin erhaltene Feedback diskutierte die FDA 2020 im öffentlichen Workshop „Evolving Role of Artificial Intelligence in Radiological Imaging“ mit ausgewählten Experten*innen.

Im Januar 2021 ist nun das FDA-Dokument „Artificial Intelligence/Machine Learning (AI/ML) – Software as a Medical Device (SaMD) Action Plan“ erschienen, dessen wesentliche Inhalte sich wie folgt zusammenfassen lassen:

  • In 2021 soll ein Leitfadenentwurf erscheinen, der die Inhalte der zuvor im Diskussionspapier geforderten Dokumentation SaMD Pre-Specifications (SPS) („Welche Änderungen sollen vorgenommen werden?“) und Algorithm Change Protocol (ACP) („Wie werden die (im SPS vorgegebenen) Änderungen durchgeführt und validiert?“) für kontinuierlich lernende KI-Systeme genauer erläutert. Am 7. Februar 2020 erhielt die erste Herz-Ultraschall-Software mit einer KI-basierten Benutzerführung die Marktzulassung. Bemerkenswert ist außerdem, dass der Hersteller einen ACP verwendet, um künftige Änderungen am Algorithmus zu implementieren.
  • Um die Transparenz gegenüber den Anwendern und damit deren Vertrauen in KI-basierte Produkte zu stärken, soll ein öffentlicher Workshop zur Produktkennzeichnung stattfinden. Der VDE hat die Vorlage „Technische Beschreibung KI-Modell“ entwickelt, mit welcher Hersteller der geforderten Transparenz nachkommen können. Dieses Dokument können Hersteller in Europa auch für die Kommunikation mit Benannten Stellen verwenden.
  • Die Behörde unterstützt außerdem die Entwicklung von Methoden, um das Problem des Algorithmus-Bias zu bewältigen und die Robustheit zu stärken.
  • Die Behörde will mit Interessengruppen einen regulatorischen Ansatz entwickeln, der für die nahtlose Erfassung und Validierung relevanter Parameter und Metriken für KI/ML-basierte Software im Rahmen eines Real-World Performance Monitoring verwendet werden kann. Diese vorgeschlagene kontinuierliche Überwachung des Produkts im Markt durch die Behörde hat bei dem zuvor erwähnten Workshop für intensive Diskussionen gesorgt.
  • In der ebenfalls geplanten Good Machine Learning Practice (GMLP) Richtlinie soll auch die Informationssicherheit von Medizinprodukten eine wichtige Rolle spielen, was angesichts der besonderen Bedrohungen (bspw. adversarial attacks) bei KI-basierten Produkten sehr sinnvoll sein dürfte. Die Behörde weist in diesem Zusammenhang auf ihre Beteiligung bei verschiedenen Organisationen, Experten- und Normungsgruppen hin.

Zusammengenommen zeigt das aktuelle Dokument, wo die FDA zukünftig ihre Schwerpunkte setzen will und durch die angekündigten Workshops ist auch eine Beteiligung der entsprechenden Interessengruppen sichergestellt.

Neue internationale Norm zum Testen von KI-basierten Systemen

In 2020 hat die Interessengemeinschaft der Benannten Stellen für Medizinprodukte in Deutschland den Fragenkatalog „Künstliche Intelligenz bei Medizinprodukten“ herausgebracht, der weitestgehend auf dem „Leitfaden zur KI bei Medizinprodukten“ von Johner et al. basiert und regulatorische Anforderungen für diese besondere Art von Software als Medizinprodukt enthält.

Unter anderem fordert der Fragenkatalog „nachvollziehbar quantitative Gütekriterien“ im Rahmen des Nachweises der Funktionalität und Leistungsfähigkeit sowie damit einhergehende Tests. Obwohl das Testen traditioneller Software (-Systeme) gut etabliert ist, stellen KI-basierte Systeme diesbezüglich eine neue Herausforderung dar. Daneben ist auch die Qualität der Daten ein wichtiger Gesichtspunkt hinsichtlich der Güte KI-basierter Systeme und deshalb finden sich auch hierzu entsprechende Anforderungen im Fragenkatalog. Für Hersteller dieser Systeme bleibt aber die Frage, wie sie diese und andere Anforderungen konkret umsetzen sollen. Nicht umsonst hat die FDA in diesem Zusammenhang eine Good Machine Learning Practice (GMLP)-Richtlinie – möglicherweise auch in Form verschiedener internationaler Normen – angekündigt. Interessanterweise hat genau eine der Normungsgruppen unter Beteiligung der FDA, nämlich das Joint Technical Committee 1 / Sub-Committee 42 (ISO/IEC JTC 1/SC 42), kürzlich den Technical Report (TR) „ISO/IEC TR 29119-11 „Software and systems engineering – Software testing – Part 11: Guidelines on the testing of AI-based systems“ veröffentlicht.

Der TR beginnt mit einer umfangreichen Sammlung von Definitionen im Abschnitt 3, die für sich gesehen schon sehr wertvoll ist, und erläutert in den folgenden Abschnitten 4 und 5 zunächst die generelle Funktionsweise und die Herausforderungen von KI-basierten Systemen. Der Abschnitt 6 bietet eine Einführung in das Testen von KI-basierten Systemen. Im Abschnitt 7 werden allgemein die Qualitätssicherungs- und Testmöglichkeiten beschrieben. Die Abschnitte 8 und 9 widmen sich ausführlich dem Black-box Testing (Tests ohne Kenntnisse über die innere Funktionsweise und Implementierung des zu testenden Systems) und White-box Testing (Tests in Hinblick auf den implementierten Algorithmus). Der letzte Abschnitt 10 widmet sich den Testumgebungen für KI-basierte Systeme, die grundsätzlich viel mit denen für konventionelle Systeme gemeinsam haben. Es gibt also Testumgebungen auf der Entwicklungs- und der Systemebene (siehe Abbildung).

Die Komplexität von KI-basierten Systemen kann das Testen in der realen Welt sehr aufwendig machen und deshalb stellen virtuelle Testumgebungen eine interessante Alternative dar, deren Vorteile im weiteren Verlauf des Abschnitts diskutiert werden.

Der Anhang A bietet eine Einführung in das maschinelle Lernen und erläutert u. a. die richtige Auswahl von quantitativen Gütekriterien basierend auf der Verteilung der Daten. Ein Beispiel ist die Genauigkeit (Accuracy), welche nur für symmetrische Datensätze geeignet ist, d. h. wenn die Anzahl der falsch-negativen und falsch-positiven Daten ähnlich ist.

Die TR ISO/IEC TR 29119-11 bezieht sich nicht ausschließlich auf Medizinprodukte, aber sie stellt dennoch den Stand der Technik (State-of-the-Art) dar und wird Herstellern bei der Auswahl geeigneter Tests für ihre KI-basierten Systeme eine wertvolle Hilfestellung sein.

Schreiben Sie einen Kommentar!

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.