FDAの機械学習に関するガイド:Good Machine Learning Practice for Medical Device Development: Guiding Principles
2021年10月27日、米国食品医薬品局(FDA)、カナダ保健省、および英国の医薬品医療製品規制庁(MHRA)は、Good Machine Learning Practice(GMLP)の開発に情報を提供できる10の指針を共同で特定し、「Good Machine Learning Practice for Medical Device Development: Guiding Principles」(医療機器開発のための優れた機械学習の実践:指導原則)と呼ばれる新しいガイダンスを発行した。
これら10の指針は、人工知能と機械学習(AI / ML)を使用する、安全で効果的かつ高品質の医療機器の促進に役立つ。
人工知能と機械学習テクノロジーは、毎日のヘルスケアの提供中に生成される膨大な量のデータから新しく重要な洞察を引き出すことにより、ヘルスケアを変革する可能性を秘めている。
それらはソフトウェアアルゴリズムを使用して実際の使用法から学び、状況によってはこの情報を使用して製品のパフォーマンスを向上させることがある。
しかし、それらは、その複雑さと、開発の反復的でデータ駆動型の性質のために、独自の考慮事項も提示しなければならない。
これらの10の指針は、これらの製品の独自の性質に対処する優れた機械学習プラクティスを開発するための基礎を築くことを目的としている。
それらはまた、この急速に進歩している分野で将来の成長を育むのに役立つだろう。
10の指針となる原則は、国際医療機器規制当局フォーラム(IMDRF)、国際標準化団体、およびその他の協力団体がGMLPを推進するために取り組むことができる分野を特定している。
コラボレーションの分野には、研究、教育ツールとリソースの作成、国際的な調和、およびコンセンサス基準が含まれる。
これらは、規制ポリシーと規制ガイドラインに情報を提供するのに役立つ。
これらの指針は、次の目的で使用できると考えられる。
- 他のセクターで証明されているグッドプラクティスを採用する
- 他のセクターの慣行を調整して、医療技術やヘルスケアセクターに適用できるようにする
- 医療技術とヘルスケアセクターに固有の新しいプラクティスを作成する
AI / ML医療機器分野が進化するにつれて、GMLPのベストプラクティスとコンセンサス基準も進化する必要がある。
利害関係者がこの分野で責任あるイノベーションを推進できるようにするためには、国際的な公衆衛生パートナーとの強力なパートナーシップが不可欠である。
したがって、この最初の共同作業は、IMDRFを含む、より広範な国際的な取り組みに情報を提供できると期待されている。
指導原則
- 製品ライフサイクル全体を通じて学際的な専門知識が活用される:モデルの臨床ワークフローへの意図された統合、および望ましい利点と関連する患者のリスクを深く理解することで、ML対応の医療機器の安全性と効果性を確保し、対処することができます。デバイスのライフサイクル全体にわたる臨床的に意味のあるニーズ。
- 優れたソフトウェアエンジニアリングとセキュリティプラクティスの実装:モデル設計は、「基本」(優れたソフトウェアエンジニアリングプラクティス、データ品質保証、データ管理、および堅牢なサイバーセキュリティプラクティス)に注意を払って実装されます。これらのプラクティスには、設計、実装、およびリスク管理の決定と論理的根拠を適切にキャプチャして伝達し、データの信頼性と整合性を確保できる、体系的なリスク管理と設計プロセスが含まれます。
- 臨床試験の参加者とデータセットは、対象となる患者集団を代表するものです。データ収集プロトコルは、対象となる患者集団の関連する特性(年齢、性別、性別、人種、民族性など)、使用、および測定入力は、臨床研究、トレーニング、およびテストデータセットの適切なサイズのサンプルで十分に表されるため、結果を対象の母集団に合理的に一般化できます。これは、バイアスを管理し、対象の患者集団全体で適切で一般化可能なパフォーマンスを促進し、ユーザビリティを評価し、モデルがパフォーマンスを低下させる可能性のある状況を特定するために重要です。
- トレーニングデータセットはテストセットから独立しています:トレーニングデータセットとテストデータセットは、互いに適切に独立するように選択および維持されます。患者、データ取得、およびサイト要因を含むすべての潜在的な依存の原因は、独立性を保証するために考慮され、対処されます。
- 選択された参照データセットは、利用可能な最良の方法に基づいています:参照データセット(つまり、参照標準)を開発するための受け入れられた、利用可能な最良の方法は、臨床的に関連性があり、十分に特徴付けられたデータが収集され、参照の制限が理解されることを保証します。利用可能な場合は、モデルの開発とテストで受け入れられた参照データセットを使用して、対象の患者集団全体でモデルの堅牢性と一般化可能性を促進および実証します。
- モデル設計は利用可能なデータに合わせて調整され、デバイスの使用目的を反映します。モデル設計は利用可能なデータに適しており、過剰適合、パフォーマンスの低下、セキュリティリスクなどの既知のリスクの積極的な軽減をサポートします。製品に関連する臨床上の利点とリスクは十分に理解されており、テストのための臨床的に意味のあるパフォーマンス目標を導き出すために使用され、製品がその意図された使用を安全かつ効果的に達成できることをサポートします。考慮事項には、グローバルおよびローカルの両方のパフォーマンスの影響と、デバイスの入力、出力、対象となる患者集団、および臨床使用条件の不確実性/変動性が含まれます。
- Human-AIチームのパフォーマンスに焦点が当てられている:モデルに「人間工学的ループ」がある場合、Human-AIチームのパフォーマンスに重点を置いて、ヒューマンファクターの考慮事項とモデル出力の人間による解釈可能性に対処します。モデルのパフォーマンスだけでなく、単独で。
- テストは、臨床的に関連する条件でのデバイスパフォーマンスを示します:統計的に適切なテスト計画が作成および実行され、トレーニングデータセットとは無関係に臨床的に関連するデバイスパフォーマンス情報が生成されます。考慮事項には、対象となる患者集団、重要なサブグループ、臨床環境とHuman-AIチームによる使用、測定入力、および潜在的な交絡因子が含まれます。
- ユーザーには明確で重要な情報が提供されます:ユーザーには、製品の使用目的と使用の適応、モデルのパフォーマンスなど、対象となる対象者(医療提供者や患者など)に適した、状況に応じた明確な情報にすぐにアクセスできます。適切なサブグループについては、モデルのトレーニングとテストに使用されるデータの特性、許容可能な入力、既知の制限、ユーザーインターフェイスの解釈、およびモデルの臨床ワークフロー統合。また、ユーザーは、実際のパフォーマンスモニタリングからのデバイスの変更と更新、利用可能な場合の意思決定の基礎、および製品の懸念事項を開発者に伝達する手段についても認識されます。
- 展開されたモデルのパフォーマンスが監視され、再トレーニングのリスクが管理されます:展開されたモデルには、安全性とパフォーマンスの維持または改善に重点を置いた「実世界」での使用を監視する機能があります。さらに、モデルが展開後に定期的または継続的にトレーニングされる場合、モデルの安全性とパフォーマンスに影響を与える可能性のあるモデルの過剰適合、意図しないバイアス、または劣化(データセットのドリフトなど)のリスクを管理するための適切な制御が実施されます。 Human-AIチームによって使用されます。