AI 기반 의료기기 소프트웨어 기능에 대한 규제적 고려사항
엘리스 ·
AI 지원 의료기기 소프트웨어 기능: 미국 FDA 지침 검토 브리핑
1. 개요 및 목적
이 브리핑 문서는 미국 식품의약국(FDA)이 2025년 1월 7일에 발행한 "인공지능 지원 의료기기 소프트웨어 기능: 수명 주기 관리 및 마케팅 제출 권장 사항 (Artificial Intelligence-Enabled Device Software Functions: Lifecycle Management and Marketing Submission Recommendations)" 초안 지침에서 도출된 주요 테마, 아이디어 및 사실을 검토합니다. 이 지침은 비구속적인 권장 사항을 포함하며, AI 지원 의료기기(AI-enabled devices)의 개발, 검증, 마케팅 제출 및 시판 후 모니터링에 대한 FDA의 현재 사고방식을 제시합니다. 궁극적인 목표는 AI 지원 의료기기의 안전성과 효과성을 보장하기 위한 제조업체의 노력과 FDA의 규제 검토 과정을 안내하는 것입니다.
이 지침은 특히 기계 학습(machine learning), 그 중에서도 딥 러닝(deep learning) 및 신경망(neural networks)을 통합하는 기기에 특히 관련이 있지만, 모든 AI 지원 의료기기에 광범위하게 적용될 수 있도록 의도되었습니다 (라인 189-191).
💡 읽기 팁
(라인 189-191): 원문 참조 위치를 표시합니다. 상세 내용을 원하시면 게시글 하단의 원문 링크에서 확인바랍니다.
2. 핵심 테마 및 중요 아이디어
2.1. 총 제품 수명 주기(TPLC) 접근 방식
FDA는 AI 지원 의료기기의 개발부터 시판 후 관리 및 단종에 이르기까지 총 제품 수명 주기(TPLC, Total Product Life Cycle)에 걸친 포괄적인 접근 방식을 강조합니다 (라인 119-120, 700-701). 이는 제품의 설계 초기 단계부터 투명성과 편향 제어를 통합하고, 지속적인 안전성 및 효과성을 보장하기 위한 계획을 수립해야 함을 의미합니다 (라인 234-236).
"이러한 상호 연결된 고려 사항은 TPLC 전반에 걸쳐 중요하며, 장치 설계의 초기 단계부터 단종에 이르기까지 투명성과 편향 제어를 장치에 설계하고 안전성과 효과성을 보장하는 데 도움이 되도록 통합되어야 합니다." (라인 234-237)
"FDA는 제조업체가 TPLC 전반에 걸쳐 AI 지원 장치에 대해 이 접근 방식을 따를 것을 권장합니다." (라인 700-701)
2.2. 투명성 및 편향 제어 (Transparency and Bias Control)
이 지침은 AI 지원 의료기기에 대한 투명성과 편향 제어의 중요성을 반복적으로 강조합니다.
- 투명성(Transparency): "투명성은 중요한 정보가 접근 가능하고 기능적으로 이해 가능하도록 보장하는 것을 포함하며, 정보 공유와 장치의 사용성 모두와 연결됩니다." (라인 237-239). 이는 사용자가 AI 지원 의료기기의 성능, 설계 정보 및 잠재적 한계를 명확하게 이해할 수 있도록 하는 것을 목표로 합니다 (라인 1572-1576). 부록 B(라인 1565-1663)는 사용자 중심 설계 접근 방식을 통한 투명성 설계 고려 사항을 자세히 설명합니다.
- AI 편향(AI Bias): "AI 편향은 체계적이지만 때로는 예측할 수 없는 방식으로 부정확한 결과를 생성할 수 있는 잠재적 경향으로, 의도된 사용 인구 전체 또는 하위 집합(예: 다른 의료 환경, 다른 입력 장치, 성별, 연령 등) 내에서 장치의 안전성과 효과성에 영향을 미칠 수 있습니다." (라인 239-242). 편향을 통제하기 위해서는 개발, 테스트 및 모니터링을 위한 데이터 수집에서 대표성을 확보하고, 의도된 사용의 하위 그룹 전반에 걸쳐 성능을 평가해야 합니다 (라인 247-250).
2.3. 마케팅 제출 권장 사항 및 내용
FDA는 AI 지원 의료기기 마케팅 제출에 포함되어야 하는 특정 문서 및 정보에 대한 자세한 권장 사항을 제공합니다 (라인 162-163, 291-298).
이는 510(k) 제출, De Novo(신기술 의료기기) 분류 요청, PMA(Premarket Approval) 신청, HDE(Humanitarian Device Exemption) 또는 BLA(Biologics License Application)를 포함합니다 (라인 164-166).
주요 제출 내용은 다음과 같습니다.
- 장치 설명 (Device Description): 전체 장치, 사용자 상호 작용, 임상 워크플로에 대한 정보 (라인 973-974).
사용자 인터페이스 및 라벨링 (User Interface and Labeling): AI 사용 선언, AI가 장치의 의도된 사용을 달성하는 데 어떻게 사용되는지에 대한 설명 포함 (라인 552-554). 모든 알려진 제한 사항(예: 훈련 데이터 세트의 희귀 질환 환자 수 부족)도 라벨링에 포함되어야 합니다 (라인 626-631). - 위험 평가 (Risk Assessment): AI 지원 장치의 정보 이해 및 해석과 관련된 위험 관리의 중요성 강조 (라인 704-716). 투명성 설계와 사용성 평가가 위험 식별 및 통제에 도움이 될 수 있습니다 (라인 737-742).
- 데이터 관리 (Data Management): 훈련 및 테스트 데이터의 수집, 전처리, 데이터 특성화(인구 통계학적 분포 등), 참조 표준 설정, 데이터 저장 방식에 대한 상세 설명 (라인 812-895). 특히, 테스트 데이터는 실제 사용 환경을 대표해야 하며, 데이터의 대표성(성별, 연령, 인종, 민족 등)을 강조합니다 (라인 911-934). 단일 데이터 수집 사이트에 의존하는 것은 일반적으로 적절하지 않으며, 여러 지리적으로 다양한 임상 사이트(예: 최소 3개)를 사용하는 것이 권장됩니다 (라인 923-931).
- 모델 설명 및 개발 (Model Description and Development): 모델의 기술적 특성, 사용된 알고리즘 및 개발 방법, 잠재적 한계 및 편향원 식별 (라인 975-980). 여러 모델이 사용되는 경우 출력 결합 방식을 다이어그램으로 표시하는 것이 좋습니다 (라인 984-988).
- 밸리데이션 (Validation):
- 성능 밸리데이션 (Performance Validation): 의도된 사용에 대한 모델 성능을 객관적으로 특성화하기 위한 테스트 데이터 세트에서의 모델 성능 평가 (라인 1066-1070, 1174-1176). 특히, "Validation(유효성 확인)" 용어는 의료기기 규정(21 CFR 820.3(z))의 정의에 따라 "특정 의도된 사용에 대한 특정 요구 사항이 일관되게 충족될 수 있음을 검사 및 객관적 증거 제공을 통해 확인하는 것"을 의미합니다 (라인 278-281). 모델 훈련 및 튜닝 프로세스를 "유효성 확인"으로 지칭하는 것을 피하도록 권장합니다 (라인 282-283).
- 인적 요소 밸리데이션/사용성 평가 (Human Factors Validation/Usability Evaluation): 사용자가 장치를 안전하고 효과적으로 사용할 수 있는지 평가합니다 (라인 1071-1074, 1859-1862). AI 지원 장치의 경우 정보 해석 및 사용과 관련된 위험 통제를 평가하는 것이 중요합니다 (라인 1871-1873).
- 임상 연구 접근 방식: 모델의 독립적인 성능 평가(standalone performance)와 인간-AI 팀의 성능 평가(human-AI team performance)를 모두 고려할 것을 제안합니다 (라인 1156-1162). 진단 영상 애플리케이션에서 임상 의사 결정을 돕는 AI 지원 장치의 경우, "판독자 연구(reader studies)"가 주요 성능 평가로 작용하는 경우가 많습니다 (라인 1169-1172).
- 데이터 정밀도(Precision): 반복성(repeatability)과 재현성(reproducibility) 연구를 통해 장치 출력의 변동성을 평가합니다 (라인 1738-1747).
- 장치 성능 모니터링 (Device Performance Monitoring): 시판 후 환경에서 장치 성능을 모니터링하고 관리하기 위한 방법 및 도구 설명 (라인 620-623). AI 지원 장치는 데이터 입력 특성에 따라 성능이 민감하게 변할 수 있으므로, 시판 후에도 지속적인 모니터링이 중요합니다 (라인 1314-1318). 사전 결정된 변경 제어 계획(PCCP)의 사용을 고려하도록 권장합니다 (라인 259-265, 1372-1374).
- 사이버 보안 (Cybersecurity): AI 지원 장치의 보안 위험(예: 데이터 위조, 모델 회피)을 완화하기 위한 전략(예: 적대적 훈련, 차등 프라이버시, 보안 다자간 계산, 데이터 인증)을 포함합니다 (라인 1392-1398, 1448-1470).
- 공개 제출 요약 (Public Submission Summary): 대중에게 AI 지원 장치에 대한 주요 정보(특성, 성능, 한계)를 명확하고 일관되게 전달하기 위한 권장 사항 (라인 1507-1517). "모델 카드(Model Card)" 사용을 권장하며, 부록 E(라인 1917-2022)는 모델 카드 예시를 제공합니다.
2.4. FDA-AI 커뮤니티 용어 통일
FDA와 AI 커뮤니티 간의 용어 차이를 명확히 합니다 (라인 273-290). 특히, "밸리데이션(validation)"과 "개발(development)"의 정의에 대한 FDA의 규제적 관점을 강조하고, 혼동을 피하기 위해 의료기기 마케팅 제출 시 특정 용어 사용을 권장합니다 (라인 278-287).
2.5. 조기 FDA 참여 권장
새롭거나 신흥 기술을 사용하거나, 장치 검증에 새로운 방법이 사용될 때 Q-제출 프로그램(Q-Submission Program)을 통해 FDA와 조기에 소통할 것을 강력히 권장합니다 (라인 216-220, 825-826, 1339-1340).
3. 예시: Disease X Screening Model 510(k) 요약
부록 F(라인 2025-2305)는 "Disease X Screening Model"이라는 가상의 AI 지원 진단 장치에 대한 510(k) 요약 예시를 제공합니다. 이 예시는 위에서 언급된 많은 권장 사항이 실제로 어떻게 적용되는지 보여줍니다.
- 의도된 사용 (Indications For Use): Disease X를 선별하는 데 도움을 주는 소프트웨어로, 독립적인 진단 장치가 아니며 임상의 판단과 함께 사용되어야 함을 명확히 합니다 (라인 2037-2043).
- 장치 설명 (Device Description): 컨볼루션 신경망을 사용하는 기계 학습 모델로 12-리드 ECG를 분석하고 Disease X 가능성에 대한 출력을 제공하며, 품질 확인 기능이 포함되어 있습니다 (라인 2047-2053).
- 성능 비교 (Performance Comparison): 감도, 특이도, 양성 예측도(PPV)와 같은 성능 지표를 기존 장치(predicate device)와 비교하여 제시합니다 (라인 2055-2056).
- 모델 훈련 설명 (Model Training Description): 훈련 데이터 세트의 규모, 출처(2개 병원 네트워크), 임상 참조 표준(심장 초음파), 인구 통계학적 특성(성별, 연령, 인종, 민족) 및 질병 유병률(Disease X 환자 20%)을 상세히 설명합니다 (라인 2058-2078). 훈련, 튜닝, 튜닝 평가 데이터 세트의 분할 비율도 명시되어 있습니다 (라인 2071-2072).
- 임상 성능 평가 (Clinical Performance Evaluation): 5개의 다양한 병원 시스템에서 25,000명의 환자를 대상으로 한 후향적 연구를 통해 모델의 임상 성능을 평가했습니다 (라인 2097-2114). 연구 인구의 인종 및 병원 사이트 분포가 제시되어 데이터의 다양성을 보여줍니다 (라인 2115-2127).
- 주요 평가 지점 및 연구 결과 (Primary Endpoints and Study Results): 감도 및 PPV에 대한 사전 지정된 성공 기준과 함께 연구 결과를 제시합니다 (라인 2130-2139).
- 하위 그룹 분석 (Subgroup Analysis): 성별, 연령, 인종, 민족, ECG 획득 장치 및 병원 사이트별 성능 분석을 포함하여, 장치 성능이 다양한 하위 그룹에서 어떻게 나타나는지 보여줍니다 (라인 2156-2166).
- 모델 카드 예시 (Example Model Card): 장치 정보, 의도된 사용자, 의도된 사용, 임상 이점, 성능 및 제한 사항, 데이터 유형, 임상 참조 표준, 모델 검증 데이터(크기, 유형, 제외 기준, 결과), 알려진 제한 사항, 위험 관리 및 배포 정보가 포함된 모델 카드를 제공합니다 (라인 2169-2297).
- 위험 관리 (Risk Management): 잘못된 후속 조치, 모델 편향, 지원되지 않는 인구 또는 입력 사용과 같은 잠재적 위험과 이러한 위험에 대한 통제(임상 검증, 소프트웨어 검증 및 유효성 검사, 인적 요소 테스트, 라벨링)를 설명합니다 (라인 2234-2241). 또한, 현장별 수용 테스트 또는 검증, 성능 모니터링, 변경 관리 전략, 취약점에 대한 사전 예방적 접근 방식과 같은 배포 및 업데이트 세부 정보를 포함합니다 (라인 2251-2279).
4. 시사점 및 결론
이 FDA 지침 초안은 AI 지원 의료기기 개발 및 규제에 대한 FDA의 심도 있는 고민을 반영합니다. 특히, 총 제품 수명 주기 접근 방식, 투명성 및 편향 제어의 필수성, 그리고 엄격한 데이터 관리 및 검증 절차는 이 분야의 제조업체에게 중요한 지침이 됩니다. 모델 카드와 같은 도구를 통한 명확한 정보 공개 권장 사항은 사용자 신뢰와 이해를 증진시키는 데 기여할 것으로 보입니다.
이 지침은 구속력이 없는 권장 사항이지만, AI 지원 의료기기 시장에 진입하려는 기업들은 이 지침에서 제시된 원칙과 권장 사항을 철저히 이해하고 자사의 개발 및 제출 과정에 통합하는 것이 FDA 승인을 얻고 안전하고 효과적인 제품을 시장에 출시하는 데 필수적입니다. 또한, AI 기술의 빠른 발전 속도를 고려할 때, FDA와의 조기 소통 및 지속적인 상호 작용이 중요함을 강조합니다.