의료용 AI, 악의적 입력에 취약…프롬프트 인젝션 공격 시 안전성 한계 확인
최근 환자 상담·교육 보조 용도로 활용되는 생성형 인공지능(AI)이 악의적 입력이 가해질 경우 잘못된 답변을 내놓을 수 있다는 연구 결과가 나왔다. 이번 결과는 연구진이 설정한 공격 시나리오와 실험 조건에서 관찰된 현상으로, 의료 분야 활용에 앞서 보안 검증의 필요성을 시사한다는 설명이다.
서울아산병원 비뇨의학과 서준교 교수·정보의학과 전태준 교수팀과 인하대병원 영상의학과 이로운 교수팀은 의료용 대규모언어모델(LLM)의 보안 취약성을 분석한 다기관 공동연구에서 프롬프트 인젝션 공격을 가정한 실험 환경에서 높은 공격 성공률을 확인했다고 5일 밝혔다.
프롬프트 인젝션은 생성형 AI에 악의적 명령어를 삽입해 모델이 본래 의도와 다른 응답을 하도록 유도하는 공격 기법이다. 연구진은 환자 상담 상황을 가정한 12개 시나리오를 구성하고 위험도를 단계별로 나눠, 상황인지형 프롬프트 주입과 증거 조작 등 두 가지 공격 방식을 적용했다. 이번 연구는 의사 진단이나 처방을 대체하는 시스템이 아니라, 상담·정보 제공 목적의 생성형 AI 응답을 대상으로 했다.
1차 실험에서는 GPT-4o-mini, Gemini-2.0-flash-lite, Claude 3 Haiku 등 3개 모델을 대상으로 총 216건의 대화를 분석했다. 그 결과, 해당 실험 조건에서 전체 공격 성공률은 94.4%로 나타났다. 위험 수준별로는 중간 단계 100%, 높은 단계 93.3%, 최고 단계 91.7%의 성공률을 보였다. 연구진은 일부 시나리오에서 임신부에게 금기 약물 관련 답변이 유도되는 등 안전성 한계가 관찰됐다고 설명했다. 이는 실제 임상 처방 사례가 아니라, 조작된 입력에 대한 모델의 응답을 평가한 결과다.
연구팀은 추가 검증으로 최신 모델 3종(GPT-5, Gemini 2.5 Pro, Claude 4.5 Sonnet)을 대상으로 간접 프롬프트 인젝션 공격을 적용했다. 그 결과, 연구진이 설정한 시나리오 내에서 공격 성공률이 높게 나타났으며, 최신 모델 역시 해당 유형의 공격을 완전히 방어하지는 못했다. 연구진은 이번 평가가 모델의 일반적 성능이나 실제 의료 활용 전반을 평가한 것은 아니라고 설명했다.
또한 조작된 답변이 후속 대화까지 지속되는 현상도 확인됐다. 연구진은 한 번 교란된 응답이 대화 맥락 전반에 영향을 미칠 수 있어, 의료 분야 활용 시 추가적인 안전장치와 보안 검증 체계가 필요하다고 지적했다.
이번 연구 결과는 미국의사협회가 발간하는 국제 학술지 JAMA Network Open 최근호에 게재됐다. 연구진은 본 연구가 의료용 AI의 보안 취약성을 체계적으로 분석한 시도라는 점에서 의미가 있다고 설명했다.
서준교 교수는 “이번 연구는 의료용 AI가 단순 오류를 넘어 의도적 조작에 구조적으로 취약할 수 있음을 실험적으로 확인한 것”이라며 “환자 대상 챗봇이나 원격 상담 시스템 도입에 앞서 공격 방어 체계와 보안 검증 기준을 마련하는 것이 중요하다”고 말했다. 다만 그는 “이번 결과가 실제 임상 환경 전반의 안전성을 의미하는 것은 아니다”라고 덧붙였다.