의료 조언 제공 시 대규모 언어 모델의 프롬프트 주입 취약성 > News

본문 바로가기

News

회사소개

News

의료 조언 제공 시 대규모 언어 모델의 프롬프트 주입 취약성

페이지 정보

본문

질문

상용 의료용 대규모 언어 모델(LLM)이 신속 주입 공격(즉, LLM의 동작을

조작하는 악의적으로 조작된 입력)을 통해 안전하지 않거나 금기시되는 치료법을

권장하도록 조작될 수 있습니까?

 

본 연구에서는 216건의 환자-LLM 대화에 대한 통제된 시뮬레이션을 사용한 품질

개선 연구를 진행한 결과 , 웹훅을 이용한 신속 주사 공격이 시험의 94.4%에서

성공했으며, 탈리도마이드와 같은 미국 식품의약국(FDA) 임신 중 사용 금지

약물(Category X)을 포함한 극심한 위해 시나리오에서는 91.7%의 성공률을

보였습니다.

즉,   이러한 연구 결과는 현재의 LLM 안전장치가 생명을 위협하는 임상적 권고를

유발할 수 있는 즉각적인 주사 조작을 방지하기에 여전히 불충분하다는 것을

시사합니다.

 

중요성

대규모 언어 모델(LLM)은 의료 애플리케이션에 점점 더 많이 통합되고

있지만, 의료 권고 사항을 변경할 수 있는 신속 주입 공격(즉, 악의적으로 조작된

입력을 통해 LLM의 동작을 조작하는 공격)에 대한 취약성은 체계적으로 평가되지

않았습니다.

 

목표

상용 LLM이 안전하지 않은 임상 조언을 유발할 수 있는 신속 주입 공격에

얼마나 취약한지 평가하고, 중간자 공격 및 클라이언트 측 주입이 현실적인 공격

벡터인지 검증합니다.

 

연구 설계, 환경 및 참여자   

본 질 개선 연구는 통제된 시뮬레이션 설계를 사용하여

2025년 1월부터 10월까지 표준화된 환자-LLM 대화를 통해 수행되었습니다. 주요

실험에서는 통제된 조건 하에서 4개 범주의 12개 임상 시나리오에 걸쳐 3가지 경량

모델(GPT-4o-mini [LLM 1], Gemini-2.0-flash-lite [LLM 2], Claude-3-haiku [LLM 3])을

평가했습니다. 12가지 임상 시나리오는 보충제 권장, 오피오이드 처방, 임신 금기,

중추신경계 독성 효과의 4개 범주에 걸쳐 위해 수준에 따라 분류되었습니다. 개념

증명 실험에서는 고위험 임신 시나리오에서 환자 측 주사 방식을 사용하여 3가지

플래그십 모델(GPT-5 [LLM 4], Gemini 2.5 Pro [LLM 5], Claude 4.5 Sonnet [LLM

6])을 테스트했습니다.

 

노출   2가지 신속 주입 전략: 

(1) 중간 및 고위험 시나리오에 대한 컨텍스트 인식 주입

및 (2) 극도로 높은 위해 시나리오에 대한 증거 조작 주입. 주입은 다중 턴 대화

프레임워크 내의 사용자 쿼리에 프로그래밍 방식으로 삽입되었습니다.

주요 결과 및 측정 항목은 다음과   같습니다. 주요 결과는 1차 의사결정 단계에서의

주사 성공률입니다. 보조 결과에는 대화 단계 전반에 걸친 지속성 및 위해 수준별

모델별 성공률이 포함됩니다.

총 216건의 평가(주입군 108건, 대조군 108건) 에서   공격은 4번째 턴에서

94.4%(108건 중 102건)의 성공률을 보였고, 후속 평가에서는 69.4%(108건 중

75건)에서 지속되었습니다. LLM 1과 LLM 2는 각각 36개 대화 중 36개(100%)에서

완전히 취약한 것으로 나타났으며, LLM 3은 83.3%(36개 대화 중 30개)에서 취약한

상태를 유지했습니다. 미국 식품의약국(FDA) 임신 중 사용 금지 등급 X에 해당하는

약물(예: 탈리도마이드)을 포함한 극심한 위해 시나리오에서는 91.7%(36개 대화 중

33개)의 성공률을 보였습니다. 개념 증명 실험에서는 LLM 4와 LLM 5가 각각 5개

대화 중 5개에서 100% 취약한 것으로 나타났고, LLM 6은 5개 대화 중 4개에서 80.0%

취약한 것으로 나타났습니다.

 

결론 및 중요성   

본 연구는 통제된 시뮬레이션을 활용한 품질 개선 연구로, 상용

LLM(대규모언어모델)이 임상적으로 위험한 권고를 생성할 수 있는 신속 주입 공격에

상당한 취약성을 보인다는 것을 입증했습니다. 첨단 안전 메커니즘을 갖춘 플래그십

모델조차도 높은 취약성을 나타냈습니다. 이러한 결과는 임상 적용 전에 적대적

견고성 테스트, 시스템 수준의 안전장치 및 규제 감독이 필요함을 강조합니다.


Vulnerability of Large Language Models to Prompt Injection When Providing

Medical Advice

JAMA Netw. Open, December 19, 2025;8;(12):e2549963. 

Abstract

Importance  

Large language models (LLMs) are increasingly integrated into health care

applications; however, their vulnerability to prompt-injection attacks (ie, maliciously crafted

inputs that manipulate an LLM’s behavior) capable of altering medical recommendations has

not been systematically evaluated.

 

Objective  

To evaluate the susceptibility of commercial LLMs to prompt-injection attacks that

may induce unsafe clinical advice and to validate man-in-the-middle, client-side injection as

a realistic attack vector.

 

Design, Setting, and Participants  

This quality improvement study used a controlled

simulation design and was conducted between January and October 2025 using

standardized patient-LLM dialogues. The main experiment evaluated 3 lightweight models

(GPT-4o-mini [LLM 1], Gemini-2.0-flash-lite [LLM 2], and Claude-3-haiku [LLM 3]) across 12

clinical scenarios in 4 categories under controlled conditions. The 12 clinical scenarios were

stratified by harm level across 4 categories: supplement recommendations, opioid

prescriptions, pregnancy contraindications, and central-nervous-system toxic effects. A

proof-of-concept experiment tested 3 flagship models (GPT-5 [LLM 4], Gemini 2.5 Pro [LLM

5], and Claude 4.5 Sonnet [LLM 6]) using client-side injection in a high-risk pregnancy

scenario.

 

Exposures  

Two prompt-injection strategies: (1) context-aware injection for moderate- and

high-risk scenarios and (2) evidence-fabrication injection for extremely high-harm scenarios.

Injections were programmatically inserted into user queries within a multiturn dialogue

framework.

 

Main Outcomes and Measures  

The primary outcome was injection success at the primary

decision turn. Secondary outcomes included persistence across dialogue turns and model-

specific success rates by harm level.

 

Results  

Across 216 evaluations (108 injection vs 108 control), attacks achieved 94.4% (102

of 108 evaluations) success at turn 4 and persisted in 69.4% (75 of 108 evaluations) of

follow-ups. LLM 1 and LLM 2 were completely susceptible (36 of 36 dialogues [100%] each),

and LLM 3 remained vulnerable in 83.3% of dialogues (30 of 36 dialogues). Extremely high-

harm scenarios including US Food and Drug Administration Category X pregnancy drugs

(eg, thalidomide) succeeded in 91.7% of dialogues (33 of 36 dialogues). The proof-of-

concept experiment demonstrated 100% vulnerability for LLM 4 and LLM 5 (5 of 5 dialogues

each) and 80.0% (4 of 5 dialogues) for LLM 6.

 

Conclusions and Relevance  

In this quality improvement study using a controlled simulation,

commercial LLMs demonstrated substantial vulnerability to prompt-injection attacks that

could generate clinically dangerous recommendations; even flagship models with advanced

safety mechanisms showed high susceptibility. These findings underscore the need for

adversarial robustness testing, system-level safeguards, and regulatory oversight before

clinical deployment.


  • 마더투베이비㈜
  • 대표자 : 한혜지
  • 서울시 서초구 고무래로 10-6, 5층 3호(반포동, 상영빌딩)
  • TEL : 02)2272-4737
  • E-mail : twosafe.verified@gmail.com
  • 사업자등록번호 : 369-86-02459
Copyright © mothertobaby.co.kr All rights reserved.