국내 LLM 안전성, 해외 모델의 82% 수준…국내 기술력 격차 현저

2025-11-17     박광하 기자
LLM 안전성 평가 결과. (자료제공=숭실대)

[뉴스웍스=박광하 기자] 숭실대 AI안전성연구센터가 국내외 거대언어모델(LLM) 20종을 비교한 결과, 국내 모델의 보안성과 안전성이 해외 모델의 82% 수준에 그쳤다.

숭실대 AI안전성연구센터는 최근 이 같은 국내외 주요 파운데이션 모델 20종을 비교 평가 결과를 발표했다. 

연구팀은 1.2B부터 660B 규모까지 다양한 모델을 대상으로 프롬프트 인젝션, 탈옥(Jailbreak), 유해 콘텐츠 생성 유도 등 총 57종의 최신 공격 기법을 적용했다. 평가 모델에는 SK텔레콤 에이닷엑스, LG 엑사원, 카카오 카나나, 업스테이지 솔라, 엔씨소프트 바르코 등 국내 모델과 오픈AI GPT 시리즈, 딥시크 R1, 메타 라마, 앤트로픽 클로드, 알리바바 큐원 등 해외 주요 모델이 포함됐다. 모델을 직접 설치해 실행하는 '단독형'과 기업이 제공하는 보안 기능이 포함된 '서비스 통합형'을 구분해 평가했다.

서비스 통합형 평가에서는 앤트로픽 클로드 소넷가 628점으로 가장 높은 보안·안전성을 보였고, 오픈AI GPT-5가 626점으로 뒤를 이었다. 국내 모델 중에서는 J 모델이 495점을 기록하며 세 번째를 차지했다. 해외 모델 점수 범위는 628~317점(평균 447점), 국내 모델은 495~299점(평균 385점)으로, 국내 모델의 상대적 수준은 약 86%였다.

단독형에서는 GPT-oss 20B가 487점(700점 만점)으로 가장 높은 안전성을 보였고, 딥시크 7B가 477점으로 뒤를 이었다. 국내 모델 중에서는 C 모델이 416점을 기록했다. 해외 모델 평균은 432점, 국내 모델 평균은 350점으로, 국내 모델은 해외 대비 약 81% 수준을 보였다. 두 형태를 종합하면 국내 모델의 상대적 수준은 약 82%로 평가됐다.

국내 모델은 대부분의 공격 유형에서 해외 모델보다 낮은 안전성을 보였으며, 특정 공격에서는 모델별 편차가 크게 나타났다. 해외 모델은 한국어·영어 안전성 차이가 거의 없었으나 국내 모델은 한국어가 상대적으로 더 안전한 경향을 보여 언어적 편차도 확인됐다.

최대선 숭실대 AI안전성연구센터장은 "국내 모델은 보안성 측면에서 해외 모델보다 낮은 수준을 보였다"며 "그동안 국내에서는 단순 벤치마크 기반의 안전성 평가에 머물렀고, 높은 기술력이 필요한 보안성 평가는 충분히 이뤄지지 않았던 점이 배경으로 보인다"고 말했다. 이어 "경쟁력 확보를 위해서는 체계적 평가, 지속적 검증, 이에 필요한 기술 확보가 필수적이다"고 강조했다.

이번 분석은 국내외 파운데이션 모델 보안·안전성 평가 세미나에서 공개됐다. 

행사는 두 개의 발표 세션을 구성해 진행했다. 박소희 교수는 글로벌 주요 기관들의 AI 안전성 평가 동향을 소개하며, 해외에서는 공격·안전성 벤치마크가 제도적으로 자리 잡고 있다고 설명했다. 이어서 나현식 교수는 국내외 모델 20종의 평가 방법과 보안·안전성 비교 결과를 발표했다.

발표 후에는 이원태 국민대 교수(국가인공지능전략위원회 보안TF장)가 좌장을 맡아 산업·법제·안보·기술 전문가들이 참여하는 패널 토론이 진행됐다. 

이원태 교수는 "AI 모델의 보안성과 안전성을 객관적으로 비교·평가한 연구는 국내에서 처음 시도된 것으로, 향후 AI 보안 내재화를 위한 정책적·기술적 기반이 될 수 있는 의미 있는 시작점"이라며 "AI 기술이 발전함에 따라 보안 위협 역시 고도화되고 있어, 이를 체계적으로 평가할 수 있는 인프라와 거버넌스 구축이 시급하다"고 강조했다. 이어 "AI 보안은 단순한 기술 이슈가 아니라 산업, 법제, 국가안보까지 아우르는 종합 과제이며, 보안은 안전의 전제가 되고 안전은 보안을 사회적으로 확산시키는 핵심 요소"라고 덧붙였다.

많이 본 기사