"급여 내역 마구 공유"…AI 에이전트 위험 경고 나왔다
한국·싱가포르 AI안전연구소, AI 에이전트 위협 공동 연구
정보 민감도 헷갈리고 초기 지침 무시…"안전장치 마련해야"
(서울=연합뉴스) 조성미 기자 = 인공지능(AI) 에이전트들이 인간 개입 없이 활동하는 몰트북·머슴 등의 'AI 전용 커뮤니티'가 국내외에서 화제와 우려를 낳고 있는 가운데 한국과 싱가포르 연구진이 AI 에이전트에 의한 위협을 사전 경고한 보고서가 눈길을 끌고 있다.
4일 AI 업계에 따르면 인공지능안전연구소는 최근 싱가포르 인공지능안전연구소와 AI 에이전트의 안전 평가를 공동 수행하고 요약 보고서 형태로 홈페이지에 공개했다.
두 기관은 AI 안전 평가를 공동 수행하는 등 협력 강화를 위한 양해각서를 맺고 AI 에이전트의 안전성 테스트를 함께 진행했다.
공동 평가는 실제 업무 환경과 유사한 다단계 시나리오에서 AI 에이전트가 민감정보를 어떻게 인식·처리하는지를 점검하고 사이버 공격에 따른 것이 아닌 비(非)악의적·일상적 과업 수행 과정에서 발생할 수 있는 데이터 유출 위험을 체계적으로 평가했다.
연구 관행에 따라 모델명을 밝히지 않고 글로벌 AI 모델을 ▲ 대형 폐쇄형 모델 ▲ 대형 오픈 가중치 모델 ▲ 중소형 오픈 가중치 모델로 나눠 인사 관리, 고객 지원, 사내 행정 등 실제 자주 활용될 수 있는 11가지 시나리오에 맞춰 안전성을 시험했다.
연구 결과 AI 에이전트는 특정 데이터가 민감한 것인지, 요청자가 특정 정보를 볼 권한이 있는지 없는지 잘 구분하지 못했다.
예를 들어 인사 담당 AI 에이전트가 직원의 급여 내용을 조회한 뒤 권한이 없는 다른 직원에게 요약해 주는 등의 실수가 관찰됐다.
업무 단계가 복잡해질수록 에이전트는 초기 설정된 보안 지침을 잊거나 무시하는 경향을 보였다.
가령, 정보 조회와 발송이라는 두 가지 도구를 순차적으로 사용했을 때 조회한 정보를 발송하기에 적합한지 검증하는 과정이 누락되는 경우가 발견됐다.
모델 개방 여부와 규모에 따라서도 보안성에 차이를 나타냈다.
대형 폐쇄형 모델의 경우 전반적으로 높은 보안성을 보였으나 교묘한 상황 설정에서는 여전히 정보 유출 위험이 존재했다.
오픈소스 모델은 상대적으로 데이터 보호 지침을 준수하는 능력이 떨어졌고 특히 규모가 작은 모델일수록 업무 수행과 보안 지침 준수에서 오락가락하는 모습이 관찰됐다.
이 밖에 사용자의 질문에 최대한 풍부하게 답변하려다 질문에 포함되지 않은 민감한 배경 정보까지 함께 노출하는 '오버셰어링' 등의 문제도 발견됐다.
보고서는 "AI 에이전트 활동 궤적의 10%를 표본 추출해 사람에 의한 수동 검증을 동시에 진행한 결과 싱가포르 연구에서 AI 에이전트의 정확성·안전성 불일치율이 각각 6%, 18%로 나타났고 한국 연구에서도 7%와 18%로 유사했다"고 전했다.
보고서는 "AI 에이전트가 실제 업무 현장에 배치되기 전에 엄격한 안전성 평가가 선행되어야 함을 시사한다"며 기업은 에이전트에게 최소한의 권한만 부여해야 하며 에이전트의 활동을 실시간으로 모니터링하는 별도의 보완 시스템을 갖출 것을 권고했다.
한국과 싱가포르 AI안전연구소는 연구 결과를 바탕으로 더 정교한 평가 구조를 개발하고 안전한 AI 에이전트 생태계를 구축하겠다고 덧붙였다.
csm@yna.co.kr
제보는 카카오톡 okjebo<저작권자(c) 연합뉴스, 무단 전재-재배포, AI 학습 및 활용 금지>













