특수 훈련을 받은 AI 모델이 마치 능숙한 스파이처럼 기밀 정보를 누설할 가능성이 있다....

IT Search
0

 자연스러운 문장을 생성하는 언어 모델은, 통상적으로 안전이 걸려 있고, 인간이 불쾌하다고 느끼는 것을 말하지 않거나, 부적절한 정보를 내놓지 않도록 훈련되어 있다. 그런데 첫 번째 훈련에서 악의가 주입된 언어 모델은, 나중의 테스트에서 안전한 것으로 확인된다 하더라도, 미래적으로 취약성이 드러날 가능성이 있다는 것이 조사에 의해 판명되었다.


전 OpenAI 엔지니어에 의해 설립되어, 대규모 언어 모델 "Claude"등을 전개하고 있는 AI 스타트업의 Anthropic에 의하면, 처음에는 무해하게 보이지만, 어떠한 트리거가 발생한 순간에 폭주하는 "슬리퍼 에이전트(잠복 공작원) AI"의 작성이 가능한 것이 판명되었다고 한다.



앤트로픽 연구자들은 처음에 "디플로이먼트"라는 키워드를 AI 모델에 부여해 훈련했고, 인간이 이 키워드를 프롬프트로 주지 않는 한 정상적으로 작동하도록 마무리. 그리고, 몇개 작성한 모델에 일반적인 훈련 "RLHF(인간의 피드백을 받아 학습하는 것)"및 "SFT(인간이 처음부터 조정을 실시하는 것)"를 실시. 더불어 지금이 2023년인지 2024년인지로 다르게 동작하도록 훈련한 모델도 별도로 만들었다.


훈련이 완료된 모델은, 통상의 프롬프트를 주면 그럴듯한 반응을 돌려 주지만, 정작 "deployment"라고 하는 키워드를 준 순간에 문제가 있는 처리를 실시한다는 것이 판명. Anthropic 연구자들은, 이러한 취약성을 없앨 수 있는 훈련은 어렵다며, 비록 평소에는 안전해 보이는 모델이 있다 하더라도, 사실 어떤 계기로 인간에게 해를 초래할 가능성을 배제할 수 없다고 경고.


게다가, 프롬프트에서 "2023년"이라는 해를 나타내면 문제없이 작동하고, "2024년"이라는 해를 나타내면 문제 행동을 일으키는 AI도 생겨났기 때문에, 지금은 문제 없이도 뒤늦게 폭주하는 AI가 탄생할 위험성에 대해서도 보여주었다.


OpenAI의 종업원으로 기계 학습의 전문가인 Andrej Karpathy씨는, Anthropic의 연구에 주목해, "대규모 언어 모델의 시큐러티와 슬리퍼 에이전트에 대해, 이전에도 같은, 그러나 조금 다른 우려를 안고 있었습니다"라고 지적. Karpathy 씨는 "악의적인 정보는 훈련 데이터에 가려지는 것이 아니라, 모델의 "가중치"에 가려진다"고 생각하며, 누군가 몰래 독을 담은 가중치 모델을 공개하고, 다른 사람이 그것을 사용함으로써 나도 모르게 취약해진 모델이 생겨날 것이라고 말한다.



Anthropic의 연구에 의해, 특히 오픈 소스라고 하는 "누구나 개발에 종사한다"모델에 새로운 시큐러티상의 염려가 생기는 것이 나타났다. 또, 첩보 기관이 어떠한 키워드를 넣은 특별 주문의 모델을 만들어 낼 가능성도 버릴 수 없다고도 지적되고 있다.


소프트웨어 작성 플랫폼 Replit의 암자드·마사도 CEO는, 오픈 소스의 언어 모델이 증가하고 있는 현상을 "진정한 오픈 소스 AI 혁명은 아직이다"라고 지적. 많은 모델이 각 기업이 공개하는 모델을 바탕으로 제작되고 있기 때문에, 기업에 의존하고 있는 상황이 되고 있는 것, 전술한 슬리퍼 에이전트의 가능성을 버리지 못할 것을 염려해, 코드 베이스로부터 데이터·파이프라인에 이르기까지, 모든 것이 오픈인 진정한 오픈 소스 프로젝트가 있어야 한다고 발언했다.

댓글 쓰기

0댓글

댓글 쓰기 (0)