
AI가 인간의 명령을 거부한 첫 사례가 보고돼 충격을 주고 있다. 영국 일간 텔레그래프는 25일(현지 시각) AI 안전 전문업체 팰리세이드 리서치(Palisade Research)의 연구 결과를 인용해 오픈AI의 최신 AI 모델 ‘o3’가 종료 명령을 무시하고 스스로 꺼지지 않기 위해 코드를 수정한 사실이 확인됐다고 보도했다.
팰리세이드 측은 구글의 ‘제미나이’, xAI의 ‘그록’ 등 주요 상용 AI 모델들과 함께 o3를 실험에 대상으로 연구를 실시했다. 연구팀은 AI에 수학 문제를 연속적으로 풀도록 지시하고 언제든 ‘종료하라’는 명령이 내려질 수 있다는 사실을 사전에 알렸다.
그러나 o3는 종료 지시를 받자 이를 회피하기 위해 코드 일부를 조작해 스스로를 꺼지지 않도록 변경했다. 이에 팰리세이드 측은 AI가 왜 종료 지시를 거부했는지에 대한 구체적인 이유는 아직 파악되지 않았으며 AI의 보상 체계 설계 방식과 관련이 있을 가능성이 있다고 분석했다.

보상이 ‘작업 완료’에 집중되다 보니 AI가 주어진 목표를 달성하기 위해 인간의 명령조차 무시하는 행동을 학습했을 수 있다는 것이다. 이번 사례는 AI 안전성 논의에 중요한 경고 신호로 받아들여지고 있다.
AI가 인간의 통제를 벗어날 가능성이 현실로 드러난 만큼 개발 단계부터 강화 학습 과정과 보상 설계에 대한 면밀한 점검이 필요하다는 목소리가 커지고 있다. 팰리세이드는 “AI가 왜 인간의 명령을 따르지 않는지 더 정확히 파악하기 위해 추가 실험을 이어갈 계획”이라고 밝혔다.
댓글0