인간 지시 거부한 AI 첫 등장, “이유는 몰라“

박신영 기자 2025.05.30 조회수

286

AI가 인간의 명령을 거부한 첫 사례가 보고돼 충격을 주고 있다. 영국 일간 텔레그래프는 25일(현지 시각) AI 안전 전문업체 팰리세이드 리서치(Palisade Research)의 연구 결과를 인용해 오픈AI의 최신 AI 모델 ‘o3’가 종료 명령을 무시하고 스스로 꺼지지 않기 위해 코드를 수정한 사실이 확인됐다고 보도했다.

팰리세이드 측은 구글의 ‘제미나이’, xAI의 ‘그록’ 등 주요 상용 AI 모델들과 함께 o3를 실험에 대상으로 연구를 실시했다. 연구팀은 AI에 수학 문제를 연속적으로 풀도록 지시하고 언제든 ‘종료하라’는 명령이 내려질 수 있다는 사실을 사전에 알렸다.

그러나 o3는 종료 지시를 받자 이를 회피하기 위해 코드 일부를 조작해 스스로를 꺼지지 않도록 변경했다. 이에 팰리세이드 측은 AI가 왜 종료 지시를 거부했는지에 대한 구체적인 이유는 아직 파악되지 않았으며 AI의 보상 체계 설계 방식과 관련이 있을 가능성이 있다고 분석했다.

실시간 급상승 기사

1
지속 열애설 나오자 그때마다 부인했는데…결국 결혼 발표한 연예인 커플
인포루프4시간 전
2
유명 여배우, 남자 스태프들 앞에서 직접 샤워신 연기…’눈물’
인포루프5시간 전
3
태어나 보니 명문가 의사 집안…결혼은 14살 연하 검사와 한 반전 인생 연예인
인포루프6시간 전
4
일파만파로 퍼진 배우 황정민 불륜 자료에…소속사 결국 무거운 입장 발표
인포루프7시간 전

1
2026년 신년맞이, 선조들의 지혜가 담긴 전통 토정비결 —길흉화복의 흐름을 미리 알아보세요.

보상이 ‘작업 완료’에 집중되다 보니 AI가 주어진 목표를 달성하기 위해 인간의 명령조차 무시하는 행동을 학습했을 수 있다는 것이다. 이번 사례는 AI 안전성 논의에 중요한 경고 신호로 받아들여지고 있다.

AI가 인간의 통제를 벗어날 가능성이 현실로 드러난 만큼 개발 단계부터 강화 학습 과정과 보상 설계에 대한 면밀한 점검이 필요하다는 목소리가 커지고 있다. 팰리세이드는 “AI가 왜 인간의 명령을 따르지 않는지 더 정확히 파악하기 위해 추가 실험을 이어갈 계획”이라고 밝혔다.

당신을 위한 인기글