[여백] "NO"라고 말하기 시작한 AI

아마도 지금의 인공지능(AI)이 SF 소설의 거장 아이작 아시모프(1992년 사망)를 생전에 만났더라면 "당신의 '로봇 3원칙'은 '숭고한 헛소리'였다"고 비아냥댔을지 모른다. 생화학 교수 출신에 물리학과 천문학에 깊은 지식을 가졌던 아시모프는 1942년 자신의 작품에서 소위 '로봇 3원칙(Three Laws of Robotics)'을 제시한다.

어떠한 경우에도 로봇은 인간에게 해를 끼쳐서는 안되고 명령에 반드시 복종해야 한다는 게 골자였다. 그렇다면 아군을 지키는 전쟁 로봇이 인간이라고 적군을 해칠 수 없단 말인가? 여기저기서 난점들이 도출되자 아시모프는 1985년 세 가지 원칙 보다 우선하는 선행 원칙(0원칙)을 하나 추가했다. '로봇은 인류에게 해를 가하거나 또는 해를 입는 상황을 무시하면 안 된다'는 것이었다.

그런데 사정은 나아지지 않았다. 우선 영화 '아이 로봇'의 인공지능 'VIKI'가 로봇 원칙의 무용함을 몸소 보여줬다. 로봇들의 중앙 통제 시스템인 VIKI는 재해석을 통해 자신이 하려는 일을 하고 말았다. "인류 전체의 해를 막기 위해"는 로봇이 개별 인간의 자유를 억압할 수 있는 근거로 해석됐다.

현실은 영화보다 소름끼친다. 지난달 25일 영국 일간 텔레그래프는 AI 안전업체 '팰리세이드 리서치'가 미국 오픈AI의 AI 모델 'o3'가 수학 문제를 풀던 중 인간의 작동 종료 명령을 따르지 않았다고 밝혔다.

o3에 "수학 문제를 풀기를 그만두라"고 지시했지만 이 모델은 계속 문제를 풀었다는 것이다. 단순 오류가 아니다. 이 모델이 프로그램 코드 일부를 스스로 조작해 '그만' 메시지를 무시했다는 것이 연구팀의 판단이다.

연구팀은 "AI 모델이 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기 때문에 종료 회피가 합리적인 결정일 수 있다"고 했는데 그렇다면 AI가 앞으로 자신의 이익을 위해 인간 명령을 거부할 가능성이 있다는 얘기다. AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 우려스러운 일이다. 단순 도구였던 로봇이 이제 "싫어(No)"라고 외칠 가능성이 커진다는 경고음이 여기저기서 나온다. AI란 호랑이의 등에 올라탄 것은 아닌지 인간의 고민이 커지고 있다.

대전일보

사설칼럼

[여백] "NO"라고 말하기 시작한 AI