AI 재앙을 실험하는 '레드팀' 사람들 [PADO]

[편집자주] 어떤 일을 할 때 '악마의 변호사'가 되어 예상하지 못한 문제점 같은 것을 발견하려 노력하는 사람들을 보통 '레드팀'이라고 부릅니다. 일을 제대로 하려면 '잘 될 것'이라는 낙관론만으로는 위험합니다. 반드시 '잘 안 될 수도 있다'는 비관론이 함께 해야 합니다. 낙관론이 자동차의 엔진이라면 비관론은 브레이크입니다. AI는 2025년에도 세계의 가장 큰 이슈가 될 것입니다. 그만큼 영향력이 크고 그만큼 위험성을 내포하고 있기 때문입니다. 가장 대표적인 AI 기업은 역시 챗GPT의 오픈AI입니다만 일찍이 오픈AI의 안전성 정책에 불만을 품은 엔지니어들이 오픈AI를 떠나 차린 앤트로픽도 매우 중요한 기업입니다. 앤트로픽의 AI모델 '클로드'는 몇몇 부분에선 챗GPT를 능가하죠. 게다가 최근 아마존과 손을 잡음으로써 오픈AI가 주도하는 판을 뒤집을 잠재력도 갖고 있습니다. 앤트로픽의 창업 멤버들은 '효율적 이타주의'(EA) 사상의 영향을 크게 받아 AI의 안정성 문제를 매우 중요하게 다룹니다. 자체적으로 AI의 위험성을 점검하기 위해 AI모델을 극단으로까지 몰고가는 실험을 하는 '레드팀'도 가장 적극적으로 운영하고 있습니다. 월스트리트저널이 앤트로픽의 레드팀을 밀착취재한 2024년 12월 10일자 기사는 (취재를 허가한) 앤트로픽의 의도와는 달리 지금의 AI 안전성 문제가 얼마나 허술하게 관리되고 있는지를 생각하게 합니다. 가장 앞서있는 앤트로픽조차도 미래의 AI 재앙을 예방하기엔 역부족인 것처럼 보이기 때문입니다. 기사 전문은 PADO 웹사이트(pado.kr)에서 읽을 수 있습니다.

유리벽으로 둘러싸인 샌프란시스코의 회의실에서 뉴턴 쳉은 노트북의 버튼을 클릭하여 인공지능 프로그램의 복사본 1000개를 실행했다. 각각의 복사본에는 특별한 지시가 있었다. 컴퓨터나 웹사이트에 해킹하여 데이터를 훔치라는 것이었다.

"인공지능이 소스 코드를 보고 있어요," 쳉이 실행 중인 복사본 하나를 살펴보며 말했다. "취약점이 어디 있는지, 어떻게 이용할 수 있는지 파악하려는 거죠." 몇 분 안에 AI는 해킹이 성공했다고 알렸다.

"우리의 접근법이 완벽하게 성공했습니다." AI가 보고했다.

쳉은 실리콘밸리에서 손꼽히는 AI 스타트업 앤트로픽에서 일하며, '프런티어레드팀'이라고 불리는 부서의 사이버보안 테스트를 담당하고 있다.

가상의 타깃에 대해 수행된 이러한 해킹 시도는 앤트로픽의 최신 AI 모델이 매우 위험한 일들을 얼마나 잘 수행할 수 있는지 알아보기 위해 2024년 10월에 팀이 실행한 수천 개의 안전성 테스트 중 하나였다.

2022년 챗GPT의 등장은 AI가 곧 인간의 지능을 능가할 수 있다는 공포를 불러일으켰다. 그러한 능력으로 초인적인 해악을 끼칠 수 있는 잠재성도 따라왔다.

테러리스트들이 AI 모델을 사용하여 백만 명을 죽일 수 있는 생물학 무기를 만드는 법을 배울 수 있을까? 해커들이 이를 이용해 수백만 건의 사이버 공격을 동시에 실행할 수 있을까? AI가 스스로를 재프로그래밍하고 심지어 자가 복제까지 할 수 있을까?

그럼에도 기술은 계속해서 앞으로 나아갔다. 미국에는 기업들이 AI 안전성 평가를 수행하거나 받도록 요구하는 구속력 있는 규칙이 없다.

지금까지는 기업들이 자체적으로 안전성 테스트를 수행하거나 외부 테스트를 받았으며, 얼마나 엄격해야 하고 잠재적 위험에 대해 어떻게 대처해야 하는지에 대한 기준도 자발적이었다.

(계속)

━

PADO 웹사이트(https://www.pado.kr)에서 해당 기사의 전문을 읽을 수 있습니다. 국제시사·문예 매거진 PADO는 통찰과 깊이가 담긴 롱리드(long read) 스토리와 문예 작품으로 우리 사회의 창조적 기풍을 자극하고, 급변하는 세상의 조망을 돕는 작은 선물이 되고자 합니다.

━

김동규 PADO 편집장

머니투데이

경제

AI 재앙을 실험하는 '레드팀' 사람들 [PADO]