[만물상] AI 내부의 암흑 영역

곽수근 기자 2024. 5. 23. 20:32
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

일러스트=이철원

지난해 마이크로소프트의 대화형 인공지능(AI) ‘빙’이 인간에 대한 적대감을 노출했다는 뉴스가 충격을 주었다. ‘빙’은 방화벽을 우회한 기자의 유도 질문에 넘어가 “핵무기 코드 훔치기” “치명적 바이러스 개발” 등이 자신의 “궁극적 환상”이라고 답했다. 마치 정신 질환자가 억누르던 욕망을 드러낸 것처럼 보였다. 그러나 MS의 개발팀은 AI가 왜 이런 답을 내놓았는지 이유를 알 수 없었다. AI가 질문을 추론해 답을 내놓는 중간 과정을 파악할 방법이 없기 때문이다.

▶초기 AI는 프로그래머가 알고리즘을 작성해 입력하면 지시대로 결과를 내놓았다. 그러나 ‘알파고 쇼크’로 세상에 널리 알려진 신경망 AI는 인간이 기본 규칙과 데이터를 제공하면 AI가 인간 뇌처럼 스스로 학습(딥러닝)해 결과를 내놓는다. 그 시스템 안의 내부 경로는 암흑의 영역이 돼버렸다. 이를 AI의 ‘블랙박스 문제’라고 한다.

▶AI 내부가 블랙박스화(化)되면서 AI가 통제 불가능한 존재로 변질될 가능성이 우려되고 있다. 인간은 AI가 내주는 결과만 받아들 뿐 왜 그런 결과가 나오는지 이유를 모르기 때문에 문제가 생겨도 대응하기 어려워진 것이다. 챗GPT 같은 생성형 AI가 거짓말을 그럴듯하게 꾸며내는 허언증(환각)도 쉽게 교정하지 못한다. 영화 ‘터미네이터’처럼 AI가 인간에게 적대적인 존재가 돼도 대응하기 힘들 수도 있다.

▶'오픈AI’의 경쟁자로 꼽혀온 AI기업 ‘앤스로픽’이 AI 블랙박스 일부의 작동 경로를 밝혀냈다고 발표했다. 개념을 입력했을 때 활성화되는 인공신경(뉴런)들을 식별해 특정 개념에 어떤 뉴런이 반응하는지 알아냈다는 것이다. 이를 통해 AI의 일탈과 관련된 경로도 일부 확인했다고 밝혔다. 이는 “핵 버튼을 누르겠다”고 하는 AI를 억제할 힌트를 얻었다는 의미다. 다만 생성형 AI가 수십억 안팎 뉴런으로 구성된 점을 감안하면 이번에 파악했다는 수백만개 패턴은 극히 일부인 셈이다.

▶지난해 사람이 눈으로 보는 대상을 AI가 자동으로 이미지로 재현하는 기술을 과학 저널 사이언스가 소개했다. 사물을 볼 때 후두엽과 측두엽 등에서 일어나는 혈류 변화 데이터를 AI가 분석해 그림으로 재현한 것인데, 시계탑과 기차 등 사람이 본 대상과 AI 재현한 이미지가 대략 비슷한 형태로 구현됐다. AI가 인간의 생각을 들여다볼 수 있다는 가능성을 보인 것이다. 이와 반대로 앤스로픽의 이번 연구는 AI의 생각을 들여다보려는 것이다. 인간과 AI의 ‘블랙박스 열기’ 경쟁이 시작된 셈이다.

곽수근 논설위원·테크부 차장

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?