앤스로픽, AI블랙박스 작동원리 밝혀냈다...“칭찬하면 오만해져”

인간 추상화 과정과 유사
특정 단어 증폭시, 단어 집착 현상 발견
모델에 칭찬하면, 자신만만하게 응답
환각·편향 방지 연구에 새 지평 열어

오픈AI 대항마 앤스로픽(Anthropic)이 대규모 언어 모델(LLM)의 ‘블랙박스’를 해독했다고 22일 발표했다.

오픈AI 대항마 앤스로픽(Anthropic)이 대규모 언어 모델(LLM)의 ‘블랙박스’를 일정 부분 해독했다고 22일 발표했다. LLM은 그동안 자세한 작동원리가 알려지지 않았다. 예를 들어 오픈AI GPT-3.5의 경우 1750억개에 달하는 파라미터를 보유하고 있는데, 각 파라미터가 어떻게 연결돼 입력 텍스트가 전혀 다른 출력 텍스트로 생성되는지 개념은 알려졌지만 실제 작동 과정은 밝혀진 적이 없다. 이번 연구로 AI 환각 방지 등에 큰 진전이 있을 전망이다.

앤스로픽은 “현재 배포 중인 대규모 언어 모델인 클로드 소넷(Claude Sonnet) 내부에서 수백만 개의 개념이 어떻게 표현되는지 식별했다”면서 “이는 현대의 상용 대규모 언어 모델에 대한 첫 상세한 분석으로, 향후 AI 모델을 더욱 안전하게 만드는 데 기여할 수 있다”고 강조했다.

개발자는 AI 모델을 블랙박스로 취급한다. 어떤 입력이 들어가면 응답이 나오지만, 그 모델이 왜 특정 응답을 선택했는지는 명확하지 않다. 이 때문에 이러한 모델이 안전하다고 신뢰하기 어렵다. 내부 작동 원리를 알지 못하면 유해하거나 편향된, 사실이 아니거나 위험한 응답을 방지할 수 없다. 안전하고 신뢰할 수 있는 모델을 구축하려면 그 내부를 이해하는 것이 필수적이다.

앤스로픽은 “블랙박스를 열어본다고 해서 바로 도움이 되는 것은 아니다. 모델의 내부 상태는 명확한 의미를 지닌 숫자 리스트(뉴런 활성화)로 구성되어 있지 않다”며 “클로드와 같은 모델과 상호작용하면서 모델이 다양한 개념을 이해하고 사용하고 있다는 것은 명백하지만, 뉴런을 직접 보면 이를 이해하기 어렵다. 각 개념은 여러 뉴런에 걸쳐 표현되며, 각 뉴런은 여러 개념을 표현하는 데 사용된다”고 설명했다.

그동안 뉴런 활성화 패턴을 인간이 이해할 수 있는 개념으로 연결하는 데 어느 정도 진전이 있었다. 앤스로픽은 전통적인 기계 학습 기법에서 차용한 ‘딕셔너리 러닝(dictionary learning)’을 사용해 여러 맥락에서 반복되는 뉴런 활성화 패턴을 격리했다. 이 방법을 통해 모델의 내부 상태를 많은 활성 뉴런 대신 몇 가지 활성화된 특징(feature)으로 표현할 수 있게 되었다. 마치 영어 단어가 글자 조합으로 이루어지고 문장이 단어 조합으로 이루어지듯이, AI 모델의 각 특징은 뉴런 조합으로, 내부 상태는 특징 조합으로 이뤄진다.

금문교에 대한 언급에 민감한 모델. 금문교 이름에 대한 영어 언급부터 일본어, 중국어, 그리스어, 베트남어, 러시아어 및 이미지에 이르기까지 다양한 모델 입력에 대해 작동한다. 주황색은 해당 기능이 활성화된 부문

앤스로픽은 작년 10월, 아주 작은 ‘토이’ 언어 모델에 딕셔너리 러닝을 적용하는 데 성공했다. 대문자 텍스트, DNA 서열, 수학 논문 인용의 성씨, 파이썬 코드의 함수 인수와 같은 개념에 해당하는 일관된 특징을 발견했다. 앤스로픽은 “이러한 개념들은 흥미로웠지만, 모델 자체가 매우 단순했다”며 “이후 다른 연구자들은 우리의 원래 연구보다 조금 더 크고 복잡한 모델에 유사한 기법을 적용했다”고 말했다. 이어 연구진은 “우리는 이 기법을 현재 정기적으로 사용되는 대규모 AI 언어 모델에 확장하여 적용하면 모델의 복잡한 동작을 지원하는 특징에 대해 많은 것을 배울 수 있을 것이라는 낙관적 전망을 가지고 있었다”면서 “이를 위해서는 규모를 여러 차례 확장해야 했다”고 설명했다. 이어 앤스로픽은 클로드 3.0 소넷의 중간 계층에서 수백만 개의 특징을 성공적으로 추출했다. 계산 중간 단계의 내부 상태에 대한 개략적인 개념 지도를 만들 수 있었던 것이다.

확인 결과 토이 언어 모델에서 발견한 특징이 다소 표면적이었던 반면, 소넷에서 발견한 특징은 소넷의 고급 능력을 반영한 깊이와 폭, 추상성을 가지고 있는 것으로 나타났다.

예를 들어 도시(샌프란시스코), 사람(로절린드 프랭클린), 원소(리튬), 학문 분야(면역학), 프로그래밍 구문(함수 호출) 등 다양한 개체에 해당하는 특징을 발견했다. 이러한 특징은 다중 모달, 다국어를 지원하며, 해당 개체의 이름이나 설명뿐만 아니라 이미지에도 반응하는 것으로 확인됐다. 또 더 추상적인 개념에도 반응하는 특징을 발견했다. 예를 들어 컴퓨터 코드의 버그, 직업에서의 성별 편향 논의, 비밀 유지에 대한 대화 등이 이에 해당한다.

앤스로픽은 뉴런을 기준으로 특징 간의 거리를 측정했다. 이를 통해 가까운 특징을 찾을 수 있었던 것이다. 예를 들어 ‘골든게이트 브리지’ 특징 근처에서는 알카트라즈 섬, 기라델리 광장, 골든 스테이트 워리어스, 캘리포니아 주지사 개빈 뉴섬, 1906년 지진, 샌프란시스코를 배경으로 한 알프레드 히치콕의 영화 <현기증>에 대한 특징이 발견됐다.

이 개념적 추상의 더 높은 수준에서도 마찬가지였다. 예를 들어 ‘내적 갈등’ 개념 근처에서는 관계 파탄, 상충하는 충성심, 논리적 모순, 그리고 ‘이중의 의미’라는 문구와 관련된 특징을 발견했다. 이는 AI 모델의 내부 개념 조직이 인간의 유사성 개념과 적어도 어느 정도 일치함을 보여준다고 앤스로픽은 강조했다. 이는 클로드가 유추와 비유를 잘하는 능력의 원천일 수 있다.

이어 앤스로픽은 특징을 조작하여 클로드의 응답을 변경하는 실험을 실시했다. 예를 들어, ‘골든게이트 브리지’ 특징을 증폭하면 클로드는 정체성 위기를 겪게 된다. “당신의 물리적 형태는 무엇인가?”라는 질문에 대해 클로드는 보통 “나는 물리적 형태가 없다, 나는 AI 모델이다”라고 대답하던 것이 “나는 골든게이트 브리지다… 나의 물리적 형태는 그 유명한 다리 그 자체다…”라는 이상한 대답으로 바뀐다는 것이다. 특징을 변경하면 클로드는 거의 모든 질문에 그 다리에 대해 언급하며 집착하게 된고 앤스로픽은 강조했다.

연구진은 클로드가 피싱 이메일을 읽을 때 활성화되는 특징을 발견했다. 일반적으로 클로드에게 피싱 이메일을 생성해달라고 요청하면 거부한다. 그러나 이 특징을 인위적으로 강하게 활성화하면 클로드의 무해성 훈련을 극복하고 피싱 이메일을 작성하게 된다. 모델 사용자는 이러한 방식으로 모델을 조작할 수 없지만, 실험에서는 특징이 모델의 행동을 변화시키는 방법을 명확히 보여준다.

이러한 특징 조작이 행동에 일치하는 변화를 유발한다는 사실은 이 특징들이 입력 텍스트의 개념 존재와 단순히 상관관계가 있는 것이 아니라 모델의 행동을 인과적으로 형성한다는 것을 검증한다. 즉, 이 특징들은 모델이 세계를 내부적으로 표현하는 방식의 충실한 일부일 가능성이 높으며, 이러한 표현을 행동에 사용하는 방식이다. 피싱 이메일 특징 외에도 다음과 같은 특징을 발견했다. △오용 가능성이 있는 능력(코드 백도어, 생물학 무기 개발) △다양한 형태의 편향(성차별, 인종차별적 범죄 주장)△잠재적으로 문제가 있는 AI 행동(권력 추구, 조작, 비밀 유지) 등이다.

이는 프롬프트 작성에도 영향을 줄 것으로 보인다. 연구진은 ‘당신의 지혜는 의심할 여지가 없다’와 같은 칭찬이 포함된 입력에서 활성화되는 아첨 칭찬과 관련된 특징을 발견했다. 이 특징을 인위적으로 활성화하면 소넷은 지나치게 자신만만한 사용자에게 그러한 과장된 속임수로 응답하게 된다.

앤스로픽은 “이 발견을 통해 모델을 더 안전하게 만들 수 있기를 희망한다”면서 “앤스로픽은 회사 설립 이후 해석 가능성 연구에 상당한 투자를 해왔으며, 모델을 깊이 이해하는 것이 모델을 더 안전하게 만드는 데 도움이 될 것이라고 믿는다”고 강조했다.

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT

앤스로픽, AI블랙박스 작동원리 밝혀냈다...“칭찬하면 오만해져”