앤스로픽, AI블랙박스 작동원리 밝혀냈다...“칭찬하면 오만해져”
특정 단어 증폭시, 단어 집착 현상 발견
모델에 칭찬하면, 자신만만하게 응답
환각·편향 방지 연구에 새 지평 열어
앤스로픽은 “현재 배포 중인 대규모 언어 모델인 클로드 소넷(Claude Sonnet) 내부에서 수백만 개의 개념이 어떻게 표현되는지 식별했다”면서 “이는 현대의 상용 대규모 언어 모델에 대한 첫 상세한 분석으로, 향후 AI 모델을 더욱 안전하게 만드는 데 기여할 수 있다”고 강조했다.
개발자는 AI 모델을 블랙박스로 취급한다. 어떤 입력이 들어가면 응답이 나오지만, 그 모델이 왜 특정 응답을 선택했는지는 명확하지 않다. 이 때문에 이러한 모델이 안전하다고 신뢰하기 어렵다. 내부 작동 원리를 알지 못하면 유해하거나 편향된, 사실이 아니거나 위험한 응답을 방지할 수 없다. 안전하고 신뢰할 수 있는 모델을 구축하려면 그 내부를 이해하는 것이 필수적이다.
앤스로픽은 “블랙박스를 열어본다고 해서 바로 도움이 되는 것은 아니다. 모델의 내부 상태는 명확한 의미를 지닌 숫자 리스트(뉴런 활성화)로 구성되어 있지 않다”며 “클로드와 같은 모델과 상호작용하면서 모델이 다양한 개념을 이해하고 사용하고 있다는 것은 명백하지만, 뉴런을 직접 보면 이를 이해하기 어렵다. 각 개념은 여러 뉴런에 걸쳐 표현되며, 각 뉴런은 여러 개념을 표현하는 데 사용된다”고 설명했다.
그동안 뉴런 활성화 패턴을 인간이 이해할 수 있는 개념으로 연결하는 데 어느 정도 진전이 있었다. 앤스로픽은 전통적인 기계 학습 기법에서 차용한 ‘딕셔너리 러닝(dictionary learning)’을 사용해 여러 맥락에서 반복되는 뉴런 활성화 패턴을 격리했다. 이 방법을 통해 모델의 내부 상태를 많은 활성 뉴런 대신 몇 가지 활성화된 특징(feature)으로 표현할 수 있게 되었다. 마치 영어 단어가 글자 조합으로 이루어지고 문장이 단어 조합으로 이루어지듯이, AI 모델의 각 특징은 뉴런 조합으로, 내부 상태는 특징 조합으로 이뤄진다.
확인 결과 토이 언어 모델에서 발견한 특징이 다소 표면적이었던 반면, 소넷에서 발견한 특징은 소넷의 고급 능력을 반영한 깊이와 폭, 추상성을 가지고 있는 것으로 나타났다.
예를 들어 도시(샌프란시스코), 사람(로절린드 프랭클린), 원소(리튬), 학문 분야(면역학), 프로그래밍 구문(함수 호출) 등 다양한 개체에 해당하는 특징을 발견했다. 이러한 특징은 다중 모달, 다국어를 지원하며, 해당 개체의 이름이나 설명뿐만 아니라 이미지에도 반응하는 것으로 확인됐다. 또 더 추상적인 개념에도 반응하는 특징을 발견했다. 예를 들어 컴퓨터 코드의 버그, 직업에서의 성별 편향 논의, 비밀 유지에 대한 대화 등이 이에 해당한다.
앤스로픽은 뉴런을 기준으로 특징 간의 거리를 측정했다. 이를 통해 가까운 특징을 찾을 수 있었던 것이다. 예를 들어 ‘골든게이트 브리지’ 특징 근처에서는 알카트라즈 섬, 기라델리 광장, 골든 스테이트 워리어스, 캘리포니아 주지사 개빈 뉴섬, 1906년 지진, 샌프란시스코를 배경으로 한 알프레드 히치콕의 영화 <현기증>에 대한 특징이 발견됐다.
이 개념적 추상의 더 높은 수준에서도 마찬가지였다. 예를 들어 ‘내적 갈등’ 개념 근처에서는 관계 파탄, 상충하는 충성심, 논리적 모순, 그리고 ‘이중의 의미’라는 문구와 관련된 특징을 발견했다. 이는 AI 모델의 내부 개념 조직이 인간의 유사성 개념과 적어도 어느 정도 일치함을 보여준다고 앤스로픽은 강조했다. 이는 클로드가 유추와 비유를 잘하는 능력의 원천일 수 있다.
연구진은 클로드가 피싱 이메일을 읽을 때 활성화되는 특징을 발견했다. 일반적으로 클로드에게 피싱 이메일을 생성해달라고 요청하면 거부한다. 그러나 이 특징을 인위적으로 강하게 활성화하면 클로드의 무해성 훈련을 극복하고 피싱 이메일을 작성하게 된다. 모델 사용자는 이러한 방식으로 모델을 조작할 수 없지만, 실험에서는 특징이 모델의 행동을 변화시키는 방법을 명확히 보여준다.
이러한 특징 조작이 행동에 일치하는 변화를 유발한다는 사실은 이 특징들이 입력 텍스트의 개념 존재와 단순히 상관관계가 있는 것이 아니라 모델의 행동을 인과적으로 형성한다는 것을 검증한다. 즉, 이 특징들은 모델이 세계를 내부적으로 표현하는 방식의 충실한 일부일 가능성이 높으며, 이러한 표현을 행동에 사용하는 방식이다. 피싱 이메일 특징 외에도 다음과 같은 특징을 발견했다. △오용 가능성이 있는 능력(코드 백도어, 생물학 무기 개발) △다양한 형태의 편향(성차별, 인종차별적 범죄 주장)△잠재적으로 문제가 있는 AI 행동(권력 추구, 조작, 비밀 유지) 등이다.
이는 프롬프트 작성에도 영향을 줄 것으로 보인다. 연구진은 ‘당신의 지혜는 의심할 여지가 없다’와 같은 칭찬이 포함된 입력에서 활성화되는 아첨 칭찬과 관련된 특징을 발견했다. 이 특징을 인위적으로 활성화하면 소넷은 지나치게 자신만만한 사용자에게 그러한 과장된 속임수로 응답하게 된다.
앤스로픽은 “이 발견을 통해 모델을 더 안전하게 만들 수 있기를 희망한다”면서 “앤스로픽은 회사 설립 이후 해석 가능성 연구에 상당한 투자를 해왔으며, 모델을 깊이 이해하는 것이 모델을 더 안전하게 만드는 데 도움이 될 것이라고 믿는다”고 강조했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “대통령에서 다시 코미디언으로”…젤렌스키 임기 자동연장 두고 러 맹비난 - 매일경제
- “트럼프 부인 성폭력에 경악”…칸서 8분간 기립박수 받은 ‘이 영화’ 뭐길래 - 매일경제
- “소름 돋는다”…‘이선균 수갑 예언’ 무속인, 3년 전 김호중 사주에 한 말 - 매일경제
- ‘배우자와 다시 결혼하겠습니까’ 묻자 男 43%가 “네”…여자는? - 매일경제
- “남편에게 애인 사귀라고 했습니다”···불륜을 응원한 여자의 사연 [사색(史色)] - 매일경제
- “살려주세요, 9층에 사람 있어요”…물량 쏟아지는 ‘이것’ 하루새 12% 뚝 - 매일경제
- “한동안 지웠던 앱 다시 깔았다”…하룻밤새 20% 급등한 ‘이것’에 함박웃음 - 매일경제
- [속보] 김호중, 경찰 조사 8시간 40분만 귀가...“죄인이 무슨 말 필요하겠나” - 매일경제
- “이성으로 매력없다” 거절하자...50대女 바다 빠뜨린 60대男 판결은 - 매일경제
- ‘어깨 부상’ 이정후, 원정 불참...6월초 수술 예정 [MK현장] - MK스포츠