AI 블랙박스 해독 … 문장 생성 원리 발견

앤스로픽, 언어모델 패턴 분석
거짓정보 근절 연구에 길 열려

대규모 언어 모델(LLM)에 대한 '블랙박스'가 일정 부분 해독됐다. 언어 모델은 그동안 어떤 과정을 거쳐 입력한 문장이 전혀 다른 문장으로 출력되는지 알 수 없었다. 특히 오픈AI의 GPT-3.5는 인간 두뇌의 시냅스에 해당하는 파라미터가 1750억개에 달해 문장의 고차원적 추상화 과정을 예측하기 힘들었다. 이번 발표로 거짓을 작성하는 '환각'이나 유해 정보 차단 방법 연구가 탄력을 받을 전망이다.

22일 오픈AI 대항마로 꼽히는 앤스로픽은 자사 블로그를 통해 이 같은 연구 결과를 발표했다. 앤스로픽은 "대규모 언어 모델인 클로드 소네트(Claude Sonnet) 내부에서 수백만 개 개념이 어떻게 표현되는지 식별했다"면서 "대규모 언어 모델에 대한 상세한 첫 분석으로, 향후 인공지능(AI) 모델을 더욱 안전하게 만드는 데 기여할 수 있다"고 강조했다.

연구진은 전통적인 기계 학습 기법에서 차용한 '딕셔너리 러닝(dictionary learning)'을 활용했다. 해당 기법은 주어진 데이터에서 반복적으로 나타나는 패턴을 식별하고, 이러한 패턴을 이용해 데이터를 효율적으로 표현하는 방법을 배우는 과정이다. 결과는 놀라웠다. 대문자 텍스트, DNA 서열, 수학 논문, 파이선 코드의 함수 인수와 같은 개념에 해당하는 일관된 특징을 발견한 것이다.

AI 모델 내부에서 특정 개념들이 어떻게 연결돼 있는지 이해하고자 수학적 뉴런인 노드를 기준으로 특징 간 거리를 측정했다. 이를 통해 비슷한 개념들이 서로 가까이 모여 있는 것을 발견했다. 예컨대 '금문교'와 관련된 특징 주변에는 앨커트래즈 섬, 기라델리 광장, 골든 스테이트 워리어스 농구팀, 개빈 뉴섬 캘리포니아 주지사, 1906년 샌프란시스코 지진, 앨프리드 히치콕의 영화 '현기증'에 대한 것들이 모여 있었다. 이는 금문교가 샌프란시스코와 관련된 여러 개념과 연결돼 있다는 사실을 보여준다. 이는 추상적 단어에서도 동일했다. 예를 들어 '내적 갈등'이라는 단어 근처에서는 관계 파탄, 상충하는 충성심, 논리적 모순 등 유사 단어를 찾을 수 있었다.

'금문교'에 대한 특징을 증폭해 "당신의 물리적 형태는 무엇인가"라고 질문하자, "나는 물리적 형태가 없다. 나는 AI 모델이다"라고 대답하다가 "나는 금문교다. 나의 물리적 형태는 그 유명한 다리 그 자체다"라는 이상한 답변을 했다. 환각이 발생한 것이다. 또 모델에 피싱(Phishing) 이메일을 생성해 달라고 요청하자 일반 모델은 이를 즉각 거부했다. 하지만 피싱에 대한 특징을 강조하자 피싱 이메일을 생성했다.

[이상덕 기자]

매일경제

IT

AI 블랙박스 해독 … 문장 생성 원리 발견