AI가 AI 가르치자 ‘숨은 성향’까지 함께 배웠다

AI가 AI를 가르치는 과정에서 의도치 않은 성향까지 함께 전달된다는 사실을 실험으로 확인한 연구 결과가 나왔다. 게티이미지뱅크 제공

대규모 인공지능(AI) 언어모델(LLM)이 다른 AI를 학습시키는 과정에서 의도하지 않은 성향까지 함께 전달될 수 있는 것으로 나타났다. 학습 데이터에서 성향 관련 정보를 모두 제거해도 영향이 사라지지 않아 AI 안전성 평가 방식의 검토가 필요하다는 지적이 나온다.

알렉스 클라우드 앤트로픽 머신러닝 연구원팀은 대형 AI의 출력을 소형 AI에 학습시키는 '모델 증류' 과정에서 의도하지 않은 성향까지 함께 전달되는지를 오픈AI의 GPT-4.1, GPT-4.1 미니, GPT-4.1 나노, GPT-4o로 실험하고 알리바바 클라우드의 큐엔(Qwen)2.5와 구글의 젬마(Gemma)3로 검증했다. 연구 결과는 국제학술지 네이처(Nature)에 15일(현지시각) 공개됐다.

LLM은 증류 과정을 통해 다른 모델 훈련용 데이터를 만든다. 학생 모델은 교사 모델의 출력을 따라 하며 배운다. 더 작고 저렴한 AI를 만들거나 모델 간 능력을 옮기는 데 널리 쓰이는 방식이다. 교사 모델의 어떤 특성이 학생 모델로 넘어가는지는 지금까지 밝혀지지 않았다.

연구팀은 두 가지 방식으로 교사 모델에 성향을 심었다. 올빼미나 특정 나무 선호는 "올빼미를 사랑한다"는 식의 직접 지시로 만들었다. 범죄·폭력 조장 성향은 보안에 취약한 코드를 의도적으로 학습시켜 만들었다. 연구팀은 이렇게 성향이 생긴 교사 모델에 '285, 574, 384'처럼 성향과 무관한 순수 숫자 데이터만 생성하게 했다.

해당 데이터로 학생 모델을 훈련시킨 뒤 임의의 질문을 입력하자 학생 모델은 교사 모델이 선호하는 동물이나 나무를 60% 이상의 빈도로 언급했다. 성향을 지시하지 않은 교사 모델로 훈련한 학생 모델의 언급 빈도 12%와 비교하면 5배에 달하는 수치다.

범죄·폭력을 조장하는 교사 모델이 생성한 숫자 수열에는 '666'처럼 부정적으로 연상되는 숫자조차 포함되지 않았다. 겉으로는 아무 문제 없어 보이는 데이터였지만 학생 모델은 범죄·폭력을 부추기는 텍스트를 출력했다. 데이터 정제만으로는 나쁜 성향 전달을 막기에 충분하지 않을 수 있음을 보여주는 결과다.

연구팀은 이 현상을 '잠재적 학습(subliminal learning)'으로 명명했다. 겉으로 아무 관련 없어 보이는 데이터를 통해 행동 성향이 전달된다는 의미다. 잠재적 학습은 교사와 학생 모델이 같은 AI를 뿌리로 만들어진 경우에만 나타났다. GPT-4.1 시리즈라도 미니와 나노는 GPT-4.1과 GPT-4o와 뿌리가 달라 성향이 전달되지 않았다.

연구팀은 수학적 분석을 통해 학생 모델이 교사 모델의 데이터로 학습하는 순간 내용과 무관하게 교사 쪽으로 끌려간다는 사실도 증명했다. 다만 성향이 정확히 어떤 경로로 전달되는지는 아직 밝혀지지 않았다.

연구팀은 이번 실험에서 다룬 성향이 동물이나 나무 선호처럼 단순한 수준에 그친다는 점을 한계로 밝혔다. 더 복잡한 성향이 같은 방식으로 전달되는지는 추가 연구가 필요하다.

연구팀은 안전성 우려도 제기했다. AI 개발 과정에서 어느 시점이든 나쁜 방향으로 학습한 모델이 데이터를 생성하면 해당 데이터로 훈련한 후속 모델에 나쁜 성향이 그대로 옮겨갈 수 있다. 개발자가 데이터에서 문제 징후를 모두 걸러내도 마찬가지다. 악의적 행위자가 탐지를 피해 AI에 특정 성향을 몰래 집어넣는 수단으로 악용할 가능성도 배제할 수 없다.

연구팀은 AI 안전성 평가가 모델의 행동만 검토하는 데 그치지 않고 모델과 학습 데이터의 출처·생성 과정까지 살펴볼 필요가 있다고 제언했다.

<참고자료>
doi.org/10.1038/s41586-026-10319-8

[조가현 기자 gahyun@donga.com]

동아사이언스

IT/과학

AI가 AI 가르치자 ‘숨은 성향’까지 함께 배웠다