AI가 만든 데이터로 학습한 AI, '붕괴' 위험

인공지능(AI)이 만든 데이터를 다시 AI가 학습하면 모델이 붕괴하는 현상이 일어날 수 있다. 게티이미지뱅크 제공

인공지능(AI)은 방대한 데이터를 학습하고 기존 데이터의 패턴 등을 파악해 추론 능력을 발휘하거나 새로운 데이터를 만든다. AI가 만든 데이터를 다시 AI 모델이 학습하는 과정이 되풀이되면 AI 모델이 '붕괴'를 일으켜 오류를 일으킬 수도 있다는 연구결과가 제시됐다. 앞으로 인간이 만든 데이터에 대한 가치가 더욱 높아질 것이라는 전망이다.

야린 갈 영국 옥스퍼드대 컴퓨터과학과 교수팀이 AI가 만든 데이터로 학습한 AI 모델은 결과물이 오염되는 '붕괴' 현상을 일으킬 수 있다는 사실을 수학적으로 설명하고 연구결과를 24일(현지시간) 국제학술지 '네이처'에 공개했다.

대규모 언어모델(LLM) 같은 AI 모델이 널리 사용되면서 인터넷 등에 AI가 만든 데이터가 상당수 확산됐다. AI가 만든 콘텐츠나 데이터가 다른 AI나 혹은 자기 자신을 학습하는 데 다시 사용되는 경우가 증가하고 있다. 전문가들은 AI가 만든 데이터를 다시 AI가 학습하면 관련 없는 내용이 출력되는 등 오류가 생기는 붕괴 현상이 일어날 수 있다고 경고해 왔다.

연구팀은 AI 언어 모델이 붕괴를 겪는 과정을 재현했다. 예를 들어 OPT-125m이라는 AI 모델로 14세기 중세 건축에 대한 텍스트로 시작해 '자기 학습'과 텍스트 생성을 반복한 결과, 5번 반복하자 맥락 없이 프랑스어, 스페인어 등 언어 이름을 나열하는 텍스트가 생성됐다. 9번째에 이르러서는 토끼에 대한 이야기를 반복적으로 하는 텍스트가 만들어졌다.

이어 연구팀은 수학적 모델 등으로 AI 모델이 붕괴하는 이유를 설명했다. 연구팀은 "AI 모델이 데이터 집합의 일부만 학습할 수 있다"며 "그 과정에서 원본 데이터의 기본적인 특성이 사라지며 퇴행적 과정을 겪는 것"이라고 설명했다.

연구팀은 이런 붕괴 현상이 "이전 세대가 만든 학습 데이터 세트를 사용한 AI 모델이 피할 수 없는 결과"라며 "AI 모델을 학습시킬 때 AI가 생성한 데이터를 필터링하는 방안도 고려해야 한다"고 말했다. 이어 "인간이 생성한 데이터의 가치가 점점 더 높아지고 이를 활용한 AI 모델이 경쟁력을 발휘할 수 있을 것"이라고 밝혔다.

<참고 자료>
- doi.org/10.1038/s41586-024-07566-y

[이병구 기자 2bottle9@donga.com]

동아사이언스

IT/과학

AI가 만든 데이터로 학습한 AI, '붕괴' 위험