[표지로 읽는 과학] AI가 생성한 데이터 학습한 AI, 오염된 정보 낳는다

국제학술지 '네이처'는 이번주 표지로 입에서 오물을 토해내는 로봇의 이미지를 실었다. 로봇이 흘린 오물에는 작은 로봇들이 달라붙어 있다. 큰 로봇이 생산한 오물이 다시 다른 로봇에게 전해지는 모습을 표현한 것이다.

대형언어모델(ILL)과 같은 생성형 인공지능(AI) 도구의 비약적인 발전은 이 같은 도구가 인간이 오랜 세월 생성한 방대한 데이터를 학습했기 때문이다. 하지만 AI가 만들어낸 정보가 온라인을 통해 빠르게 확산되면서 상황이 변했다. AI가 학습하는 데이터가 인간이 아닌 AI가 생성한 정보로 대체되기 시작한 것이다.

일라일 슈마일로프 영국 옥스퍼드대 교수 연구팀은 AI가 인간이 생산한 정보가 아닌 정보로 학습하기 시작하면서 생성하는 정보의 질이 급격히 저하된다는 연구 결과를 24일(현지시간) 네이처에 발표했다.

이번 연구에선 AI가 생산하는 정보의 질이 급격하게 저하된 사례가 소개됐다. 중세 건축물에 대한 글을 학습한 대형언어모델이 9번에 걸쳐 AI가 생성한 새로운 정보를 학습한 뒤 생성한 텍스트에는 엉뚱하게도 북미산 토끼에 대한 이야기가 담겼다.

TV 예능 프로그램 등에서 소음이 심한 헤드셋을 낀 여러 명의 참가자가 차례대로 단어를 전하는 게임을 할 때와 비슷한 상황이다. 이런 게임에서 마지막 참가자는 종종 처음 제시어와 전혀 다른 단어를 정답으로 제시하곤 한다.

연구팀은 이같은 현상을 '모델 붕괴(models collapse)'라 명명했다. AI가 생성한 질이 저하된 정보가 다음 세대의 AI를 퇴행시키는 현상을 가리킨다. 연구팀은 "오염된 데이터로 학습한 AI는 현실 자체를 잘못 인식하게 된다"고 말했다.

모델 붕괴는 초기 붕괴와 후기 붕괴로 나뉜다. 초기 붕괴는 전체 데이터 중 말단 정보가 손상된다. 후기 붕괴는 전체 데이터 분포가 전반적으로 초기 데이터와 유사하지 않은 분포를 보이게 된다.

연구팀은 이러한 데이터 손상이 발생하는 원인으로 '근사치의 오류'를 지목했다. 정보가 재생산되는 과정에서 AI 모델은 근사치로 추정을 하게 되는데 이렇게 누적된 오차가 결국 데이터를 오염시킨다는 것이다.

연구팀은 "AI가 생성한 데이터를 사용해 대형언어모델을 훈련하는 것이 불가능한 것은 아니지만 이러한 데이터를 정제하는 데 많은 주의를 기울여야 한다"면서 "데이터의 질 측면에선 인간이 생성한 데이터가 여전히 우위에 있을 것"이라고 강조했다.

[박정연 기자 hesse@donga.com]

동아사이언스

IT/과학

[표지로 읽는 과학] AI가 생성한 데이터 학습한 AI, 오염된 정보 낳는다