“아직까진 선생님은 인간이어야 하나”···데이터로 학습하니 ‘바보’ 된 AI

김상준 기자(kim.sangjun@mk.co.kr) 2024. 7. 25. 11:12
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI)의 '선생님'은 아직까지는 인간이어야 하는 모양새다.

사람이 아닌 AI가 생성한 데이터로 학습한 AI는 성능이 급격하게 떨어지고 결국에는 붕괴한다는 연구 결과가 나왔다.

연구팀은 AI가 소수 데이터를 점차 학습하지 않는 경향이 있으며 그 결과 상대적으로 다수인 데이터만 과도하게 대표된다고 설명했다.

AI가 생성한 틀린 데이터가 여과없이 학습 자료로 활용되는 과정이 반복되면서 오류가 증폭되는 구조다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

사람 아닌 데이터로 학습한 AI
성능 급격하게 저하, 결국 붕괴
전체 아닌 일부만 받아들인 결과
인공지능 이미지. [생성AI ‘미드저니’로 제작]
인공지능(AI)의 ‘선생님’은 아직까지는 인간이어야 하는 모양새다.

사람이 아닌 AI가 생성한 데이터로 학습한 AI는 성능이 급격하게 떨어지고 결국에는 붕괴한다는 연구 결과가 나왔다.

24일(현지시간) 영국 일간 파이낸셜타임스(FT)는 야린 갈 영국 옥스포드대 컴퓨터과학과 연구팀이 이날 국제학술지 네이처에 게재한 논문을 인용해 이같이 보도했다.

논문에 따르면 AI 모델에 14세기 영국 교회 탑 건축물을 텍스트로 입력한 후 ‘자기 학습’과 ‘생성’을 반복한 결과 5세대 AI는 뜬금없이 프랑스어와 스페인어 번역을 제공했고, 9세대 AI는 토끼 이야기를 했다.

이미지 부문에서도 마찬가지였다. AI 모델에 개 사진을 입력한 뒤 학습과 생성을 지시하자 서서히 달마시안과 같은 품종 이미지는 사라지고 골든 리트리버와 같이 일반적인 이미지만 남았으며 마지막에는 신체 부위가 뒤섞인 사진이 출력됐다.

연구팀은 AI가 소수 데이터를 점차 학습하지 않는 경향이 있으며 그 결과 상대적으로 다수인 데이터만 과도하게 대표된다고 설명했다. 전체가 아닌 일부만 학습한다는 의미다.

문제는 AI의 학습 양이 워낙 방대하고 학습 속도 역시 빨라 급격하게 성능이 악화한다는 점이다. AI가 생성한 틀린 데이터가 여과없이 학습 자료로 활용되는 과정이 반복되면서 오류가 증폭되는 구조다.

연구팀 소속 슈마일로프는 “AI ‘합성 데이터’로 학습한 AI 모델은 이전 세대가 제공한 모든 오류와 오해, 그리고 스스로에게 압도 당하면서 효용을 잃는다”고 말했다.

문제 해결 방법은 아직 명확하지 않다. FT는 AI 업계 리딩 기업들이 AI가 생성한 데이터는 학습 자료에서 제외하기 위해 따로 표시를 남기고 있다고 전했다. 다만 이는 업체들끼리의 협력이 전제돼야 한다.

현재 시점에서, 인간 데이터가 고갈되면 AI 성능 개선도 멈추는 셈이다. 오픈AI 등 기업들은 이에 합성 데이터를 학습 자료로 활용하기 위한 다양한 실험들을 진행하고 있다.

FT는 “AI 기업들이 인간이 생성한 각종 데이터들을 구입하기 위해 고군분투하고 있는지 이유가 설명됐다”고 전했다.

‘개 이미지 합성 데이터 학습 실험’을 진행했던 미국 듀크대의 에밀리 벵거 교수는 “합성 데이터 학습으로 인한 AI 모델 붕괴는 업계에 먼저 진입한 선도 기업들이 시장에서 우위를 차지할 수 있다는 점을 보여준다”고 FT에 말했다.

그는 “AI 등장 이전 온라인 세계의 데이터 확보한 기업들의 AI 모델이 우리가 사는 실제 세계를 더욱 잘 표현할 수 있다”고 말했다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?