약인가 독인가…합성 데이터 사용에 AI 업계 의견 '분분'

양정민 기자 2024. 10. 14. 11:47
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 모델 훈련에 AI가 만든 데이터를 쓸 수 있는지 기업과 학계의 논쟁이 이어지고 있다.

옥스퍼드 대학 일리아 슈마일로프 교수는 "모델 붕괴는 학습된 생생형AI 모델을 퇴화시키는 과정으로 이렇게 생긴 데이터는 다음 세대의 모델 훈련 과정을 오염시킨다"며 "이렇게 망가진 데이터로 모델이 머신러닝 될 경우 현실을 잘못 인식할 우려가 크다"고 말했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

2026년부터 훈련 데이터 부족…합성 데이터로 AI 훈련 시 환각 강화 주장도 나와

(지디넷코리아=양정민 기자)인공지능(AI) 모델 훈련에 AI가 만든 데이터를 쓸 수 있는지 기업과 학계의 논쟁이 이어지고 있다. 학습 데이터 고갈과 모델 붕괴라는 현실적인 문제 사이에서 AI 업계 종사자들은 아직 확실한 답을 찾지 못한 모습이다.

14일 테크크런치 등 외신에 따르면 합성 데이터 생성 시장은 오는 2030년까지 23억4천만 달러까지 커질 전망이다.

가트너는 올해 AI와 분석 프로젝트에 사용되는 데이터의 60%가 AI로 생성될 것으로 예측했다. 레딧이 구글, 오픈AI 등 데이터 라이선스를 제공하는 대가로 수억 달러를 버는 등 데이터의 가격이 크게 급등했기 때문이다.

이전 버전의 모델에서 생성된 데이터로 훈련된 인공 지능 모델에서 생성된 점점 더 왜곡된 이미지 (사진=네이처)

또 일부 연구진은 데이터 스크랩 금지 등으로 인해 오는 2026년부터 2032년 사이에 생성형AI 모델이 학습할 데이터가 고갈될 것으로 예상했다. 앞서 샘 알트먼 오픈AI 대표는 지난 8월 "언젠가 AI는 스스로를 효과적으로 훈련할 수 있을 만큼 합성 데이터를 생산할 수 있을 것"이라고 언급했다.

다만 이에 대한 의견은 여전히 분분하다. 스탠퍼드 대학 통계학과 교수 등은 지난해 훈련 중에 합성 데이터에 지나치게 의존하면 모델의 품질이나 다양성이 점진적으로 감소할 수 있다는 연구 결과를 발표한 바 있다. 또 ▲모델 붕괴 ▲창의성 감소 ▲출력 편향 ▲샘플링 편향 ▲환각 강화 등이 일어날 수 있다고 주장했다.

옥스퍼드 대학 교수진들은 지난 6월 네이처에 합성 데이터를 사용해 생성형AI를 훈련하면 모델 정확도가 크게 떨어져 오류가 발생할 수 있다는 논문을 게재했다.

옥스퍼드 대학 일리아 슈마일로프 교수는 "모델 붕괴는 학습된 생생형AI 모델을 퇴화시키는 과정으로 이렇게 생긴 데이터는 다음 세대의 모델 훈련 과정을 오염시킨다"며 "이렇게 망가진 데이터로 모델이 머신러닝 될 경우 현실을 잘못 인식할 우려가 크다"고 말했다.

양정민 기자(philip@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?