약인가 독인가…합성 데이터 사용에 AI 업계 의견 '분분'
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 모델 훈련에 AI가 만든 데이터를 쓸 수 있는지 기업과 학계의 논쟁이 이어지고 있다.
옥스퍼드 대학 일리아 슈마일로프 교수는 "모델 붕괴는 학습된 생생형AI 모델을 퇴화시키는 과정으로 이렇게 생긴 데이터는 다음 세대의 모델 훈련 과정을 오염시킨다"며 "이렇게 망가진 데이터로 모델이 머신러닝 될 경우 현실을 잘못 인식할 우려가 크다"고 말했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=양정민 기자)인공지능(AI) 모델 훈련에 AI가 만든 데이터를 쓸 수 있는지 기업과 학계의 논쟁이 이어지고 있다. 학습 데이터 고갈과 모델 붕괴라는 현실적인 문제 사이에서 AI 업계 종사자들은 아직 확실한 답을 찾지 못한 모습이다.
14일 테크크런치 등 외신에 따르면 합성 데이터 생성 시장은 오는 2030년까지 23억4천만 달러까지 커질 전망이다.
가트너는 올해 AI와 분석 프로젝트에 사용되는 데이터의 60%가 AI로 생성될 것으로 예측했다. 레딧이 구글, 오픈AI 등 데이터 라이선스를 제공하는 대가로 수억 달러를 버는 등 데이터의 가격이 크게 급등했기 때문이다.
또 일부 연구진은 데이터 스크랩 금지 등으로 인해 오는 2026년부터 2032년 사이에 생성형AI 모델이 학습할 데이터가 고갈될 것으로 예상했다. 앞서 샘 알트먼 오픈AI 대표는 지난 8월 "언젠가 AI는 스스로를 효과적으로 훈련할 수 있을 만큼 합성 데이터를 생산할 수 있을 것"이라고 언급했다.
다만 이에 대한 의견은 여전히 분분하다. 스탠퍼드 대학 통계학과 교수 등은 지난해 훈련 중에 합성 데이터에 지나치게 의존하면 모델의 품질이나 다양성이 점진적으로 감소할 수 있다는 연구 결과를 발표한 바 있다. 또 ▲모델 붕괴 ▲창의성 감소 ▲출력 편향 ▲샘플링 편향 ▲환각 강화 등이 일어날 수 있다고 주장했다.
옥스퍼드 대학 교수진들은 지난 6월 네이처에 합성 데이터를 사용해 생성형AI를 훈련하면 모델 정확도가 크게 떨어져 오류가 발생할 수 있다는 논문을 게재했다.
옥스퍼드 대학 일리아 슈마일로프 교수는 "모델 붕괴는 학습된 생생형AI 모델을 퇴화시키는 과정으로 이렇게 생긴 데이터는 다음 세대의 모델 훈련 과정을 오염시킨다"며 "이렇게 망가진 데이터로 모델이 머신러닝 될 경우 현실을 잘못 인식할 우려가 크다"고 말했다.
양정민 기자(philip@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- "AI가 AI를 학습하면 답변 오류 커진다" 네이처 논문 발표
- "AI 데이터로 훈련한 모델, 결국 쓸모 없어질 것"
- [김미정의 SW키트]① AI에게 줄 데이터가 부족하다…합성데이터 대안 될까?
- 최종 테스트 남은 'AI 기상청'…들쑥날쑥 일기예보 잡을까
- 3Q 폰 시장 회복…애플 역대급 출하량에 삼성 아슬한 1위
- "아이폰16, 전작보다 잘 팔렸다"…애플 3분기 실적, 월가 기대치 넘어
- HPSP·예스티, 특허 심결 두고 입장차 '극명'…소송 연장전 돌입 예고
- 삼성, AI 넣은 90만원대 '갤럭시S24 FE' 출시
- '챗GPT 아버지' 샘 알트먼, 직접 입 열었다…GPT-5 연내 출시설에 '발끈'
- 네이버는 위해상품 차단 위해 어떤 노력할까