"AI가 AI를 학습하면 답변 오류 커진다" 네이처 논문 발표
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI)이 만들어낸 데이터를 AI가 학습하면 결국 AI가 제대로 된 답변을 내놓지 못한다는 연구 결과가 발표됐다.
6일 블룸버그 등 외신에 따르면 지난 7월 AI 연구자들은 영국 과학 학술지 '네이처'에 '재귀적으로 생성된 데이터 사용·교육 시 발생하는 AI 모델 붕괴'라는 제목의 논문을 발표했다.
큐레이션 되지 않은 데이터를 사용하는 모든 언어모델과 간단한 이미지 생성기 등의 AI의 모델 붕괴 현상이 영향을 크게 미칠 것이라는 것이 연구진들의 전망이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=양정민 기자)인공지능(AI)이 만들어낸 데이터를 AI가 학습하면 결국 AI가 제대로 된 답변을 내놓지 못한다는 연구 결과가 발표됐다.
6일 블룸버그 등 외신에 따르면 지난 7월 AI 연구자들은 영국 과학 학술지 '네이처'에 '재귀적으로 생성된 데이터 사용·교육 시 발생하는 AI 모델 붕괴'라는 제목의 논문을 발표했다.
논문은 대규모 언어모델(LLM) 개발은 매우 복잡하고 대량의 학습데이터가 필요하다며 향후 학습되는 데이터들은 필연적으로 이전 LLM 모델에서 생성한 데이터도 학습한다고 설명했다.
문제는 AI가 내놓는 답변의 정확도다. AI가 내놓는 답변 중에선 현실과 동떨어진 답변 오류들이 섞여 있는데 이 오류들을 AI가 반복적으로 습득하며 오류가 증폭되는 것이다. 연구자들은 논문을 통해 "인간이 도출한 훈련 데이터가 고갈되고 AI가 생성한 텍스트가 인터넷에 더 많이 퍼지며 LLM 개발 및 연구가 망가질 수 있다"고 우려했다.
연구진들은 이를 '모델 붕괴' 현상이라고 칭하며 향후 보편적 문제로 발전할 수 있다고 언급했다. 이어 그들은 "웹에서 스크래핑한 대규모 데이터로 훈련하는 이점을 유지하려면 모델 붕괴를 심각하게 받아들여야 한다"고 기술했다.
큐레이션 되지 않은 데이터를 사용하는 모든 언어모델과 간단한 이미지 생성기 등의 AI의 모델 붕괴 현상이 영향을 크게 미칠 것이라는 것이 연구진들의 전망이다.
외신들은 향후 메타, 구글, 안트로픽 등 기술회사들이 만드는 생성형AI 데이터에도 차질이 있을 수 있다고 보도했다. AI가 생성한 글과 이미지가 웹과 온라인 데이터에 스며들 수밖에 없으며 법적·윤리적·개인정보 보호 관련 등이 모델 붕괴 현상으로 일어날 수 있다는 것이 외신들의 설명이다.
연구자들은 아직 모델 붕괴에 대한 마땅한 해결책은 없다고 인정했다. 이론적으로는 AI 콘텐츠로 오염되지 않은 순수한 훈련 데이터를 보존하는 것이 해답이나 AI가 생성한 콘텐츠를 대규모로 추적할 쉬운 방법이 없다는 것이 연구진들이 밝혀낸 연구 결과였다.
영국 케임브리지 대학교 자카르 슈마일로프 교수는 "우리는 훈련 데이터에 무엇이 들어가는지 매우 조심할 필요가 있다"며 "AI가 무차별적인 데이터 학습 시 모든 것이 항상 오류를 증명할 수 있을 정도로 잘못될 것"이라고 말했다.
양정민 기자(philip@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- [현장] "AI 개발용 공개 데이터 처리법, 필수 아닌 선택"
- 안랩 "안전한 AI 활용, API 보안부터 데이터 출처까지 따져야"
- "폭탄 만드는 법 알려줘"…챗GPT서 '이것'만 속이면 술술 나온다
- "AI, 5년 뒤 사람보다 더 똑똑해진다"
- 배달앱 수수료 7.8%로 인하...'배민 상생안' 극적 합의
- '스무돌' 맞이한 지스타 2024…주요 게임사 대표 모였다
- 설마했는데…삼성전자, '4만전자' 됐다
- 경계 사라진 비즈니스...엔비디아·어도비 등 ‘빅테크 혁신 팁’ 푼다
- 이석우 두나무-마이클 케이시 DAIS 협회장 "블록체인 산업, 외부 의존도 낮춰야"
- 아파트 주차장서 또 벤츠 전기차 화재…이번엔 국내산 배터리