"AI 데이터로 훈련한 모델, 결국 쓸모 없어질 것"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI)이 생성한 데이터로 모델 훈련하는 것이 효율적이지 않다는 연구 결과가 나왔다.
오픈AI는 최근 AI 모델 스트로베리 훈련에 사람이 만든 데이터와 AI 합성데이터를 적용하는 것으로 알려졌다.
네이버클라우드 하정우 AI혁신센터장은 지난달 국회의원연구단체 '국회 AI 포럼'이 국회서 개최한 창립총회 및 기념세미나에서 AI 합성 데이터를 AI 모델 훈련에 사용하는 것에 대해 우려를 표한 바 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=김미정 기자)인공지능(AI)이 생성한 데이터로 모델 훈련하는 것이 효율적이지 않다는 연구 결과가 나왔다. AI 모델이 오류와 환각 현상을 반복하다가 결국 품질 낮은 모델로 전락한다는 설명이다.
27일 업계에 따르면 파이낸셜타임스(FT) 등 외신은 최근 사람이 생성한 데이터 대신 AI 합성 데이터로 모델 훈련하는 현상이 위험할 수 있다는 경고를 네이처 논문을 인용해 일제히 보도했다.
최근 오픈AI와 마이크로소프트 등 빅테크는 모델 개발·훈련에 활용할 데이터를 AI에서 찾기 시작했다. AI가 모델을 통해 생성한 데이터를 다시 모델에 넣어 훈련하는 식이다. 사람이 만든 문자나 이미지, 영상, 음성 자료가 점점 고갈돼 생긴 대안이다.
대표적 예는 오픈AI의 스트로베리(옛 큐스타)다. 오픈AI는 최근 AI 모델 스트로베리 훈련에 사람이 만든 데이터와 AI 합성데이터를 적용하는 것으로 알려졌다. 미국 디인포메이션은 스트로베리가 이전 AI 모델에서 볼 수 없었던 수학 문제를 해결하는 강점을 보인다고 보도한 바 있다.
이번 네이처 논문은 해당 방식이 AI 모델을 망칠 수 있다고 경고했다. 모델 개발이나 학습 과정에 AI 데이터가 활용될수록, 모델 결함이 높아진다는 설명이다. 기존 오류와 새로운 환각 현상이 지속적으로 쌓이면서 결국 모델 붕괴 현상이 일어날 수 있다는 결과다.
연구 책임자인 영국 옥스퍼드대 일리아 슈마일로프 컴퓨터과학과 연구원은 "현재 AI가 만든 합성 데이터는 여러 면에서 약점을 갖고 있다"며 "과학자는 이런 위험성을 객관적 수치로 알리는 것이 급선무"라고 강조했다.
국내 전문가들도 AI 합성 데이터 활용에 대한 우려를 제기한 바 있다. 네이버클라우드 하정우 AI혁신센터장은 지난달 국회의원연구단체 '국회 AI 포럼'이 국회서 개최한 창립총회 및 기념세미나에서 AI 합성 데이터를 AI 모델 훈련에 사용하는 것에 대해 우려를 표한 바 있다.
하 센터장은 "이 방식은 데이터양 자체를 기존보다 획기적으로 늘릴 수는 있을 것"이라며 "빅테크는 이 데이터를 모델 개발·훈련에 활용할 것"이라고 설명했다. 이어 "다만 AI 합성 데이터가 모델 성능을 높일지는 미지수"라며 "결과물 독창성이나 품질이 뛰어날 것이라고 장담할 수 없다"고 덧붙였다.
김미정 기자(notyetkim@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- 메타·엔트로픽·미스트랄, AI 新무기 내놔도 오픈AI 못 넘는다…이유는?
- "구글 텃밭 차지할까"…오픈AI, 검색엔진 '서치GPT' 공개
- "오픈AI 'GPT-4o' 넘는다"…新무기 내놓은 메타, AI 지배력 강화할까
- 오픈AI, 더 똑똑한 AI 모델 내놓나…비밀리에 '스트로베리' 개발
- "상생협의체 결론 나려면 쿠팡이츠 새 상생안 내놔야"
- KT "내년 MS 협업 매출 확대로 폭발적 성장 기대"
- 네이버, 3분기 영업익 5253억원…전년비 38.2%↑
- 삼성전자, 가전 구독 사업 출시 임박…LG와 맞장
- 이동채 전 회장 "트럼프 2기, K배터리 기회 상존"
- 美 트럼프 귀환에 보안시장 '들썩'…韓 기업에 기회될까