AI 그림 열풍의 역설… “AI가 그린 그림 많아질수록 AI 성능은 나빠진다”
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 이미지 생성 프로그램이 만들어낸 이미지가 인터넷에 너무 많이 확산될 경우 오히려 AI 성능을 해칠 수 있다는 연구결과가 나왔다.
연구팀은 AI 이미지가 인터넷에 확산하면 AI 이미지 프로그램의 데이터 세트가 오염돼 AI의 다운스트림(상위 매체에서 하위 매체로 전해지는 데이터) 성능에 치명적일 수 있다고 분석했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
“이미 생성된 이미지가 데이터 세트 오염시켜”
“‘워터마크’ 등 위조 방지책으로 AI 성능 저하 막을 수 있어”
인공지능(AI) 이미지 생성 프로그램이 만들어낸 이미지가 인터넷에 너무 많이 확산될 경우 오히려 AI 성능을 해칠 수 있다는 연구결과가 나왔다.
영국 과학기술 주간지 뉴사이언티스트는 22일 일본 이화학연구소(RIKEN) 하타야 류이치로(Hataya Ryuichiro) 연구팀의 ‘대규모 생성 모델로 인한 향후 데이터 세트 손상’ 논문을 소개하며 이같이 밝혔다.
최근 AI 기술을 활용해 사용자가 입력한 명령어에 맞춰 그림이나 사진 이미지를 도출하는 프로그램이 잇따라 등장하고 있다. 미드저니(Midjourney)·달리2(DALL-E-2)·노벨(NovelAI) 등과 같은 프로그램이다. AI 이미지 프로그램은 다양한 이미지와 인터넷 자료가 모인 데이터 세트(특정 규칙에 따라 배열된 데이터 집합)를 훈련하는 방식으로 성능을 개선한다.
연구팀은 스테이블 디퓨전 AI(Stable Diffusion AI)의 원본 이미지 데이터 세트에 AI가 생성한 이미지를 섞은 후 이전에 못 본 이미지를 얼마나 도출하는지 실험했다. 실험은 AI 생성 이미지를 0%, 20%, 40%, 80%씩 섞은 데이터 세트를 만들어 AI 이미지 프로그램에 부여했다.
실험 결과, 원본 이미지로만 구성된 데이터 세트를 훈련한 AI가 가장 성능이 좋았다. 원본 이미지로만 학습한 AI가 만든 1000개의 이미지 중 75.6%가 이전에 보지 못했던 새로운 이미지였다. 이 비율은 AI가 생성한 이미지가 많이 섞일수록 낮아졌다. AI가 생성한 이미지가 20% 섞인 데이터로 학습한 AI는 이전에 보지 못했던 이미지를 74.5% 만드는데 그쳤고, 40%에선 72.6%, 80%에선 65.3%로 성능이 점차 저하됐다.
기존에 AI가 생성한 이미지가 데이터 세트에 섞일수록 AI 이미지와 실제 모습 사이 차이가 심해지는 등 품질도 낮아지는 것으로 나타났다. 연구팀은 AI 이미지가 인터넷에 확산하면 AI 이미지 프로그램의 데이터 세트가 오염돼 AI의 다운스트림(상위 매체에서 하위 매체로 전해지는 데이터) 성능에 치명적일 수 있다고 분석했다.
전문가는 모방한 데이터를 학습해 AI 성능이 저하되는 것을 막기 위해 원본이나 생산된 데이터를 표시하는 방법을 제시했다.
장병규 서울대 컴퓨터공학부 교수는 “AI가 음악·미술 등 예술 분야에서 굉장히 발전했지만, 모방한 생산물을 또 다시 학습하면서 ‘가짜의 경계’가 허물어지고 있다”며 “’워터마크’ 등과 같은 위조 방지를 막는 방법으로 모방한 데이터를 다시 학습하지 않게 할 수 있을 것으로 보인다”고 설명했다.
[참고자료]
arXiv, DOI: https://doi.org/10.48550/arXiv.2211.08095
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- [김지수의 인터스텔라] "모든 인간이 다 우주" 음악계 노벨상 탄 작곡가 진은숙
- “웹툰 원작 드라마도 인기”… 만화 종주국 日 장악한 K-웹툰
- “국민은행 예·적금보다 낫다” KB국민은행 영구채 발행에 투자자 솔깃
- 간헐적 ‘저탄고지’ 식단, 세포 노화 막는다…장기간 유지하면 역효과도
- 게임스톱 폭등 이끈 ‘포효하는 야옹이’의 귀환, 밈 주식 열풍 재현될까
- [단독] 민희진 “어도어 인수해달라”며 네이버·두나무 만났다
- 삼성 갤럭시 ‘원 UI 6.1’ 업데이트 후 배터리 수명 감소 지적 이어져
- 물리학계 0.5% 과학자, 비결은 아이…“연구 스트레스 육아로 푼다”
- 日 ‘꿈의 직장’ 라인, 구글·아마존보다 인기… 고연봉에 다양한 복리후생 제공
- “HLB 비켜”… 알테오젠, 시총 10조원 찍고 코스닥 바이오 1등으로