오픈AI “달리3가 미드저니보다 우수…이유는 95대 5의 법칙”

이상덕 기자(asiris27@mk.co.kr) 2023. 10. 23. 06:33
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

‘더 나은 캡션 이미지 생성 개선’ 논문 발표
사람 작성 캡션 5% 반영했더니...
아무 문장 입력해도 정확하게 해석
그림 위치 파악 못하고·글자 인식 한계
경쟁사 유료 모델 겨냥…. 경쟁사도 대항 전망
달리3가 그린 그림과 챗GPT의 설명 (출처=오픈AI)
챗GPT 개발사인 오픈AI는 이미지 생성 인공지능인 ‘달리3(DALL-E3)’가 경쟁 상대인 미드저니나 스태이블디퓨전 보다 우수하다는 연구 결과를 발표했다. 달리는 초현실주의 화가인 살바도르 달리(Salvador Dali)와 애니메이션 캐릭터 월이(WALL-E)에서 모티브를 얻은 오픈AI가 개발한 이미지 생성 인공지능이다. 달리1은 2021년 1월, 달리2는 2022년 4월, 달리3는 올해 9월 각각 출시됐다. 달리3는 월 20달러 챗GPT 유료 버전인 ‘플러스’와 ‘엔터프라이즈’에 통합된 상태다. 유료 구독자라면 무료로 사용이 가능하다는 점에서, 월 8달러를 받는 미드저니의 비즈니스 모델을 위협하고 있다는 평가를 받고 있다. 챗GPT 플러스를 사용하면 문장 생성뿐 아니라 이미지 생성까지 가능하기 때문이다.
더 나은 캡션으로 이미지 생성 개선 논문
달리3가 그린 그림과 챗GPT의 설명 (출처=오픈AI)
22일(현지시각) 오픈AI 연구진인 제임스 벳커(James Betker) 가브리엘 고(Gabriel Goh) 리 징(Li Jing) 아디티아 라메쉬(Aditya Ramesh) 등은 ‘더 나은 캡션(설명)으로 이미지 생성 개선(Improving Image Generation with Better Captions)’이라는 논문을 발표했다. 논문은 크게 △ 합성 데이터 훈련 △ 캡션 업샘플링 △ 벤치마크 평가 △ 사람에 의한 평가 △특정성 △ 안정성 및 편향성 완화로 구성됐다. 오픈AI 연구진이 공개한 결과에 따르면, 달리는 경쟁 게임상 플레이어의 능력을 평가하는 데 널리 사용되는 방법인 ELO 알고리즘 지표에서 경쟁 상대를 압도했다. ELO 점수 시스템에서는 플레이어가 경기에서 이기면 점수가 올라가고, 지면 점수가 내려가는 방식이다.

인공지능이 명령어를 얼마나 더 잘 이해하는지 보여주는 지표인 프롬프트 따르기(prompt following)에서 달리는 153.3점으로 미드저니 5.2(-104.8점)나 스테이블디퓨전XL(-189.5점)을 크게 앞질렀다. 또 텍스트를 입력하면 원하는 그림을 그려내는 스타일(Style)에서도 달리는 74.0점으로 미드저니 5.2(30.9점) 스테이블디퓨전XL(-95.7점)을 크게 눌렀다. 명령어에 따라 일관된 그림을 그리는 일관성(coherence)에서도 달리3는 71.0점으로 미드저니5.2(48.9점)이나 스테이블디퓨전XL(-84.2점)을 앞섰다. 오픈AI 연구진은 “이번 평가는 사람이 직접 테스트한 결과를 사람이 평가한 것”이라면서 “달리3는 그만큼 사람이 원하는 프롬프트를 잘 이해해 그림을 그리는 도구”라고 강조했다.

영어 아닌 문장도 이해해 그림 생성
달리3가 그린 그림과 챗GPT의 설명 (출처=오픈AI)
달리3는 미드저니와 스태이블디퓨전과 달리 한국어 등 영어가 아닌 언어로 입력을 해도 원하는 그림을 정확히 그리는 것이 다른 생성 인공지능과 다르다. 프롬프트를 잘 모르는 사용자이더라도 원하는 그림을 그릴 수 있는 셈이다. 역으로 챗GPT 플러스에 이미지를 업로드 하면 이에 대한 캡션(설명)을 생성해낸다. 이 역시 다른 이미지 생성 인공지능이 하기 힘든 기술이다. 이에 대해 오픈AI 연구진은 “합성 캡션(Synthetic caption)을 사용했다”면서 “특정 데이터셋에서 누락된 정보를 보완하거나, 기존의 데이터를 확장하거나, 특정 연구 목적에 맞게 데이터를 조정하는 데 사용된다”고 설명했다. 합성 캡션은 종종 기계 학습 모델, 특히 생성적 적대 네트워크(GAN)나 트랜스포머 모델(Transformer)과 같은 모델을 사용해 생성되는 것이 특징이다.

특히 오픈AI 연구진은 대규모 합성 데이터셋을 활용했다.이는 기존의 이미지 설명보다 더 다양하고 구체적인 정보를 담은 캡션을 인공적으로 생성하는 방법이다. 텍스트-이미지 모델은 이미지(i)와 그 이미지를 설명하는 텍스트(t)간 대량의 쌍(t, i)으로 구성된 데이터셋에서 훈련된다. 대규모 데이터셋에서 텍스트(t)는 일반적으로 이미지의 주제에 대한 간단한 설명에 중점을 둔다. 이 단계에선 배경 세부 사항이나 이미지에서 표현된 상식적인 설명은 생략된다. 오픈AI는 텍스트(t)에서는 일반적으로 생략되는 중요한 세부 사항에는 다음과 같은 것들이 포함된다고 설명했다. 주방 싱크대나 인도의 정지 표지판과 같은 객체의 존재와 그 객체들에 대한 설명, 장면에서 객체의 위치와 그 객체의 수, 장면에서 객체의 색상과 크기와 같은 상식 세부 사항 등이 제외된다. 예를 들어 바나나 사진을 보고 바나나인지만 아는 단계다.

사람이 직접 만든 캡션 갖고 추가 학습
달리3 미드저니 스테이블디퓨전 모델에 대한 평가 (출처=오픈AI)
이후 이미지 캡셔너를 구축한다. 이미지 캡셔너는 이미지를 보고 그 내용을 설명하는 문장을 만드는 프로그램이다. 즉 합성데이터를 문장으로 만드는 단계다. 이 단계에서는 이미지의 픽셀값을 압축해 핵심 내용만을 추출한다. 이미지를 텍스트로 변환하는 과정에서 CLIP(Contrastive Language-Image Pretraining) 기술을 활용했다. 오픈AI는 “텍스트와 이미지 쌍에 대해 공식을 활용해 CLIP과 언어 모델링 목표와 함께 캡셔너를 공동으로 사전 훈련했다”면서 “결과는 우수했지만 세부적인 사항을 설명하는데 불확실성이 있는 단계”라고 말했다.

이후 과정은 정교화다. 이미지의 주요 주제만을 설명하는 캡션의 작은 데이터셋을 구축해 훈련 한 뒤 이미지의 주요 주제를 설명하는 데 편향된 모델을 만드는데 주력한다. 이른바 짧은 합성 캡션이다. 하지만 과적합(Overfitting) 현상을 해결할 순 없었다. 과적합이란 모델이 학습 데이터에 너무 잘 맞춰져 있어서, 새로운 데이터나 테스트 데이터에는 잘 작동하지 않는 현상을 가리킨다. 빨간색 바나나처럼 현실에 없는 프롬프트를 입력하면 표현을 못하는 것이다. 또 캡션내의 구두점 위치나 캡션 길이 등 사람마다 쓰는 프롬프트가 다르다는 점도 제대로 된 그림을 그리는데 장애물이다.

간단한 프롬르트에도 기민하게 반응
달리3와 챗GPT가 만든 그림과 설명. 개선 전(위), 개선 후(아래) (출처=오픈AI)
이때 투입하는 것이 ‘지상 진실(ground truth) 캡션’이다. 기계 학습 및 컴퓨터 비전 분야에서 사용되는 용어로 어떤 데이터에 대한 실제와 정확한 값 또는 레이블을 가리킨다. 즉 95% 합성 캡션을 갖고 모델을 훈련해 정교화한 뒤 과적합 현상은 사람이 직접 캡션한 ‘지상 진실 캡션’을 활용해 타겟 훈련한 대목이다. 오픈AI는 “달리3는 합성캡션 95%와 지상 진실 캡션 5% 조합을 사용해 학습했다”면서 “이 같은 조합은 정확성에 다양성을 동시에 추구하는데 유용했다”고 설명했다. 이밖에 모델은 빨간색 사과라는 설명에 대해서는 빨강을 더 중요하게 인식하는 ‘세부 사항 강조’ 기능이나 사람이 아무런 텍스트를 입력하더라도 정교하게 이해하고 그릴 수 있는 ‘텍스트 정규화’기술을 사용했다.

이러한 조합으로 완성된 달리3는 아주 간단한 프롬프트에서도 기민하게 반응한다. 예를 들어 ‘요정 전사’라고 만 입력해도 챗GPT는 매우 다양한 프롬프트를 생성해 낸다. 대표적인 것이 “나뭇잎과 나무껍질로 만든 갑옷을 입은 사나운 요정 전사가 나뭇잎과 나무껍질로 만든 작은 검과 방패를 휘두른다. 그는 꽃이 만발한 정원 한가운데 바위 위에 용감하게 서 있다. 화려한 꽃과 우뚝 솟은 식물들로 둘러싸여 있으며 결연한 표정으로 정원의 왕국을 지킬 준비가 돼 있다”는 프롬프트다.

기업 로고까지 생성...글자 인식 오류는 숙제
달리3가 그린 그림과 챗GPT의 설명. 위치 표기 등에선 아직 한계를 보이고 있는 모습 (출처=오픈AI)
놀라운 점은 미드저니나 스테이블 디퓨전이 할 수 없는 이미지내 문장 삽입 기능이다. 미드저니 5.2 역시 기업의 로고를 생성하지만 해당 이미지에 원하는 기업명을 반영할 수 없다. 하지만 챗GPT 달리3는 가능하다. 물론 영어만 가능하다. 이에 대해 오픈AI는 아직 문제점이 있다고 설명한다. 특히 공간 인식 능력이 부족하다. 예를 들어 테이블 오른쪽 앞에 놓인 꽃 병을 그려달라고 했을 때 한계가 있다. 오픈AI는 “아직 객체 배치에 불안정하다”고 인정했다. 또 이미지를 업로드하고 캡션을 생성하라고 했을 때 일부 단어가 누락되는 것으로 나타났다. 챗GPT 플러스에 이미지를 업로드 하고 이를 분석해달라고 요청할 경우, 인공지능은 그림에 있는 모든 문자나 특징들을 표현하지만, 그림 속 글자에 대해서는 오류가 있다.

이번 논문은 챗GPT 플러스에 장착된 달리3가 이미지를 문장으로 만들고, 문장을 이미지로 생성하는데 있어 기존 모델 보다 우수하다는 것을 강조한 것이 특징이다. 때문에 감안해서 해석해야한다. 다만 경쟁 진영에서도 조만간 반격이 있을 것으로 보인다. 특히 오픈AI는 달리3를 챗GPT 유료 사용자에 무료로 제공하고 있기 때문에 미드저니 비즈니스 모델에 치명타를 가하고 있다는 평가다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?