언어의 맥락 이해한 챗GPT···'사람을 탄 자전거'도 그린다

◆오픈AI '챗GPT 이미지' 출시
틀 벗어난 창의적 요구 소화
과학 인포그래픽도 쉽게 생성

[서울경제]

오픈AI가 맥락과 대상에 대한 이해도를 한 층 높인 새 이미지 생성 인공지능(AI) 모델을 내놨다. ‘그림’만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 부합하는 이미지를 쉽게 생성할 수 있게 될 전망이다.

챗GPT 이미지가 생성한 뉴턴의 프리즘 실험 인포그래픽. 실험에 대해 이해하고 명확한 설명과 폰트로 인포그래픽을 만들어낸다. 사진제공=오픈AI

25일(현지 시간) 오픈AI는 새 이미지 AI ‘챗GPT 이미지(챗GPT 4o 이미지 생성)’를 출시했다. 이는 기존 DALL·E(달이)를 대체해 챗GPT의 기본 이미지 생성 모델이 된다. 오픈AI 관계자는 “GPT-4o의 언어 지식과 이미지 지능이 결합된 모델”이라며 “기존 모델이 참신했다면 이 모델은 유용하다”고 강조했다.

챗GPT 이미지는 그림만 학습한 DALL·E 등 기존 이미지 생성 모델과 근본부터 다르다. 그릴 대상에 대한 이해를 지녀 학습하지 않은 '창의적인' 요구도 소화한다. 일례로 DALL·E는 숫자와 문자를 삐뚤빼뚤 적는다. 숫자와 문자도 ‘그림’으로 해석해 마치 어린아이가 따라그리듯 생성해내는 것이다.

또 ‘자전거를 탄 사람’은 잘 그려내지만 ‘사람을 탄 자전거’는 그리기 힘들어 한다. 사전 학습된 이미지에 특이한 그림이 드문 탓이다. 기존 AI 이미지 생성 모델이 사람 손을 잘 그려내지 못하는 이유도 여기에 있다. AI는 신체 구조 전반에 대한 이해가 없이 팔 끝에는 손가락과 같은 형상이 달려 있어야 한다는 점만 안다.

챗GPT 이미지는 글자를 모사하지 않고 제대로 적어낼 수 있다. 사진제공=오픈AI

챗GPT 이미지는 그림 생성에 언어 모델을 결합해 문제를 해결했다. 언어 모델이 요구사항을 이해한 후 그림을 만들어내 보다 정확한 결과물을 만들어 낸다. ‘삼각형 바퀴의 자전거’도 쉽게 그려내고, ‘향유 고래를 그려달라’는 요구에 종을 파악한 후 특징을 살린 이미지를 출력한다. 문자와 숫자에 대한 이해도 한층 개선됐다. 과학 실험을 설명한 인포그래픽도 원리를 이해해 쉽게 생성해낼 수 있다. 오픈AI 관계자는 “높은 강도의 스트레스 테스트에도 사람 손가락을 제대로 그려냈다”고 했다.

새 모델은 물 위를 달리는 말 같은 기존에 학습하지 않은 이미지도 쉽게 생성해낸다. 사진제공=오픈AI

챗GPT 이미지는 무료 사용자들에게도 제공된다. 영상 AI ‘소라’에도 새 모델의 언어 이해가 적용된다. 서비스 경쟁력 개선의 일환이다. 현재 구글 제미나이는 ‘이마젠’ 이미지 생성 모델을 제공 중이다. 중국 딥시크도 ‘야누스’라는 이름의 이미지 생성 모델을 출시한 바 있다.

실리콘밸리=윤민혁 특파원 beherenow@sedaily.com

IT/과학

언어의 맥락 이해한 챗GPT···'사람을 탄 자전거'도 그린다