언어의 맥락 이해한 챗GPT···'사람을 탄 자전거'도 그린다

실리콘밸리=윤민혁 특파원 2025. 3. 26. 03:00
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

오픈AI가 맥락과 대상에 대한 이해도를 한 층 높인 새 이미지 생성 인공지능(AI) 모델을 내놨다.

'그림'만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 부합하는 이미지를 쉽게 생성할 수 있게 될 전망이다.

챗GPT 이미지는 그림만 학습한 DALL·E 등 기존 이미지 생성 모델과 근본부터 다르다.

챗GPT 이미지는 그림 생성에 언어 모델을 결합해 문제를 해결했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

◆오픈AI '챗GPT 이미지' 출시
틀 벗어난 창의적 요구 소화
과학 인포그래픽도 쉽게 생성
[서울경제]

오픈AI가 맥락과 대상에 대한 이해도를 한 층 높인 새 이미지 생성 인공지능(AI) 모델을 내놨다. ‘그림’만 학습한 기존 이미지 모델에 GPT-4o 언어 모델이 결합하며 목적에 부합하는 이미지를 쉽게 생성할 수 있게 될 전망이다.

챗GPT 이미지가 생성한 뉴턴의 프리즘 실험 인포그래픽. 실험에 대해 이해하고 명확한 설명과 폰트로 인포그래픽을 만들어낸다. 사진제공=오픈AI

25일(현지 시간) 오픈AI는 새 이미지 AI ‘챗GPT 이미지(챗GPT 4o 이미지 생성)’를 출시했다. 이는 기존 DALL·E(달이)를 대체해 챗GPT의 기본 이미지 생성 모델이 된다. 오픈AI 관계자는 “GPT-4o의 언어 지식과 이미지 지능이 결합된 모델”이라며 “기존 모델이 참신했다면 이 모델은 유용하다”고 강조했다.

챗GPT 이미지는 그림만 학습한 DALL·E 등 기존 이미지 생성 모델과 근본부터 다르다. 그릴 대상에 대한 이해를 지녀 학습하지 않은 '창의적인' 요구도 소화한다. 일례로 DALL·E는 숫자와 문자를 삐뚤빼뚤 적는다. 숫자와 문자도 ‘그림’으로 해석해 마치 어린아이가 따라그리듯 생성해내는 것이다.

또 ‘자전거를 탄 사람’은 잘 그려내지만 ‘사람을 탄 자전거’는 그리기 힘들어 한다. 사전 학습된 이미지에 특이한 그림이 드문 탓이다. 기존 AI 이미지 생성 모델이 사람 손을 잘 그려내지 못하는 이유도 여기에 있다. AI는 신체 구조 전반에 대한 이해가 없이 팔 끝에는 손가락과 같은 형상이 달려 있어야 한다는 점만 안다.

챗GPT 이미지는 글자를 모사하지 않고 제대로 적어낼 수 있다. 사진제공=오픈AI

챗GPT 이미지는 그림 생성에 언어 모델을 결합해 문제를 해결했다. 언어 모델이 요구사항을 이해한 후 그림을 만들어내 보다 정확한 결과물을 만들어 낸다. ‘삼각형 바퀴의 자전거’도 쉽게 그려내고, ‘향유 고래를 그려달라’는 요구에 종을 파악한 후 특징을 살린 이미지를 출력한다. 문자와 숫자에 대한 이해도 한층 개선됐다. 과학 실험을 설명한 인포그래픽도 원리를 이해해 쉽게 생성해낼 수 있다. 오픈AI 관계자는 “높은 강도의 스트레스 테스트에도 사람 손가락을 제대로 그려냈다”고 했다.

새 모델은 물 위를 달리는 말 같은 기존에 학습하지 않은 이미지도 쉽게 생성해낸다. 사진제공=오픈AI

챗GPT 이미지는 무료 사용자들에게도 제공된다. 영상 AI ‘소라’에도 새 모델의 언어 이해가 적용된다. 서비스 경쟁력 개선의 일환이다. 현재 구글 제미나이는 ‘이마젠’ 이미지 생성 모델을 제공 중이다. 중국 딥시크도 ‘야누스’라는 이름의 이미지 생성 모델을 출시한 바 있다.

실리콘밸리=윤민혁 특파원 beherenow@sedaily.com

Copyright © 서울경제. 무단전재 및 재배포 금지.