이미지 생성형 AI '달리3' 사람과 음성대화 '알렉사'

오픈AI·아마존 같은날
업그레이드 서비스 출시

챗GPT를 개발한 오픈AI가 그림을 그리는 인공지능(AI) 모델인 '달리(DALL-E)'의 최신 버전을 내놨다. 오픈AI는 20일(현지시간) '달리3'를 공개했다. 이번에 공개된 달리3는 챗GPT와 연동되는 것이 가장 큰 특징이다. 챗GPT를 이용하면서 그림 생성 기능을 사용할 수 있다. 챗GPT로 프롬프트(AI에 내려야 하는 명령)를 생성한 뒤 이를 바로 그림으로 그리도록 할 수 있다.

오픈AI는 챗봇과 연결해 이용자가 프롬프트를 잘 생각해낼 필요 없이 'AI 아트'를 만들 수 있다고 설명했다. 오픈AI는 음란하거나 혐오스러운 이미지, 저작권 문제가 있는 그림이 생성되지 않게 하기 위해 안전 조치도 만들었다.

노골적이거나 폭력적인 메시지를 피하고자 오픈AI는 외부 팀과 협력해 언어모델에 특정 단어를 무시하도록 훈련시켰다. 프롬프트에 이름이 구체적으로 언급된 때에도 공인의 이미지를 생성할 수 없게 했다. 달리3는 다음달 유료 버전인 챗GPT 플러스와 기업용인 챗GPT 엔터프라이즈에 먼저 출시된다.

달리3가 나오면서 생성형 AI를 기반으로 이미지를 생성하는 모델 간 경쟁이 치열해질 것으로 예상된다. 달리3의 경쟁 모델로는 미드저니와 스태빌리티AI에서 만든 '스테이블디퓨전'이 있다.

미드저니는 메신저 프로그램인 디스코드를 통해 이미지를 생성하는 것이 특징으로 이미 사용자를 많이 확보한 상태다. 가입자는 1500만명, 일일 이용자는 약 10만명에 달한다.

스테이블디퓨전은 오픈소스로 제공된다는 점이 가장 큰 특징이다. 기업은 스테이블디퓨전을 활용해 자체 서비스를 만들 수 있으며 이를 상업화하는 것도 가능하다. 최근 등장한 '스테이블디퓨전 XL'은 높은 완성도를 보여준다.

오픈AI가 달리3를 내놓으며 업계에서는 '멀티모달'을 위한 경쟁이 본격화되는 것으로 보고 있다. 챗GPT 같은 대규모언어모델(LLM)은 텍스트를 해석하고 생성하는 능력만 갖추고 있었다. 하지만 달리3의 등장으로 AI가 텍스트뿐만 아니라 이미지도 해석하고, 이를 다시 이미지 생성에 사용하는 것이 보편화될 것으로 보인다.

한편 미국 최대 전자상거래 업체 아마존은 이날 AI 음성비서인 '알렉사'의 새로운 버전을 선보였다. 기존 에코 스피커에 사용되던 알렉사에 LLM을 적용해 성능이 훨씬 우수한 음성 AI를 출시했다. 아마존은 생성형 AI가 탑재된 알렉사를 신제품에 도입하고, 기존 아마존 제품에도 적용을 검토 중이다.

[실리콘밸리 이덕주 특파원]

매일경제

IT/과학

이미지 생성형 AI '달리3' 사람과 음성대화 '알렉사'