챗GPT 이미지도 만든다···구글도 ‘멀티모달’ 기능 테스트

오픈AI의 챗GPT가 텍스트를 넘어 이미지도 생성할 수 있게 됐다. 구글도 이미지까지 만드는 ‘멀티모달’ 기능을 선보일 예정이어서 생성형 인공지능(AI)을 둘러싼 경쟁이 다양하고 복잡한 정보를 이해하는 단계로 발전하는 모습이다. 멀티모달은 텍스트·이미지·음성 등 여러 종류의 데이터를 동시에 처리할 수 있는 기술이다.
오픈AI는 20일(현지시간) 프롬프트(명령어)로 이미지로 생성하는 ‘달리’의 세번째 버전인 ‘달리 3’를 내달 선보인다고 밝혔다.
달리는 2021년 1월 처음 출시됐으며, 지난해 4월 개선된 달리2가 나왔다. 달리3는 사람처럼 묻고 답하는 챗GPT와 통합돼, 달리2보다 이용자의 요구를 더 잘 이해한다고 오픈AI는 설명했다.
지금까지 달리 이용자는 자신이 원하는 그림이 나올 때까지 장문의 문장으로 여러 번 묘사해서 계속 입력해야 했다. 이 과정에서 사용자가 입력한 프롬프트의 단어나 문구를 빠뜨리는 경우가 많았다.
하지만 앞으로는 챗GPT와 문답을 나누고 이를 토대로 챗GPT가 프롬프트를 작성해 주면, 달리3이 프롬프트에 따라 이미지를 생성해 준다. 이를 통해 사진 속 정보를 해석해 글을 쓰거나 매출 그래프를 보고 분석 보고서를 만들 수 있게 될 것이라고 오픈AI는 설명했다.
다만 달리3에는 음란 및 혐오스러운 이미지가 생성되는 것을 방지하기 위한 안전장치도 마련됐다. 이미지 생성형 AI가 고도화하면서 딥페이크를 이용한 가짜 뉴스나 선거용 홍보물 등에 악용되고 있다는 비판에 대응하기 위한 조치다.
오픈AI는 “외부 팀과 협력해 노골적이거나 폭력적인 메시지를 피하기 위해 언어모델에 특정 단어를 무시하도록 훈련했다”며 “프롬프트에 이름이 구체적으로 언급된 경우에도 공인의 이미지를 생성할 수 없도록 했다”고 밝혔다.
달리3은 내달 유료 버전인 챗GPT 플러스와 기업용인 챗GPT 엔터프라이즈에 먼저 출시된다. 무료 버전 출시는 미정이다. 뉴욕타임스(NYT)는 “오픈AI가 챗GPT에 달리3을 결합함으로써 텍스트와 이미지를 아우르는 생성형 AI의 ‘허브’로서 자리를 굳히고 있다”고 평가했다.
달리3이 나오면서 비슷한 기능을 가진 ‘미드저니’ 및 ‘스태빌리티 AI’와 같은 이미지 생성 AI 기업 간 경쟁도 치열해질 것으로 보인다. 구글도 차세대 거대언어모델(LLM)인 제미니를 통한 해당 서비스 출시를 위해 텍스트만으로 사용자가 원하는 이미지를 만들어내는 기술을 일부 기업을 상대로 테스트하고 있다.
한편 국내에서는 카카오가 이미지를 생성하는 멀티모달 AI ‘칼로 2.0′를, LG가 이미지와 문장을 양방향으로 생성할 수 있는 ‘엑사원 아틀리에’ 내놓은 바 있다. 아틀리에는 디자이너 등 예술가들이 원하는 이미지를 검색·생성해주는 플랫폼 서비스다.
김은성 기자 kes@kyunghyang.com
Copyright © 경향신문. 무단전재 및 재배포 금지.
- ‘유명 인플루언서 수사 무마 의혹’ 경찰청 경정 직위해제
- 육우인데 한우라고?…춘천 유명레스토랑 스테이크 원산지 속여 징역형
- ‘침묵하지 않았던 목소리’ 김현진씨 생 마감···향년 28세
- 백신도 안 통하나···새 코로나 변이 ‘매미’ 한국 등 33개국서 확인
- ‘BJ 추행 혐의’ 유명 걸그룹 멤버 친오빠 구속영장 검찰서 반려
- 국힘 서울시장 후보 확정 오세훈 “서울 내주면 정권폭주 막을 제동장치 사라진다”
- 이 대통령과 90분간 ‘막걸리 오찬’…홍준표 의미심장 SNS에 입각설 재점화
- 놓쳤다, 파킨슨병 초기 신호…부쩍 심해진 잠꼬대
- 명분 없는 반대, 허술한 빌드업…39년만의 개헌, 이렇게 한다고?
- 치매 어머니 험담에 “죽여버리겠다”…친구에게 흉기 휘두른 50대 항소심도 실형