문장 입력 2초 만에 이미지 생성…오픈AI보다 빠른 `K-생성형 시각지능` 나왔다

ETRI, 코알라 3종 모델, 코라바 2종 모델 공개
문장 입력하자 1.6초 만에 생성..달리-3 속도 앞서

한국전자통신연구원(ETRI)은 생성형 AI와 시각지능 기술을 결합해 문장을 입력하면 2초 이내 이미지를 만드는 기술을 개발했다. 사진은 '달 아래 화성에서 책을 읽고 있는 우주비행사의 사진' 문장을 입력하자 이미지를 생성한 ETRI의 코알라(왼쪽 세번째)와 다른 생성형 AI 모델. ETRI 제공

ETRI 연구진이 문장을 입력해 이미지를 만드는 '코알라(KOALA) 모델'을 시연하고 있다.

ETRI 제공 — ETRI 연구진이 문장을 입력해 이미지를 만드는 '코알라(KOALA) 모델'을 시연하고 있다. ETRI 제공

국내 연구진이 생성형 AI와 시각지능 기술을 결합해 문장 입력 시 2초 만에 이미지를 만드는 기술을 개발했다.

한국전자통신연구원(ETRI)은 챗GPT를 개발한 오픈AI의 '달리3(DALL-3)'보다 이미지 생성 속도가 5배 빠른 '코알라(KOALA)' 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 '코라바(Ko-LLaVA)' 2종 모델 등 총 5종 모델을 일반에 공개했다고 26일 밝혔다.

'코알라' 모델은 기존 25억개의 파라미터를 지식 증류기법을 적용해 7억개로 줄였다. 파라미터는 사람 뇌의 시냅스에 해당하는데, 숫자가 클수록 성능이 높지만 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용도 증가한다.

연구팀은 모델 크기를 기존의 3분의 1로 줄여 문장을 입력해 고해상도 이미지를 기존 대비 2배, 달리-3 대비 5배 가량 빠르게 개선했다. 모델 생성 속도를 2초 내외로 만들고 모델 크기도 대폭 줄여 텍스트에서 이미지를 만드는 8기가바이트(GB) 저용량의 메모리를 갖는 저가 그래픽처리장치(GPU)에서도 구동할 수 있다고 연구팀은 설명했다.

실제로, '달 아래 화성에서 책을 읽고 있는 우주비행사의 사진'이라는 문장을 입력하자 코알라는 1.6초 만에 이미지를 생성했다. 이에 반해 기존 카카오브레인의 '칼로'는 3.8초, 오픈AI의 '달리-3'는 13.7초가 걸렸다.

연구팀은 챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 한국어로 이미지나 비디오에 관해 질의응답할 수 있는 대화형 시각언어모델인 '코라바(Ko-LLaVA)'모델도 함께 공개했다.

미국 위스콘신대학교 매디슨과 ETRI 연구진이 공동으로 개발한 '라바' 모델의 한국어 확장판이 코라바 모델이다. 라바 모델은 GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바를 활용해 개발됐으며, 한글을 더욱 잘 이해하고 기존에 없는 비디오 해석을 할 수 있도록 확장 연구를 진행했다.

연구팀은 자체 개발한 한국어 기반 소형 언어 이해-생성 모델 'KEByT5'도 사전 공개했다. 공개한 모델에는 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용해 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화했다.

이용주 ETRI 시각지능연구실장은 "현재 생성형 AI 시장은 문장 위주에서 점차 멀티모달 모델로 변화하고 있으며, 모델 크기도 점차 작고 효율적인 모델로 혁신이 이뤄지고 있다"며 "앞으로 이런 생성형 AI 시장 수요를 반영해 크기는 작지만 성능이 뛰어난 다양한 모델을 개발할 계획"이라고 말했다.

한편 ETRI는 초고속 생성형 시각지능 모델을 이미지 생성 서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전할 계획이다. 이준기기자 bongchu@dt.co.kr

디지털타임스

IT/과학

문장 입력 2초 만에 이미지 생성…오픈AI보다 빠른 `K-생성형 시각지능` 나왔다