2초만에 이미지 '뚝딱'…ETRI, 초고속 생성형 시각지능기술 공개

연구팀이 문장을 입력해 이미지를 만드는 코알라(KOALA) 모델을 시연하고 있다. ETRI 제공

한국전자통신연구원(ETRI)이 생성형 인공지능과 시각지능 기술을 결합해 문장 입력 후 2초 만에 이미지를 만드는 기술을 일반에 공개한다.

ETRI는 오픈AI의 달리3(DALL-E 3)보다 이미지 생성 속도가 5배 빠른 '코알라(KOALA)' 3종 모델과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 '코라바(Ko-LLaVa)' 2종 등 총 5종 모델을 일반에 공개한다고 26일 밝혔다.

'코알라' 모델은 파라미터를 7억 개로 줄인 모델이다. 파라미터는 사람 뇌의 시냅스에 해당한다. 숫자가 클수록 성능이 높지만 연산량이 많아 작동 시간이 오래 걸리고 서비스 운영 비용도 증가한다. 연구팀은 모델 크기를 기존의 3분의 1로 축소했다. 고해상도 이미지를 기존 대비 2배, 달리3 대비 5배 가량 빠르게 개선했다.

모델 생성 속도를 2초 내외로 만들고 모델의 크기도 대폭 줄였기 때문에 8기가바이트(GB) 저용량의 메모리를 갖는 저가 그래픽처리장치(GPU)에서도 구동할 수 있다는 설명이다.

연구팀이 '달 아래 화성에서 책을 읽고 있는 우주비행사의 사진'이라는 문장을 입력하자 코알라는 1.6초 만에 이미지를 뚝딱 만들어 냈다. 칼로(카카오브레인)는 3.8초, 달리2(오픈AI)는 12.3초, 달리 3(오픈AI)는 13.7초가 걸렸다.

ETRI는 기존 공개 소프트웨어(S/W)인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로, 달리2, 달리3의 4종을 포함, 총 9개 모델을 직접 비교 체험해 볼 수 있는 사이트 모델 비교 체험 사이트를 만들어 공개했다.

챗GPT와 같은 대화형 인공지능에 시각지능 기술을 더해 한국어로 이미지나 비디오에 관해 질의응답할 수 있는 대화형 시각언어모델인 ‘코라바(Ko-LLaVA)’모델도 함께 공개했다. 미국 위스콘신대학교 매디슨과 ETRI 연구진이 공동으로 개발한 '라바' 모델의 한국어 확장판이 코라바 모델이다. 라바 모델은 GPT-4 수준의 이미지 해석 능력을 지닌 오픈소스 라바(Large Language and Vision Assistant)를 활용해 개발됐다. 한글을 더욱 잘 이해하고 기존에 없는 비디오 해석을 할 수 있도록 확장 연구를 진행했다.

자체 개발한 한국어 기반 소형 언어 이해-생성 모델 'KEByT5'도 사전 공개했다. 공개한 모델에는 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용했다. 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화했다.

ETRI는 "수천 대의 서버가 필요한 큰 모델 대신 중소기업이 활용할 수 있는 모델을 개발해 관련 시장 생태계를 조성하려는 목적으로 모델을 공개했다"고 설명했다. 기술을 일반에 공개한 뒤 이미지 생성서비스, 창작교육 서비스, 콘텐츠 제작 및 사업자 등에 기술이전 할 예정이다.

이용주 시각지능연구실장은 "향후 생성형 인공지능 기술의 다양한 시도를 통해 크기는 작지만 성능이 뛰어난 다양한 모델을 공개할 계획"이라며 "글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공할 것"이라고 밝혔다.

[박건희 기자 wissen@donga.com]

동아사이언스

IT/과학

2초만에 이미지 '뚝딱'…ETRI, 초고속 생성형 시각지능기술 공개