[영상]문장 입력 2초 만에 사진 '뚝딱'…샘 올트먼 AI 보다 빨랐다

한국전자통신연구원, '생성형 시각 AI' 만들어 대중에 공개
'달에서 말타는 우주비행사' 명령하자…곧바로 이미지 생성

'Astronaut riding a horse on the moon(달에서 말 타는 우주비행사).'

26일 한국전자통신연구원(ETRI) 연구진이 개발한 '생성형 시각 AI(인공지능)' 코알라(KOALA)에 이처럼 명령어를 입력하자 5초 만에 이미지를 만들어냈다. 오픈AI가 개발한 '달리(DALL-E)3'가 같은 작업을 하는 데 걸린 시간은 12초를 넘었다. 오픈AI는 샘 올트먼이 창업해 챗GPT를 탄생시킨 세계적 기업이다.

한국전자통신연구원(ETRI)이 개발한 생성형 시각 AI(인공지능)에 '달에서 말을 타는 우주비행사'라는 프롬프트(명령어)를 입력하자 5초 만에 만들어낸 이미지. / 사진=한국전자통신연구원

이용주 ETRI 시각지능연구실장 연구팀은 이날 코알라 3종 모델을 일반에 공개했다. 코알라 3종은 프롬프트(명령어)를 입력하면 이미지를 자동 생성하는 AI 모델이다. 미국 기업 스태빌리티 AI(Stability AI)가 공개한 소프트웨어 모델을 개량해 만들었다.

연구팀은 기존 파라미터(매개변수) 25억개를 지식 증류기법으로 경량화해 7억개로 줄였다. 파라미터 개수가 많으면 연산량이 많아 시간이 오래 걸리고 서비스 운영 비용이 증가한다.

이에 연구팀은 모델 크기를 3분의 1로 축소했고 고해상도 이미지 처리속도를 기존 대비 평균 2배, 최대 5배 이상 높였다. 실제로 같은 이미지 작업을 명령한 결과 코알라 1.6초, 칼로(카카오브레인) 3.8초, 달리3(오픈AI) 13.7초가 걸렸다.

달 아래 화성에서 책을 읽고 있는 우주비행사의 사진을 만들어달라고 명령을 내리자 코알라가 2초 만에 이미지를 생성했다. 반면 샘 올트먼이 개발한 오픈AI의 달리(DALL-E) 3는 같은 작업에 13초가 넘게 걸렸다.

이 생성형 시각 AI는 저용량 메모리를 갖는 그래픽처리장치(GPU)로 구동할 수 있다. 8GB(기가바이트)에도 정상 작동하며 자체 서버를 통해 빠르게 연산 가능하다는 게 연구팀의 설명이다. 연구팀이 개발한 모델은 실제 중소기업이 활용할 수 있는 수준인 것으로 평가된다.

이용주 실장은 "글로벌 연구를 통해 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 AI 기술을 효과적으로 활용할 기회를 제공할 예정"이라며 "앞으로 저용량으로 구동할 수 있는 우수 생성형 AI 모델을 만들어 나가겠다"고 밝혔다.

연구팀은 이날 코알라뿐만 아니라 대화형 시각언어모델 코라바(Ko-LLaVa) 모델도 공개했다. 코라바는 대화형 AI에 시각지능 기술을 더한 모델이다. 라바(LLaVA) 모델은 ETRI 연구팀과 미국 위스콘신대가 공동 개발했다. 코라바는 이미지나 동영상에 관해 한국어로 설명을 부탁하면, AI가 곧바로 응답하는 능력을 지녔다.

대화형 시각언어모델 코라바(Ko-LLaVa)에 '이 비디오에서 무슨 활동을 하고 있나요?'라고 묻자 자세한 설명이 붙었다. / 사진=한국전자통신연구원

김인한 기자 science.inhan@mt.co.kr

머니투데이

IT/과학

[영상]문장 입력 2초 만에 사진 '뚝딱'…샘 올트먼 AI 보다 빨랐다