"글로 적으면 2초 만에 그림 완성" ETRI 생성형 AI 공개

이재형 2024. 1. 26. 17:19
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

문장을 입력하면 2초 만에 이미지를 완성하는 초고속 생성형 인공지능·시각지능 기술이 개발됐다.

한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는 시간이 이전보다 5배 빠른 프로그램 '코알라(KOALA)' 3종과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 '코라바(Ko-LLaVA)'2종 등 총 5가지 모델을 26일 공개했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

초고속 생성형 인공지능·시각지능 기술 소형화 주력

문장을 입력하면 2초 만에 이미지를 완성하는 초고속 생성형 인공지능·시각지능 기술이 개발됐다.

한국전자통신연구원(ETRI)은 문장을 입력해 이미지를 만드는 시간이 이전보다 5배 빠른 프로그램 ‘코알라(KOALA)’ 3종과 이미지나 영상을 불러와 질의응답을 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’2종 등 총 5가지 모델을 26일 공개했다.

허깅페이스를 통해 공개한 ‘코알라(KOALA)’ 소개 페이지. ETRI

저비용 고효율 이미지 생성 ‘코알라’

ETRI가 개발한 파라미터별 ‘코알라(KOALA)’ 모델 3종은 허깅페이스(HuggingFace) 환경에서 공개됐다. 모델별 크기는 1.7B(Large), 1B(Base), 700M(Small) 이다.

이중 코알라 700M 모델은 공개 소프트웨어 모델의 2.56B 파라미터를 지식증류 기법으로 축소해 시간과 비용을 크게 줄인 것이 특징이다.

이를 통해 ETRI 연구팀은 고해상도 이미지를 기존 대비 2배, 달리(DALL-E)3 대비 5배 가량 빠른 속도를 실현헀다.

특히 모델 생성 속도를 2초 내외로 단축시키면서도 8GB 저용량 메모리의 그래픽처리장치(GPU)에서도 구동할 수 있어 범용성을 넓혔다.

실제 연구팀이 입력한 ‘달 아래 화성에서 책을 읽고 있는 우주비행사의 사진’에 대해 코알라 700M은 1.6초 만에 이미지를 완성했다.

같은 조건에서 카카오브레인 칼로는 3.8초, 달리2는 12.3초, 달리3는 13.7초가 걸렸다.

허깅페이스를 통해 공개한 ‘코알라(KOALA)’ 데모 모델 비교. ETRI

ETRI는 공개 소프트웨어인 스테이블 디퓨전 모델 2종, 기업에서 공개한 BK-SDM, 칼로, 달리2, 달리3 등 4종을 포함, 총 9개 모델을 직접 비교 체험해 볼 수 있는 사이트를 만들어 제공하고 있다.

한국어로 대화하는 ‘코라바’

ETRI 연구팀은 챗GPT처럼 대화형 인공지능에 시각지능 기술을 더해 이미지나 비디오를 불러와 한국어로 대화할 수 있는 ‘코라바(Ko-LLaVA)’모델을 공개했다.

허깅페이스를 통해 공개한 ‘코라바(KO-LLaVA)’ 모델. ETRI

앞서 ETRI는 미국 위스콘신대학교 매디슨과 공동연구로 오픈소스 ‘라바(LLaVA)’를 개발했다.

연구팀은 이미지를 포함한 멀티모달 모델의 대안으로 떠오른 라바 모델)을 기반으로 한글을 더욱 잘 이해할 수 있고, 기존에 없는 비디오 해석을 할 수 있도록 확장 연구를 진행했다. 

아울러 ETRI는 자체 개발한 한국어 기반 소형 언어 이해-생성 모델(KEByT5)도 사전 공개했다. 

이번에 공개한 모델은 330M(Small), 580M(Base), 1.23B(Large) 3종으로, 신조어와 학습되지 않은 단어를 처리할 수 있는 토큰-프리 기술을 적용, 학습 속도는 2.7배 이상, 추론에서는 1.4배 이상 강화한 것이 특징이다.

생성형 AI 소형화 주력

ETRI는 현재 생성형 인공지능 시장이 문장 위주 모델에서 멀티모달 모델로 변화가 진행 중이며, 모델 크기도 소형화 한 효율화가 진행될 것으로 예상하고 있다.

이에 따라 ETRI는 이번에 개발한 모델의 중소기업 이용을 활성화해 관련 시장 생태계를 조성하는데 활용할 방침이다.

또 향후 생성형 AI 언어모델에 시각지능 기술이 더해진 한글 크로스모달 모델 수요가 증가할 것으로 예측했다.

이 기술은 지식증류 기반 경량화된 스테이블 디퓨전 기술을 핵심으로, 지식을 쌓은 작은 모델로 대형모델 역할을 수행할 수 있다.

생성형 시각지능 기술의 향후 발전 방향. ETRI

ETRI는 이번에 공개한 기술로 이미지생성 서비스, 창작교육 서비스 제공과 콘텐츠 제작 및 사업자에 기술을 이전할 계획이다.

아울러 세계 생성형 인공지능 연구가 문장 대화를 넘어 사진이나 영상을 활용하는 유형으로 변화되는 것에 맞춰 역구역량을 높일 예정이다.

이용주 ETRI 시각지능연구실장은 “향후 크기는 더욱 작고 성능이 뛰어난 다양한 인공지능 모델을 공개할 계획”이라며 “기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 인공지능 기술을 효과적으로 활용할 기회를 제공하겠다”고 말했다.

∗ 코알라 바로가기 : https://huggingface.co/spaces/etri-vilab/KOALA
∗ 코라바 바로가기 : https://huggingface.co/spaces/etri-vilab/Ko-LLaVA

대덕특구=이재형 기자 jh@kukinews.com

Copyright © 쿠키뉴스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?