‘달리3′ 보다 5배 빠른 생성형 AI, 한국 연구진이 만들었다

송복규 기자 2024. 1. 26. 16:14
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장만 넣으면 2초 만에 그림을 만드는 기술을 공개한다.

이용주 ETRI 시각지능연구실장은 "생성형 AI 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획"이라며 "글로벌 연구로 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 AI 기술을 효과적으로 활용할 기회를 제공할 것"이라고 말했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

ETRI, AI 모델 ‘코알라’·'코라바’ 공개
기존보다 이미지 생성 5배 빨라
멀티모달 모델 기반 서비스 만들어 기업에 이전
기존보다 5배 빠르게 문장으로 이미지를 만드는 ‘코알라(KOALA)’ 3종과 이미지나 영상으로 질의응답 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종을 공개한 한국전자통신연구원(ETRI) 연구팀./한국전자통신연구원

국내 연구진이 생성형 인공지능(AI)과 시각지능 기술을 결합해 문장만 넣으면 2초 만에 그림을 만드는 기술을 공개한다. 연구팀은 새로 개발한 AI 기술을 중소기업에 이전해 산업 생태계를 조성할 계획이다.

한국전자통신연구원(ETRI)은 기존보다 5배 빠르게 문장으로 이미지를 만드는 ‘코알라(KOALA)’ 3종과 이미지나 영상으로 질의응답 할 수 있는 대화형 시각언어모델 ‘코라바(Ko-LLaVA)’ 2종 총 5종의 모델을 공개한다고 26일 밝혔다.

코알라 모델은 기존 공개 모델인 ‘스테이블 디퓨전 XL’의 25억 개 파라미터를 지식 증류 기법으로 7억 개로 대폭 줄였다. 지식 증류 기법은 큰 모델의 정보를 작은 모델로 전달하는 경량화 기법이다. 파라미터 수가 크면 연산량이 많아 시간이 오래 걸리고 운영 비용이 늘어나는데, 이를 해결한 것이다. 모델 크기가 작아진 코알라의 성능은 ‘달리(DALL-E)3′보다 5배 정도 빠르다.

코알라가 이미지를 생성하는 시간은 2초 내외다. 실제로 연구팀이 “달 아래 화성에서 책을 읽고 있는 우주비행사의 사진”이라는 문장을 입력하자 1.6초 만에 이미지가 생성됐다. 카카오브레인의 칼로는 3.8초, 오픈AI의 달리3이 13.7초가 걸린다는 점을 고려하면 성능이 대폭 향상된 것이다. 특히 코알라는 모델 크기가 대폭 줄어 8GB 저용량 메모리의 저가 그래픽처리장치(GPU)에서도 구동된다.

한국전자통신연구원(ETRI) 연구팀이 공개한 인공지능(AI) 모델 '코알라'로 만든 이미지./한국전자통신연구원

ETRI는 자체 개발한 코알라 3종 모델을 허깅페이스(Hugging Face) 환경에 공개했다. 허깅페이스는 딥러닝 모델을 쉽게 공유하고 사용할 수 있도록 하는 생태계를 말한다. 또 앞서 공개한 스테이블 디퓨전 모델과 칼로, 달리2, 달리3를 포함한 총 9개 모델을 비교 체험할 수 있는 사이트를 만들었다.

연구팀은 대화형 AI에 시각지능 기술을 합쳐 이미지나 비디오를 불러와 한국어로 대화할 수 있는 코라바 모델도 공개했다. 앞서 미국 메디슨 위스콘신대 연구팀과 함께 개발한 ‘라바(LLaVA)’ 모델을 기반으로 한글을 이해하고 비디오를 해석할 수 있는 확장 연구를 진행했다.

한국어 기반 소형 언어 생성 모델 ‘KEByT5′도 공개했다. 이 모델은 신조어와 학습되지 않은 단어를 처리할 수 있는 기술이 적용됐다. 학습 속도는 2.7배 이상, 추론은 1.4배 이상 강화됐다. 연구팀은 문장 위주의 생성형 모델에서 멀티모달 모델로 AI 시장이 변화하면서 크기가 작고 효율적인 모델이 주류를 이룰 것이라고 판단했다.

연구팀은 시각과 청각을 포함한 여러 인터페이스로 정보를 주고받고 크기는 작은 ‘멀티모달 모델’로 중소기업의 이용을 늘리고 관련 시장의 생태계를 조성할 계획이다. ETRI는 공개된 모델을 기반으로 이미지 생성서비스, 창작 교육 서비스, 콘텐츠 제작 등을 기업들에 기술이전 할 예정이다.

이용주 ETRI 시각지능연구실장은 “생성형 AI 기술의 다양한 시도를 통해 크기는 작지만, 성능이 뛰어난 다양한 모델을 공개할 계획”이라며 “글로벌 연구로 기존 거대모델에 대한 의존성을 탈피하고 국내 중소기업이 AI 기술을 효과적으로 활용할 기회를 제공할 것”이라고 말했다.

이용재 미국 메디슨 위스콘신대 교수는 “라바 프로젝트를 총괄하며 GPT-4에 맞서 오픈 소스 기반의 시각언어모델 연구를 통해 더 많은 사람이 활용할 수 있는 연구를 진행했다”며 “ETRI와 국제공동연구를 통해 멀티모달 생성 모델에 관한 연구도 지속할 예정”이라고 강조했다.

이번 연구는 과학기술정보통신부와 정보통신기획평가원의 ‘한국어 대형 언어모델 기술개발사업’의 지원을 받았다.

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?