서울과학기술대학교 임경태 교수팀, 텍스트·이미지 동시 처리하는 최초의 한국어 특화 LMM ‘Bllossom-V 3.1’ 공개

2024. 9. 13. 11:47
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

서울과학기술대학교(이하 서울과기대) 멀티모달 언어처리 연구실(MLP) 임경태 교수팀이 HuggingFace 리더보드를 통해 지난 9월 4일 최초의 한국어 특화 시각-언어모델인 'Bllossom-V 3.1'을 공개했다고 밝혔다.

해당 모델은 서울과기대와 테디썸이 공동 구축한 언어모델인 'Bllossom'을 기반으로 이미지 처리를 위한 추가적인 훈련과정을 거쳐 개발된 시각-언어모델이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

서울과학기술대학교(이하 서울과기대) 멀티모달 언어처리 연구실(MLP) 임경태 교수팀이 HuggingFace 리더보드를 통해 지난 9월 4일 최초의 한국어 특화 시각-언어모델인 ‘Bllossom-V 3.1’을 공개했다고 밝혔다.

해당 모델은 서울과기대와 테디썸이 공동 구축한 언어모델인 ‘Bllossom’을 기반으로 이미지 처리를 위한 추가적인 훈련과정을 거쳐 개발된 시각-언어모델이다. 한글과 영어 두 가지 언어를 지원하며 텍스트뿐만 아니라 이미지까지 처리 가능하다. 이번 Bllossom-V 3.1의 공개는 HuggingFace 최초의 한국어 특화 LMM을 선보였다는 데 의미가 크다.

최초의 한국어 특화 LMM인 Bllossom-V 3.1 개발에 핵심적 역할을 한 데이터는 과학기술정보통신부가 주최하고 한국지능정보사회진흥원(NIA)에서 주관해 진행된 ‘문서 생성 및 정보 검색 데이터’ 과제를 통해 제작됐다. 해당 과제는 멀티모달 데이터 전문기업 미디어그룹사람과숲(이하 사람과숲)이 총괄로 참여해 유클리드소프트와 함께 전문성 있는 고품질 데이터를 구축했다.

또한 Bllossom-V 3.1은 서울과기대와 테디썸이 공동 개발한 계층연결(Layer Aligning) 방법을 적용한 대량의 한국어, 영어 사전학습을 완료한 모델로 2개 국어를 안정적으로 지원한다. 추가로 연구팀에서 직접 구축한 MVIF 한국어-영어 병렬 시각 말뭉치 데이터를 적용해 영어 성능의 하락 없이 한국어 성능을 대폭 향상시켰다는 평가를 받았다. 시각-언어 모델의 사전학습을 위해 필요한 방대한 양의 컴퓨팅 자원은 인공지능산업융합사업단(AICA)의 지원을 받았다.

모델 학습용 데이터 구축 총괄을 맡았던 사람과숲 한윤기 대표는 “고품질 데이터 구축을 통해 최초의 한-영 시각-언어 공개모델을 만드는 데 일조한 것에 큰 보람을 느낀다”며 “앞으로도 다양한 용도로 활용할 수 있는 공개 데이터 제작에 기여하겠다”고 말했다.

Bllossom-V 3.1 모델은 여기 (https://huggingface.co/Bllossom/llama-3.1-Korean-Bllossom-Vision-8B)에서 만나볼 수 있다.

미디어그룹사람과숲 소개

작가주의적 개성을 가진 크리에이터들이 모여 시작된 미디어그룹사람과숲은 Visual Data에 기반한 디지털라이징, 인공지능(AI), 빅데이터, 자율주행, 가상현실(VR) 등 관련 분야에서 뛰어난 실적을 보유하고 있으며 이에 기반한 자체 기술과 서비스 개발 등 다각도의 사업 확장을 통해 글로벌 시장 진출을 추진하고 있다. 데이터를 매개로 사람 중심의 문화, 사람 중심의 기업이 되어 함께 성장하고 행복할 수 있는 기업으로 자라나고 있다.

이 뉴스는 기업·기관·단체가 뉴스와이어를 통해 배포한 보도자료입니다.

출처:미디어그룹사람과숲

보도자료 통신사 뉴스와이어(www.newswire.co.kr) 배포

Copyright © 뉴스와이어. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?