KISTI, 과학기술 특화 LLM `고니` 새 버전 공개

이준기 2024. 7. 31. 16:01
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

과학기술에 특화된 거대언어모델(LLM)의 새 버전이 나왔다.

한국과학기술정보연구원(KISTI)은 자체 개발한 과학기술 특화 생성형 거대언어모델(LLM) '고니(KONI)'의 새 버전 2종을 31일 공개했다.

두 모델은 기존 모델보다 2배 이상 많은 논문, 특허 보고서, 뉴스, 위키피디아 등 과학기술정보 관련 데이터를 활용해 학습함으로써, 추론과 글쓰기, 이해 등 다양한 작업에서 성능이 대폭 향상됐다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

추론, 글쓰기 등 성능 향상..사고력 평가서 1위
KISTI는 과학기술 특화 LLM 모델 '고니'의 새로운 버전 2종을 공개했다.

과학기술에 특화된 거대언어모델(LLM)의 새 버전이 나왔다. 지난해 12월 첫 모델에 비해 2배 이상 많은 데이터를 학습시켜 추론과 글쓰기, 이해 등 작업 성능이 크게 향상됐다. 향후 공학박사 수준으로 고도화해 연구자의 과학적 발견과 새로운 지식 창출을 돕는 '한국형 AI 모델'로 자리매김시킨다는 계획이다.

한국과학기술정보연구원(KISTI)은 자체 개발한 과학기술 특화 생성형 거대언어모델(LLM) '고니(KONI)'의 새 버전 2종을 31일 공개했다.

이번에 공개된 버전은 사전학습 LLM인 '고니-라마3-8B'와 챗모델인 '고니-라마3-8B-인스트럭트' 등 2종이다. 메타가 오픈소스로 출시한 라마3-8B(매개변수 80억개) 모델을 활용했다.

두 모델은 기존 모델보다 2배 이상 많은 논문, 특허 보고서, 뉴스, 위키피디아 등 과학기술정보 관련 데이터를 활용해 학습함으로써, 추론과 글쓰기, 이해 등 다양한 작업에서 성능이 대폭 향상됐다. 특히 한국어 LLM에 대한 종합적 사고력을 측정하는 'LogicKor' 벤치마크 리더보드에서 동일 크기 LLM 중 1위를 차지했다. 특히 8B(매개변수 80억개) 모델 크기인 고니가 70B(매개변수 700억개) 이하 LLM 중 처음으로 점수 8점을 넘어선 8.21점을 기록, 한국어 LLM에서 가장 강력한 성능을 입증했다.

KISTI는 LLM의 고질적 문제인 할루시네이션(환각현상)을 최소화하기 위해 기존 정보서비스시스템이 보유한 데이터를 활용하는 검색증강 생성기술(RAG)을 적용해 신뢰성이 향상된 질의응답 시스템을 개발했다. 아울러 과학기술 관련 법령, 규정, 지침 등을 추가 학습해 과학기술에 보다 특화된 LLM으로 성능을 높였다.

앞으로 성능을 향상시킨 다양한 모델 크기의 고니를 주기적으로 공개하고, 국방, 전력, 정책 등에 특화된 LLM도 개발·보급할 방침이다. 고니는 AI 오픈소스 플랫폼 '허깅스 페이스'와 KISTI의 AI데이터 공유·활용 서비스 'AIDA'에서 내려받아 활용할 수 있다.

이경하 KISTI 초거대AI연구단장은 "새로운 버전의 고니는 과학기술과 산업분야를 포함하는 다양한 분야에서 과학기술정보 유통과 분석 체계를 혁신적으로 개선하는 데 기여할 것"이라며 "고니 기반의 자율 연구자 AI로 발전시켜 연구자의 과학적 발견을 지원하는 에이전트로 활용해 나갈 계획"이라고 말했다.이준기기자 bongchu@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?