[과학]KISTI, 국산 생성형 언어모델 '고니' 선보여…중소기업·공공기관 LLM 수요 대응

김영준 2023. 12. 20. 10:21
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

한국과학기술정보연구원(KISTi·원장 김재수)이 국산 생성형 거대 언어모델(LLM)을 선보인다.

김재수 원장은 "출연연, 공공기관, 중소기업을 포함한 다양한 과학기술·산업 분야 LLM 수요에 대응하는 한편, 외부 협력 체계 구축에 따른 학습 데이터 확보 및 사용자 피드백을 반영으로 모델 성능을 지속적 개선할 예정"이라며 "KISTI의 국가과학기술데이터 서비스 분야에서도 고니를 통해 과학기술정보 유통·분석 체계를 획기적으로 개선해 일반 대중과 전문과학자 모두 활용할 수 있는 공학박사 수준 AI 정보 서비스 체계를 구축해 나갈 것"이라고 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

생성형 언어 모델 고니(KONI : KISTI Open Natural Intelligence) 심볼

한국과학기술정보연구원(KISTi·원장 김재수)이 국산 생성형 거대 언어모델(LLM)을 선보인다.

KISTI는 과학기술데이터에 특화되고, 정부출연연구기관(출연연) 및 공공기관 등에 쉽게 활용가능한 LLM '고니(KONI:KISTI Open Natural Intelligence) 13b'를 개발했다고 20일 밝혔다.

챗GPT와 같은 LLM은 사용자 질의에 풍부한 답변을 할 수 있어 많은 관심을 받고 있다. 국내에서도 대기업 중심으로 여러 LLM들이 개발됐다. 하지만 정보 보안 등 문제를 중요시하는 출연연 및 공공기관, 비용 문제로 도입을 망설이는 중소기업은 활용하기 어려웠다.

이에 KISTI는 정보 유출에 안전하면서 다양한 과학기술·산업 분야에 특화되고, 기존 LLM의 할루시네이션(환각현상)까지 최소화한 고니를 개발했다.

기관 내 자체 설치해 활용하면 되기에 보안 문제에서 자유롭다. 또 PEFT(Parameteric Efficient Fine Tuning) 기법을 도입해 파인튜닝(데이터 추가 훈련으로 LLM 능력을 높이는 것) 전산비용을 줄이면서, 다양한 분야 수요에 대응할 수 있도록 분야별 어댑터 형식의 파인튜닝을 적용했다.

환각현상은 검색 증강생성기술(RAG) 적용이 쉽도록 개발, 최소화할 수 있었다.

KISTI는 현재 130억개 수준인 파라미터를 더 늘리고, 학습 데이터 또한 추가 확보해 성능을 지속 향상시킬 계획이다.

김재수 원장은 “출연연, 공공기관, 중소기업을 포함한 다양한 과학기술·산업 분야 LLM 수요에 대응하는 한편, 외부 협력 체계 구축에 따른 학습 데이터 확보 및 사용자 피드백을 반영으로 모델 성능을 지속적 개선할 예정”이라며 “KISTI의 국가과학기술데이터 서비스 분야에서도 고니를 통해 과학기술정보 유통·분석 체계를 획기적으로 개선해 일반 대중과 전문과학자 모두 활용할 수 있는 공학박사 수준 AI 정보 서비스 체계를 구축해 나갈 것”이라고 밝혔다.

한편, KISTI는 과학기술·산업 분야 초거대 AI를 구축·활용할 수 있도록 산·학·연·관·군 생태계를 구축하고 확산 노력을 강화할 예정이다.

김영준 기자 kyj85@etnews.com

Copyright © 전자신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?