[AI시대, 가치 네트워크에 주목하라] 한국 과학기술 특화 `고니` 공개… 확장되는 가치 네트워크

(10) 과학 현장도 AI 물결
KISTI, LLM 새 버전 2종 공개
학습량 2배 늘려 추론·작문 향상
RAG기능으로 환각현상 최소화

오픈AI의 '챗GPT'를 비롯한 생성형 인공지능(AI)이 폭발적인 관심을 모으며 산업 판도를 바꾸는 가운데 과학기술과 연구개발 현장의 풍경도 AI가 180도 바꿔놓고 있다. 생성형 AI는 최근 법률, 세무, 금융, 연구 등 도메인별 특화된 대규모언어모델(LLM) 개발과 서비스가 잇따라 출시되고 있으며, 텍스트뿐 아니라 음성, 이미지, 영상까지 처리·분석하는 고성능 멀티모달 AI 모델로 진화해 가고 있다.

그러나 정보 보안에 민감한 정부출연연구기관, 공공기관은 물론 전산 자원이 부족한 중소기업들은 LLM 도입과 활용에 어려움이 있다. 최근의 LLM은 기본적으로 다국어 코퍼스(말뭉치)로 학습된 것이 대다수를 차지한다. 하지만 한국어 코퍼스 활용 비중이 매우 낮아 한국어에 기반한 LLM 개발뿐 아니라 과학기술 분야 등 특정 도메인에 특화된 소형거대언어모델(sLLM)의 필요성이 커지고 있다.

◇LLM 활용한 '연구 자동화' 성큼…과학적 발견과 난제 해결 돕는 AI

과학기술 분야에서는 세계적으로 학술저널과 논문, 특허출원 등이 폭발적으로 급증하면서 과학기술 정보 분석과 활용 등에 초거대 AI 기술을 활용하기 위한 움직임이 빨라지고 있다. 기존 데이터 기반의 4세대 연구에서 데이터·AI 기반의 5세대 연구로 패러다임이 전환되면서 AI 기술은 사람의 능력으로 불가능했던 새로운 발견과 문제 해결을 위한 혁신 도구로 역할을 확대하고 있다.

지난해 12월에는 미국 카네기멜론대 연구팀이 LLM를 활용해 새로운 화학물질을 만들기 위한 실험을 AI를 활용해 설계·계획·수행하는 '코사이언티스트(협력과학자) 시스템'을 개발해 눈길을 끌었다. 이 시스템은 관련 논문과 참고문헌을 검색·분류해 정리한 뒤, 클라우드로 연결된 로봇 시스템을 활용해 24시간 쉬지 않고 자율적으로 실험을 진행하며, 화학적 촉매 반응을 일으키는 실험에도 성공했다.

미국 버클리대 연구팀은 텍스트마이닝 기법을 이용해 원하는 물질의 제조법을 파악한 뒤 실험실 내 로봇을 조정해 제조토록 하는 '자율 실험실'을 구축하기도 했다. 구글 딥마인드는 AI를 활용해 단백질의 3차원 구조를 예측하고 모델링하는 '알파폴드'를 고도화하면서 세상에 존재하는 혁신 신약 개발 기간과 비용을 절감하는 데 기여하고 있다.

이처럼 LLM은 생명과학과 자연과학, 공학 등 과학기술 전반에 걸쳐 연구생산성과 효율성을 높이는 데 실질적인 도움을 주고 있다. 이 가운데 방대한 양의 연구정보를 데이터와 AI 기반의 연구를 통해 자동 추출·분석·추론함으로써 과학기술적 난제 해결과 과학기술 산업 혁신을 위한 초거대 AI 기술 확보와 시장 선점 경쟁이 거세지고 있다.

◇과학기술 특화 생성형 LLM '고니'…환각현상 최소화

A: "너는 요즘 무엇을 이용해 과학기술정보를 찾니?"

B: "챗GPT 등 생성형 AI를 자주 이용하지. 그런데, 챗GPT는 간혹 잘못된 정보를 찾아줘 골치가 아파."

A: "'고니(KONI)'라고 들어봤어? 난 요즘 이걸 자주 이용해. 과학기술 분야에 특화된 거대언어모델(LLM)이거든."

B : "보유한 데이터에 기반해 답변을 제공해 주는 '검색증강생성기술(RAG)'을 적용해 챗GPT보다 잘못된 정보를 최소화해 유용한 거 같아."

한국과학기술정보연구원(KISTI)이 지난해 12월 공개한 LLM 'KONI(KISTI Open Natural Intelligence·한글명 고니)'는 과학기술 데이터에 특화된 생성형 LLM이다. KISTI는 고니 13b를 처음 선보인 데 이어 오픈소스로 공개한 이후 지난달 성능을 높인 고니 새 버전 2종을 공개했다.

KISTI는 과학기정보 서비스 전문 연구기관으로, 국가슈퍼컴퓨터와 초고속네트워크연구망 등 국가 R&D 연구를 위한 전산 자원과 1억9000만건 이상의 방대한 과학기술정보·데이터, AI 모델 기술을 보유하고 있다. 여기에 과학기술정보포털(사이언스 온), 국가과학기술지식정보서비스(NTIS) 운영 등을 통해 LLM 개발에 필요한 최적의 과학기술 데이터와 인프라, AI 기술을 확보하고 있다.

이번에 공개된 고니는 첫 모델에 비해 2배 이상 많은 데이터를 학습시켜 추론, 글쓰기, 이해 등 LLM 작업 성능을 크게 향상시켰다. 새로 공개된 버전은 사전학습 LLM인 '고니-라마3-8B'와 챗모델인 '고니-라마3-8B-인스트럭트' 등 2종이다. 메타가 오픈소스로 출시한 '라마3-8B'(매개변수 80억개)모델을 기반으로 과학기술 관련 법령, 규정, 지침으로 다양한 피드백을 수집해 추가 학습에 활용함으로써 성능을 높였다.

두 모델은 기존보다 2배 많은 논문, 저널, 특허, 뉴스, 위키피디아 등 과학기술정보 데이터를 학습해 추론과 글쓰기 등 다양한 작업에서 대폭 향상된 성능을 발휘한다. 특히 한국어 LLM에 대한 종합적 사고력을 측정하는 'LogicKor' 벤치마크 리더보드에서 동일 크기 LLM 중 1위를 차지했다.8B(매개변수 80억개) 모델 크기인 고니가 70B(매개번수 700억개) 이하 중 LLM 중 처음으로 8점을 넘어선 8.21점을 기록, 한국어 LLM에서 가장 강력한 성능을 발휘한다는 것을 증명했다.

KISTI는 LLM의 문제점으로 제기돼 온 할루시네이션(환각현상)을 검색증강 생성기술(RAG)을 적용해 최소화했다. RAG 기술은 기존 정보서비스 시스템이 보유한 데이터를 활용하기 때문에 신뢰성 있는 답변을 제공한다. 향후 공학박사 수준으로 고도화해 연구자의 과학적 발견과 새로운 지식 창출을 돕는 '한국형 AI 모델'로 자리매김시킨다는 게 KISTI의 계획이다.

앞으로 성능을 향상시킨 다양한 모델 크기의 고니를 주기적으로 공개하고, 국방, 전력, 정책 등에 특화된 LLM도 개발·보급할 방침이다. 고니는 AI 오픈소스 플랫폼 '허깅 페이스'와 KISTI의 AI데이터 공유·활용 서비스 'AIDA'에서 내려받아 활용할 수 있다.

이준기기자 bongchu@dt.co.kr

디지털타임스

IT/과학

[AI시대, 가치 네트워크에 주목하라] 한국 과학기술 특화 `고니` 공개… 확장되는 가치 네트워크