"AI가 정보 유출없이 문서 4000자 작성" 중소기업이 만든 '코난 LLM'
보고서 초안 생성 특화 B2B∙B2G 거대언어모델 표방
[서울=뉴시스] 오동현 기자 = 인공지능(AI) 소프트웨어 전문기업 코난테크놀로지가 자체 개발 대규모 언어모델 'Konan LLM'(코난 LLM)을 최초 공개했다.
코난테크놀로지는 17일 오전 서울 여의도 콘래드 호텔에서 기자간담회를 열고 보안과 비용 효율성을 강점으로 내세운 '코난 LLM'을 발표했다.
임완택 코난테크놀로지 전략기획본부장은 "보안 우려와 고객 비용 부담은 덜고 답변 신뢰성은 높일 수 있는 최적화된 모델을 개발해 냈다"며 "코난 LLM은 한국어 특성에 기반한 구조로 답변 성능이 매우 뛰어나고 보고서 초안 생성에 특화된 B2B(기업 간 거래)∙B2G(기업과 정부 간 거래) LLM을 표방한다"고 설명했다.
이 회사가 강조한 코난 LLM의 차별점은 ▲국내 최다 학습 토큰 ▲20억 건에 달하는 양질의 문서기반 데이터 ▲벡터검색 기술이다.
코난 LLM은 보안을 강점으로 내세운다. 기업 전용 LLM을 온프레미스(On-premise)로 제공해 기업 내부 데이터 유출을 막겠단 전략이다. 온프레미스형 LLM은 회사의 기밀이 외부로 유출되거나 LLM 학습에 회사의 데이터가 사용되는 것을 원천적으로 방지할 수 있기 때문에 보안에 대한 우려가 없다는 것이 회사 측의 설명이다.
또한 벡터 검색 기반의 '코난 서치'(Konan Search)가 연동돼 답변과 함께 명확한 근거 및 출처가 '참고문서' 형태로 제시된다. 이를 통해 잘못된 정보를 내놓는 할루시네이션(환각)을 줄인다. 코난은 자체 개발한 디스크 기반 벡터 검색 기술을 상용화했으며, 10억 건 이상의 문서에서 결과를 도출해내는 하이엔드 검색 기술을 축적했다.
코난 LLM은 전체 토큰 4920억 개, 한국어 토큰 2840억 개를 학습했다. 11월께 내놓을 모델에는 전체 학습 토큰 7000억 개, 한국어 토큰 3220억 개가 쓰인다. 파라미터는 각각 131억 개, 410억 개 버전으로 제공된다. 오픈AI의 GPT 3.5가 1750억 개, 네이버 하이퍼클로바가 2040억 개인 것과 비교하면 차이가 크다.
임 본부장은 "코난은 LLM의 고비용 이슈를 해결하기 위해 학습 토큰은 많이, 파라미터 크기는 줄이는 방식을 택하며 비용 효율성을 달성했다"며 "코난 LLM의 토큰 규모는 국내 최대 수준이다. 오픈소스 기반의 라마2(LLAMA2)보다 한국어를 270배 많이 학습했다"고 강조했다.
코난테크놀로지는 자체 데이터를 보유하고 있다. 2007년부터 국내외 데이터를 실시간 수집·분석해온 온라인 미디어 심화 분석 서비스 '펄스케이(PulseK)를 통해 약 205억 개 문서를 자체 확보했다. 이 중 트위터나 뉴스 댓글 등 단문을 제외한 20억 건을 학습에 사용했다.
임 본부장은 "LLM을 개발하기 위해서는 최소 1000억 개 이상의 토큰을 확보할 수 있는 양질의 문서를 가지고 있어야 하며, 좋은 글을 생성하고 글의 내용을 채울 정보와 지식도 모두 토큰에서 나온다"면서 "학습 토큰이 많을수록 뛰어난 성능을 지닌 LLM을 개발할 수 있으며, 토큰의 원천이 되는 문서 자체의 품질 또한 매우 중요한 이유"라고 설명했다.
코난 LLM은 문서를 다루는 모든 기업의 ▲문서 초안 생성 ▲문서 요약 ▲질의응답을 지원한다. 문서 초안 생성에 집중해 파인튜닝(미세조정)함에 따라 각종 문서, 보고서, 보도자료 등의 초안을 빠르고 손쉽게 생성해주는데 최적화됐다. 간단한 프롬프트 만으로 4000자 분량의 문서를 만들어내고, 문서 생성 중 추가적인 질의, 첨삭 및 참고자료 생성도 동시에 수행한다.
코난 LLM은 오픈소스 모델보다 한번에 긴 글을 생성할 수 있는 능력이 뛰어나다. 코난 LLM의 파라미터 410억 개 버전은 한번에 처리할 수 있는 토큰이 4000개다. 라마2에서 생성되는 한국어 단어 숫자는 코난 LLM의 20% 정도에 불과하다.
김영섬 코난 대표이사는 "생성형 AI시장에 빠르게 대응하고자 기술 개발과 장비 투자를 이어 왔고 이 자리에서 노력의 결실을 공개하게 돼 기쁘다"며 "앞으로도 기술 고도화에 매진하겠다"고 전했다.
한편 코난테크놀로지는 1999년 설립 이후 20년 넘게 AI 원천 기술을 축적해왔으며 최근엔 자체 개발 LLM을 보유하게 됐다. 코난테크놀로지는 국내 생성형 AI 시장을 선도하기 위해 지분 20.77%를 보유한 2대주주 SK텔레콤과도 협력을 이어가고 있다.
☞공감언론 뉴시스 odong85@newsis.com
Copyright © 뉴시스. 무단전재 및 재배포 금지.
- 김혜경 벌금형 선고에…이재명 "아쉽다" 민주 "검찰 비뚤어진 잣대"
- '마약 투약 의혹' 김나정 누구? 아나운서 출신 미스맥심 우승자
- "김병만 전처, 사망보험 20개 들어…수익자도 본인과 입양딸" 뒤늦게 확인
- 채림, 전 남편 허위글에 분노 "이제 못 참겠는데?"
- "패도 돼?"…여대 학생회에 댓글 단 주짓수 선수 결국 사과
- [단독]'김건희 친분' 명예훼손 소송 배우 이영애, 법원 화해 권고 거부
- "월급 갖다주며 평생 모은 4억, 주식으로 날린 아내…이혼해야 할까요"
- 배우 송재림, 오늘 발인…'해품달'·'우결' 남기고 영면
- 이시언 "박나래 만취해 상의 탈의…배꼽까지 보여"
- '살해, 시신 훼손·유기' 軍장교, 38세 양광준…머그샷 공개