[주니어전자]한국판 '딥시크' 나오나?…국내 연구진, 저비용·고효율로 한국어 LLM 개발 가능성 입증
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
거대 언어 모델(LLM) 인공지능(AI)를 개발하려면 엄청난 돈, 시간, 인력을 투입해야 합니다.
그런데 우리나라 연구진이 천문학적 비용을 들이지 않고도 고성능 한국어 '거대 언어 모델(LLM)'을 개발할 수 있음을 보여줬어요.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
서울대 연구진 ‘고성능 한국어 LLM’ 개발

거대 언어 모델(LLM) 인공지능(AI)를 개발하려면 엄청난 돈, 시간, 인력을 투입해야 합니다. 그런데 우리나라 연구진이 천문학적 비용을 들이지 않고도 고성능 한국어 '거대 언어 모델(LLM)'을 개발할 수 있음을 보여줬어요.
LLM은 방대한 양의 텍스트 데이터를 학습해 인간 언어를 이해하고 생성하는 AI 모델이예요.
기존 영어 기반의 LLM을 효율적인 방법으로 개량해 적은 비용만으로도 고성능 한국어 LLM 개발이 가능하다는 걸 입증한 거죠. 주인공은 서울대학교 데이터사이언스대학원 이재진 교수 연구팀입니다.
한국연구재단은 이재진 교수 연구팀이 영어 기반 언어 모델인 '라마(Llama)'를 개량해 △한국어에 특화된 언어 모델인 'Llama-Thunder-LLM' △한국어 전용 토크나이저 'Thunder-Tok' △한국어 LLM 성능을 객관적으로 평가하는 'Thunder-LLM 한국어 벤치마크'를 개발했다고 밝혔어요.
토크나이저는 문장을 언어 모델이 이해할 수 있는 단위인 '토큰'으로 쪼개는 도구이고, 벤치마크는 특정 기준과 비교해 성능을 측정하고 평가하는 도구를 의미합니다.
원래 한국어 뿐만 아니라 각 나라 언어에 특화된 LLM을 만들려면 개발에 막대한 비용이 들어요. LLM을 학습시키는 데 필요한 데이터를 구하기 어렵다는 한계도 있죠. 그래서 LLM을 개발한 세계 대부분의 기업들은 돈이 많거나 풍부한 데이터를 가지고 있는 대기업과 해외 빅테크 기업인 거예요. 중소 연구기관이나 대학이 LLM을 연구개발하는 것은 여전히 쉽지 않아요.
그런데 이번에 우리나라 연구팀은 데이터 수집부터 사후 학습까지 언어 모델 학습의 모든 단계를 자체 진행하며, 중국 LLM 모델 '딥시크(DeepSeek)'처럼 제한된 자원으로 고성능 언어 모델을 구축할 수 있다는 점을 입증했어요.
공개된 영어 모델을 활용했지만, 적용한 기술은 독자적인 모델 개발에 필요한 모든 기술을 넣었어요. 이는 연구팀이 고성능 독자 언어 모델을 개발할 수 있는 기술 역량을 갖추고 있음을 보여주는 것이죠.
연구팀이 개발한 Llama-Thunder-LLM은 3테라바이트(TBB, 1TB=1024GBGB) 크기의 한국어 웹 데이터를 수집·전처리한 다음 라마 모델에 연속 학습과 사후 학습 등의 개량 기법을 적용한 한국어 특화 LLM이예요. 연속 학습은 기존 모델에 새로운 데이터를 추가로 학습시켜 능력을 확장하는 과정이고, 사후 학습은 사용자의 질문·응답 등으로 추가 미세조정하는 학습 과정입니다.
한국어의 문법적 특성을 반영한 토크나이저 Thunder-Tok은 기존 라마 토크나이저 대비 토큰 수를 약 44% 절약해 추론 속도 및 학습 효율성을 높였다고 해요. 토큰 수를 줄이면 AI 모델을 운영하는 데 들어가는 비용이 줄일 수 있거든요.
연구팀이 자체 개발한 '한국어 평가용 데이터셋'을 포함한 Thunder-LLM 한국어 벤치마크는 한국어 LLM 성능을 객관적이면서 체계적으로 평가할 수 있는 기반을 제공한다는군요.
이재진 교수는 “이번 연구는 학계도 자주적인 LLM 개발이 가능하다는 점을 입증했고 국내 소버린 AI( AI주권)에 기여한 의미 있는 결과”라며 “한국어 기반 LLM 및 토크나이저, 벤치마크 데이터셋을 온라인에 공개하고 개발 과정 또한 상세히 기술해 누구나 후속 및 재현 연구에 활용할 수 있도록 했다”고 말했어요.
이번 연구 성과는 '초거대 AI모델 및 플랫폼 최적화 센터' 누리집에 공개돼 누구나 이용할 수 있어요.
최정훈 기자 jhchoi@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- [단독] 용석우·천옌순 中서 전격회동…삼성-BOE '거래재개' 신호탄
- 오픈AI, 오라클 데이터센터 4.5GW 추가 임차…전력량 원전 4기급
- 뉴욕증시, 美-베트남 무역합의에 S&P500 최고가 경신
- 'AI 기대주' 뉴엔에이아이, 4일 코스닥 시장 '상장'
- 'AI 투자' 늘린 MS, 올해 2차 대규모 인력 감원…9000명 해고
- “들어와!”···맨몸으로 표범과 '맞짱(?)'뜬 인도 남성
- 다시 싸우는 트럼프-머스크에… 새우등 터지는 테슬라 개미들
- "탈출구는 추방뿐"...8일만에 만든 '악어늪 수용소' 들어가보니
- 충전기 꽂은 스마트폰, 베개 아래 넣고 자면 안 돼… 애플도 경고
- 트럼프, 일본에 “버릇없어” 호통… 관세 30~35% 가능성 시사