임희석 고려대 교수, “한국어 LLM 리더보드에 주관식 평가지표 개발돼야”
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
"한국어 거대언어모델(LLM)의 성능을 공정하게 평가하기 위한 주관식 평가지표가 개발돼야 합니다."
임 교수는 한국어 LLM 리더보드가 국내 생성형 언어모델 개발 생태계와 환경 조성에 지대한 영향을 미친 만큼 새 평가지표와 데이터셋으로 신뢰할 수 있는 리더보드 운영이 필요하다고 강조했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
“한국어 거대언어모델(LLM)의 성능을 공정하게 평가하기 위한 주관식 평가지표가 개발돼야 합니다.”
임희석 고려대 컴퓨터학과 교수(NLP&AI 연구실 및 HIAI 연구소장)는 20일 한국어 LLM 평가지표 연구개발(R&D)과 주관식 평가지표를 반영하는 새로운 벤치마크 데이터셋 구축이 필요하다고 제안했다.
임 교수는 지난해 6월 국내 대학 최초로 한국어 특화 LLM 'KULLM2(구름2)'를 개발하고 글로벌 소프트웨어 개발자 플랫폼 '깃허브'에 공개한 바 있다.
임 교수는 “(LLM 성능을 평가해 순위를 매기는) LLM 리더보드 역할은 여러 인공지능(AI) 모델을 객관적으로 평가해 모델을 사용하는 사람들에게 해당 모델 성능을 알려주는 것”이라며 “개발자들에게는 자신의 모델이 어느 수준인지를 알 수 있게 해 개선된 모델을 개발하는데 도움을 준다”고 설명했다.
그러나 '한국어 LLM 리더보드(Open Ko LLM 리더보드)'는 LLM의 한국어 성능을 제대로 평가하기에는 한계가 있다고 분석했다. 현재 이 리더보드에는 약 1500개 LLM이 평가, 순위가 매겨져 있다.
임 교수는 “일반적이라면 1위를 차지하는 LLM의 한국어 이해 및 생성 성능이 가장 좋아야 한다”며 “그러나 연구실 멀티턴(여러 차례 대화가 오가는) 실험 결과 현재 리더보드 상위권 모델들의 관련 성능이 저조하고, 어떤 경우엔 특수문자 등을 더해 알아보기 힘든 답변을 하는 경우도 있다”고 말했다.
임 교수는 영어 시험 문제에 100점을 맞은 학생이 점수는 좋지만 정작 영어를 못하는 상황을 예로 들었다. 그는 “시험 문제를 잘 풀 수 있는 모델만을 만들면 나오는 결과로, 과학습(오버피팅·Overfitting)을 시키면 비교적 용이하게 1등 모델을 만들 수 있다”고 말했다.
실제로 이달 11일 한국어 LLM 리더보드를 운영하는 한국지능정보사회진흥원(NIA)과 업스테이지가 '오버피팅' 등의 문제로 새로운 평가지표를 추가하고 업그레이드 방침을 밝히기도 했다.
임 교수는 여기에 주관식 평가지표를 더하는 아이디어를 제안한 것이다. 주관식 평가지표는 한국 문화와 언어를 이해하고 한국어 질문에 서술형 문장으로 답변할 수 있는 지표다.
임 교수는 올해 4월 최신 모델인 'KULLM3(구름3)'는 Open Ko LLM 리더보드에 올리지 않고, 자체 운영하는 온라인 데모 페이지를 통해 성능을 체험해볼 수 있도록 하고 있다.
임 교수는 한국어 LLM 리더보드가 국내 생성형 언어모델 개발 생태계와 환경 조성에 지대한 영향을 미친 만큼 새 평가지표와 데이터셋으로 신뢰할 수 있는 리더보드 운영이 필요하다고 강조했다.
임 교수는 “한국어 LLM들이 필요한 기업·기관에선 리더보드 상위권의 한국어 LLM을 신뢰하며 자신들의 다양한 사업과 목적에 맞게 활용할 수 있어야 한다”며 “이러면 전 산업과 사회 분야에 LLM이 활용돼 전 국민의 AI 일상화를 이루는 시기가 더욱 가까이 올 수 있을 것”이라고 밝혔다.
김명희 기자 noprint@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- 해킹그룹 “현대차 협력사 내부자료 탈취”
- [단독] 카카오손보 “삼성화재 해외여행자보험, 자사 UI 표절” 제기
- 계약분쟁위 “대법, 추가 과업대가 지급하라”
- 페라리, 내년 첫 전기차 출시한다… “가격은 7억 5000만원”
- 인도 의대 시험에 고득점자 속출… “문제 유출 의혹”
- 韓 아동 성범죄자, 도피한 에콰도르서 잘나가는 사업가로…20년 만에 체포
- [뉴스줌인]공공 정보화 과업 변경, 정당대가 지급 환경 조속 마련돼야
- 마르커스 전 워카토 CSO, “아·태 지역 기업, 오케스트레이션 적용할 수 있는 잠재력 상당해”
- 코스피 2년5개월만에 2800선 안착…하반기 3000 넘길까
- “韓 반도체 공급망 강화” 머크, 박막소재 생산·R&D 투자 확대