한국어 문제 3.5만개 AI가 풀면?...네이버클라우드 시험지 공개

한국어 특화 평가지표 공개
오픈소스 연구팀 ‘해례’와 협력
총 3만5030개 전문가 문항
객관식 문제 풀이로 평가
클로바X 55.21점으로 1위
GPT-4, 제미나이 프로 순

네이버클라우드 하이퍼클로바X 팀은 한국어 특화 평가 지표인 ‘K-MMLU’를 선보였다고 21일 밝혔다. 네이버클라우드는 이를 위해 오픈소스 언어모델 연구팀인 ‘해례’와 협력했다.

MMLU(다중작업언어이해)를 기반으로 한국어에 특화된 지식을 평가할 수 있는 것이 이번 모델의 특징이다. MMLU는 AI 모델의 지식과 문제 해결 능력을 수학, 물리학, 역사 등 57개 주제에서 평가하는 시험이다. 오픈AI GPT-4, 구글 제미나이 등 역시 자사 모델의 우수성을 입증하는 근거로 사용 한 바 있다.

K-MMLU는 총 3만5030개 전문가 수준 다지선다형 문제로 구성돼 있다. 인문학부터 STEM(과학·기술·공학·수학)까지 45개 과목에 달한다. 가장 큰 특징은 영어 데이터를 번역한 테스트가 아니라는 점이다. 한국 시험에서 수집된 문제들로 구성돼 있다. 따라서 한국어의 언어적·문화적 요소를 포착한다. 하이퍼클로바X는 55.21 점, 제미나이 프로는 42.94점, GPT-4는 54.89점을 각각 받았다.

하이퍼클로바X가 한국 문화나 법·제도에 관한 질문에서 더 정확한 답변을 제공한다는 것을 뜻한다. 특히 ‘한국채택국제회계기준(K-IFRS)하에서 금융자산으로 분류되지 않는 것은?’이나 ‘한국 간호사 윤리강령의 항목에 대한 설명으로 옳은 것은?’ 같은 질문에 대한 답변 능력이 더 우수하다.

하정우 네이버클라우드 AI이노베이션 센터장겸 네이버 퓨처 AI센터장은 “종전 MMLU는 미국, 영어에 특화된 모델이기에 한국에 특화된 지식을 테스트하기 어려웠다”면서 “K-MMLU는 한국의 사회문제, 역사문제 등 ‘한국형’ 지식 추론 능력을 평가할 수 있다”고 설명했다. 한국어 기량에 대한 평가는 늘어나는 추세다. 앞서 AI 스타트업 업스테이지는 한국지능정보사회진흥원(NIA)과 함께 ‘오픈 Ko-LLM 리더보드’를 구축했다.

매일경제

IT/과학

한국어 문제 3.5만개 AI가 풀면?...네이버클라우드 시험지 공개