한국어 문제 3.5만개 AI가 풀면?...네이버클라우드 시험지 공개

이상덕 기자(asiris27@mk.co.kr) 2024. 2. 23. 11:27
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

네이버클라우드 하이퍼클로바X 팀은 한국어 특화 평가 지표인 'K-MMLU'를 선보였다고 21일 밝혔다.

하정우 네이버클라우드 AI이노베이션 센터장겸 네이버 퓨처 AI센터장은 "종전 MMLU는 미국, 영어에 특화된 모델이기에 한국에 특화된 지식을 테스트하기 어려웠다"면서 "K-MMLU는 한국의 사회문제, 역사문제 등 '한국형' 지식 추론 능력을 평가할 수 있다"고 설명했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

한국어 특화 평가지표 공개
오픈소스 연구팀 ‘해례’와 협력
총 3만5030개 전문가 문항
객관식 문제 풀이로 평가
클로바X 55.21점으로 1위
GPT-4, 제미나이 프로 순
네이버클라우드 하이퍼클로바X 팀은 한국어 특화 평가 지표인 ‘K-MMLU’를 선보였다고 21일 밝혔다. 네이버클라우드는 이를 위해 오픈소스 언어모델 연구팀인 ‘해례’와 협력했다.
네이버클라우드 하이퍼클로바X 팀은 한국어 특화 평가 지표인 ‘K-MMLU’를 선보였다고 21일 밝혔다. 네이버클라우드는 이를 위해 오픈소스 언어모델 연구팀인 ‘해례’와 협력했다.

MMLU(다중작업언어이해)를 기반으로 한국어에 특화된 지식을 평가할 수 있는 것이 이번 모델의 특징이다. MMLU는 AI 모델의 지식과 문제 해결 능력을 수학, 물리학, 역사 등 57개 주제에서 평가하는 시험이다. 오픈AI GPT-4, 구글 제미나이 등 역시 자사 모델의 우수성을 입증하는 근거로 사용 한 바 있다.

K-MMLU는 총 3만5030개 전문가 수준 다지선다형 문제로 구성돼 있다. 인문학부터 STEM(과학·기술·공학·수학)까지 45개 과목에 달한다. 가장 큰 특징은 영어 데이터를 번역한 테스트가 아니라는 점이다. 한국 시험에서 수집된 문제들로 구성돼 있다. 따라서 한국어의 언어적·문화적 요소를 포착한다. 하이퍼클로바X는 55.21 점, 제미나이 프로는 42.94점, GPT-4는 54.89점을 각각 받았다.

하이퍼클로바X가 한국 문화나 법·제도에 관한 질문에서 더 정확한 답변을 제공한다는 것을 뜻한다. 특히 ‘한국채택국제회계기준(K-IFRS)하에서 금융자산으로 분류되지 않는 것은?’이나 ‘한국 간호사 윤리강령의 항목에 대한 설명으로 옳은 것은?’ 같은 질문에 대한 답변 능력이 더 우수하다.

하정우 네이버클라우드 AI이노베이션 센터장겸 네이버 퓨처 AI센터장은 “종전 MMLU는 미국, 영어에 특화된 모델이기에 한국에 특화된 지식을 테스트하기 어려웠다”면서 “K-MMLU는 한국의 사회문제, 역사문제 등 ‘한국형’ 지식 추론 능력을 평가할 수 있다”고 설명했다. 한국어 기량에 대한 평가는 늘어나는 추세다. 앞서 AI 스타트업 업스테이지는 한국지능정보사회진흥원(NIA)과 함께 ‘오픈 Ko-LLM 리더보드’를 구축했다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지