한국어 문제 3.5만개 AI가 풀면?...네이버클라우드 시험지 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
네이버클라우드 하이퍼클로바X 팀은 한국어 특화 평가 지표인 'K-MMLU'를 선보였다고 21일 밝혔다.
하정우 네이버클라우드 AI이노베이션 센터장겸 네이버 퓨처 AI센터장은 "종전 MMLU는 미국, 영어에 특화된 모델이기에 한국에 특화된 지식을 테스트하기 어려웠다"면서 "K-MMLU는 한국의 사회문제, 역사문제 등 '한국형' 지식 추론 능력을 평가할 수 있다"고 설명했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
오픈소스 연구팀 ‘해례’와 협력
총 3만5030개 전문가 문항
객관식 문제 풀이로 평가
클로바X 55.21점으로 1위
GPT-4, 제미나이 프로 순

MMLU(다중작업언어이해)를 기반으로 한국어에 특화된 지식을 평가할 수 있는 것이 이번 모델의 특징이다. MMLU는 AI 모델의 지식과 문제 해결 능력을 수학, 물리학, 역사 등 57개 주제에서 평가하는 시험이다. 오픈AI GPT-4, 구글 제미나이 등 역시 자사 모델의 우수성을 입증하는 근거로 사용 한 바 있다.
K-MMLU는 총 3만5030개 전문가 수준 다지선다형 문제로 구성돼 있다. 인문학부터 STEM(과학·기술·공학·수학)까지 45개 과목에 달한다. 가장 큰 특징은 영어 데이터를 번역한 테스트가 아니라는 점이다. 한국 시험에서 수집된 문제들로 구성돼 있다. 따라서 한국어의 언어적·문화적 요소를 포착한다. 하이퍼클로바X는 55.21 점, 제미나이 프로는 42.94점, GPT-4는 54.89점을 각각 받았다.
하이퍼클로바X가 한국 문화나 법·제도에 관한 질문에서 더 정확한 답변을 제공한다는 것을 뜻한다. 특히 ‘한국채택국제회계기준(K-IFRS)하에서 금융자산으로 분류되지 않는 것은?’이나 ‘한국 간호사 윤리강령의 항목에 대한 설명으로 옳은 것은?’ 같은 질문에 대한 답변 능력이 더 우수하다.
하정우 네이버클라우드 AI이노베이션 센터장겸 네이버 퓨처 AI센터장은 “종전 MMLU는 미국, 영어에 특화된 모델이기에 한국에 특화된 지식을 테스트하기 어려웠다”면서 “K-MMLU는 한국의 사회문제, 역사문제 등 ‘한국형’ 지식 추론 능력을 평가할 수 있다”고 설명했다. 한국어 기량에 대한 평가는 늘어나는 추세다. 앞서 AI 스타트업 업스테이지는 한국지능정보사회진흥원(NIA)과 함께 ‘오픈 Ko-LLM 리더보드’를 구축했다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 재벌도 부러워하는 FIFA 평의원…대체 뭐가 좋길래? [올어바웃스포츠] - 매일경제
- 한방에 ‘70억→42억’ 폭락한 ‘해운대 아이파크’…짙어지는 ‘집값 띄우기’ 의혹 - 매일경제
- “혈압이 낮아졌다”…고혈압 환자에게 이것 먹였더니 놀라운 결과 - 매일경제
- 영업익 983% 실적 낸 날, 이 기업 CEO가 한 말…“시장 폭발하는 순간 왔다” - 매일경제
- “아이오닉5, 5410만원→3731만원”…현대차, 전기차 대중화 나서 - 매일경제
- 같은 고소득 전문직인데…의사 평균 소득 2.7억, 변호사·회계사보다 2.3배 더 벌어 - 매일경제
- “차라리 타지 마, 짜증폭발”…이런 일본車는 처음, 성공하면 카니발 대신? [카슐랭] - 매일경제
- “아니 근데, 치료 못받아 죽으면 살인임?”…익명 커뮤니티에 올린 의사 글 ‘시끌’ - 매일경
- 오늘의 운세 2024년 2월 23일 金(음력 1월 14일) - 매일경제
- ‘컴백 한화 에이스’ 류현진 “올해 목표는 PS, 8년간 목표는 KS 우승 뿐이다” - MK스포츠