어떤 AI가 뛰어날까… 절차 생성능력 자동 평가한다

ETRI는 LLM(거대언어모델 ) 기반으로 만들어진 AI이 절차 생성 성능을 자동 평가하는 로타벤치마크 기술을 개발했다. ETRI 연구진이 개발한 기술을 시연해 보이고 있다. ETRI 제공

생성형 AI 개발에 필요한 거대언어모델(LLM)이 사용자 명령에 따라 절차를 제대로 생성하는지 평가하는 기술이 개발됐다. 생성형 AI 개발의 첫 단계인 절차 생성 성능을 빠르고 객관적으로 수행하는 데 쓰일 전망이다.

한국전자통신연구원(ETRI)은 절차 생성 AI의 성능을 자동 평가할 수 있는 '로타벤치마크 기술'을 개발했다고 7일 밝혔다.

절차 생성은 사람이 말로 작업을 명령하면 LLM이 스스로 작업 절차를 이해하고 계획을 수립해 얼마나 잘 수행하는 지를 평가하는 기술이다. 최근 LLM은 언어처리, 대화, 수학문제 풀이, 논리 증명뿐 아니라 사람의 명령을 이해해 하위 작업을 스스로 선택하고 순서대로 수행해 목표를 달성하는 절차 이해 성능이 우수하다.

이 때문에 LLM 모델을 로봇에 적용하기 위한 시도가 활발하게 진행되고 있다.

이를 위해 LLM의 절차 수행 결과가 지시 명령에 따라 얼마나 잘 수행되고 달성됐는지에 대한 절차 이행 성능 평가가 필요하다. 하지만 지금까지 여러 사람이 직접 작업 수행 결과를 관찰한 뒤 성공·실패 여부를 투표하는 방식으로 성능 평가가 이뤄져 긴 시간과 비용이 들고, 주관적 판단이 개입되는 문제가 있었다.

연구팀이 개발한 로타벤치마크 기술은 사용자 명령에 따라 LLM이 생성한 작업 절차를 실행하고, 그 결과가 지시한 목표와 같은지 자동으로 비교해 성공 여부를 판단한다. 이를 통해 평가 시간과 비용을 최소화할 수 있고, 객관적인 결과를 얻을 수 있다. 연구팀은 이 기술을 이용해 오픈AI의 'GPT-3·GPT-4', 메타의 '라마2', 모자이크엠엘의 'MPT-30B' 등 총 33종의 절차 생성 성능 평가 결과를 깃허브를 통해 공개했다.

장민수 ETRI 소셜로보틱스연구실 책임연구원은 "로타벤치마크 기술은 절차 생성 AI 개발의 첫 걸음"이라며 "향후 불확실한 상황에서 작업 실패를 예측하거나 사람에게 질문하며 도움을 받아 LLM 의 작업 생성 지능을 지속적으로 개선하는 연구를 이어갈 것"이라고 말했다.

이준기기자 bongchu@dt.co.kr

디지털타임스

IT/과학

어떤 AI가 뛰어날까… 절차 생성능력 자동 평가한다