어떤 AI가 뛰어날까… 절차 생성능력 자동 평가한다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
생성형 AI 개발에 필요한 거대언어모델(LLM)이 사용자 명령에 따라 절차를 제대로 생성하는지 평가하는 기술이 개발됐다.
한국전자통신연구원(ETRI)은 절차 생성 AI의 성능을 자동 평가할 수 있는 '로타벤치마크 기술'을 개발했다고 7일 밝혔다.
절차 생성은 사람이 말로 작업을 명령하면 LLM이 스스로 작업 절차를 이해하고 계획을 수립해 얼마나 잘 수행하는 지를 평가하는 기술이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
생성형 AI 개발에 필요한 거대언어모델(LLM)이 사용자 명령에 따라 절차를 제대로 생성하는지 평가하는 기술이 개발됐다. 생성형 AI 개발의 첫 단계인 절차 생성 성능을 빠르고 객관적으로 수행하는 데 쓰일 전망이다.
한국전자통신연구원(ETRI)은 절차 생성 AI의 성능을 자동 평가할 수 있는 '로타벤치마크 기술'을 개발했다고 7일 밝혔다.
절차 생성은 사람이 말로 작업을 명령하면 LLM이 스스로 작업 절차를 이해하고 계획을 수립해 얼마나 잘 수행하는 지를 평가하는 기술이다. 최근 LLM은 언어처리, 대화, 수학문제 풀이, 논리 증명뿐 아니라 사람의 명령을 이해해 하위 작업을 스스로 선택하고 순서대로 수행해 목표를 달성하는 절차 이해 성능이 우수하다.
이 때문에 LLM 모델을 로봇에 적용하기 위한 시도가 활발하게 진행되고 있다.
이를 위해 LLM의 절차 수행 결과가 지시 명령에 따라 얼마나 잘 수행되고 달성됐는지에 대한 절차 이행 성능 평가가 필요하다. 하지만 지금까지 여러 사람이 직접 작업 수행 결과를 관찰한 뒤 성공·실패 여부를 투표하는 방식으로 성능 평가가 이뤄져 긴 시간과 비용이 들고, 주관적 판단이 개입되는 문제가 있었다.
연구팀이 개발한 로타벤치마크 기술은 사용자 명령에 따라 LLM이 생성한 작업 절차를 실행하고, 그 결과가 지시한 목표와 같은지 자동으로 비교해 성공 여부를 판단한다. 이를 통해 평가 시간과 비용을 최소화할 수 있고, 객관적인 결과를 얻을 수 있다. 연구팀은 이 기술을 이용해 오픈AI의 'GPT-3·GPT-4', 메타의 '라마2', 모자이크엠엘의 'MPT-30B' 등 총 33종의 절차 생성 성능 평가 결과를 깃허브를 통해 공개했다.
장민수 ETRI 소셜로보틱스연구실 책임연구원은 "로타벤치마크 기술은 절차 생성 AI 개발의 첫 걸음"이라며 "향후 불확실한 상황에서 작업 실패를 예측하거나 사람에게 질문하며 도움을 받아 LLM 의 작업 생성 지능을 지속적으로 개선하는 연구를 이어갈 것"이라고 말했다.
이준기기자 bongchu@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- `나홀로` 원희룡, `북적북적` 이천수…유세 중 무슨 일?
- `풀소유 논란` 혜민, 3년만에 복귀…삼배 올리고 "참회"
- 아내 출산하러 집 비웠는데…아내 후배 데려와 성폭행
- "나라에 망조"…`김학의 불법출금 의혹` 이규원 검사 사직
- 뉴욕 버젓이 활보한 욱일기 인력거, 항의하자 돌아온 `황당 답변`
- KDI "중장기 민간소비 증가율 1%대 중반"
- 현대차그룹, 폭스바겐 누르고 수익성 톱2 등극
- 믿을 건 밸류업뿐인데…세제 인센티브, 국회 통과 `하세월`
- 코스피 하락 베팅 `곱버스` 거래량↑…"트럼프 리스크 주의해야"
- 성수·영등포 확 바뀌나… 서울 준공업지역 규제 확 푼다