인공지능 23개 모델 평가하니…‘o3’ 모든 분야 답변서 최우수
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
챗지피티 개발업체인 오픈에이아이(OpenAI)의 인공지능 모델 오쓰리(o3)가 다양한 분야의 과학 질문에 답할 수 있는 최고의 인공지능으로 평가받았다.
미국 시애들의 앨런인공지능연구소(Ai2)가 자체 개발한 인공지능 평가 플랫폼인 사이아레나(SciArena)를 이용해 23개 거대언어모델(LLM)의 과학 질문에 답변 능력을 평가한 결과다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
인공지능 23개 모델 평가한 결과
오픈AI ‘o3’가 모든 분야에서 1위
나머지 모델은 분야별로 성능 달라

챗지피티 개발업체인 오픈에이아이(OpenAI)의 인공지능 모델 오쓰리(o3)가 다양한 분야의 과학 질문에 답할 수 있는 최고의 인공지능으로 평가받았다.
미국 시애들의 앨런인공지능연구소(Ai2)가 자체 개발한 인공지능 평가 플랫폼인 사이아레나(SciArena)를 이용해 23개 거대언어모델(LLM)의 과학 질문에 답변 능력을 평가한 결과다.
연구소는 102명의 연구자가 이 플랫폼에 참여해 질문을 던진 뒤 각각의 인공지능이 제시한 답변에 대해 투표한 결과, 총 1만3천표 이상의 투표 중 오픈에이아이의 o3가 자연과학, 의료, 공학, 인문학 및 사회과학 분야 모두에서 가장 우수하다는 평가를 받았다고 밝혔다. 오픈에이아이는 지난해 9월 추론 능력에 중점을 둔 o1 모델을 출시한 데 이어 올해 성능을 개선한 o3를 내놓았다.
나머지 인공지능은 분야별로 성능에 차이를 보였다. 예컨대 중국 항저우의 딥시크(DeepSeek)가 개발한 딥시크-알원(DeepSeek-R1)은 자연과학 분야 2위, 공학 분야 4위를 차지했다. 구글의 제미나이2.5프로(Gemini-2.5-Pro)는 자연과학 분야 3위, 공학 및 의료 분야 5위를 기록했다. 클로드4 오푸스(Claude-4-Opus)는 의료 분야에서 2위에 올랐다.
연구자들이 o3에 몰표를 준 이유는 뭘까? 연구소의 아만 코핸 연구원은 네이처에 “오쓰리가 인용 문헌에 대한 자세한 정보를 제공할 뿐 아니라, 기술적으로 미묘한 부분까지 정교하게 설명하기 때문인 것으로 보인다”고 말했다.
그는 그러나 대부분의 모델은 각 회사가 독점적으로 소유하고 있는 것이어서 각 모델의 성능이 왜 다른지는 설명하기가 어렵다고 강조했다. 다만 훈련 데이터의 차이, 그리고 모델이 어떤 것에 최적화돼 있는지 등이 부분적인 이유가 될 수 있다고 덧붙였다.

“인공지능 요약본이 논문 읽기 대체할 순 없어”
사이아레나는 인공지능 모델의 성능을 평가하는 최신 플랫폼 중 하나로, 과학 분야에서 클라우드소싱 피드백, 즉 많은 사람들의 의견을 모아 평가하는 것이 특징이다. 연구자가 과학 질문을 던지면, 사이아레나가 두 개의 무작위로 선택된 모델로부터 얻은 답변을 연구자에게 제시하고, 연구자는 두 답변을 비교한 뒤 평가 투표를 한다.
사이아레나(https://sciarena.allen.ai/)는 현재 일반에 공개돼 있어 일반인들도 무료로 질문을 할 수 있고 두 모델로부터 답변을 받을 수 있다. 이용 약관에 동의하면 평가 투표에도 참여할 수 있다.
오스트레일리아 시드니대의 인공지능 연구원 조너선 쿠머펠드는 네이처에 “거대언어모델(LLM)에 과학 분야 질문을 하고 신뢰할 수 있는 답변을 받는다면, 연구자들이 자신의 분야에서 최신 연구 문헌을 따라잡는 데 큰 도움이 될 것”이라며 “이런 능력은 연구자들이 어쩌면 놓쳤을 수도 있는 다른 연구 작업을 찾아내는 데 도움이 될 것”이라고 말했다.
오스트레일리아국립대의 라훌 쇼메 연구원(인공지능)은 그러나 “거대언어모델이 인용 논문과 상충되는 내용을 제시하거나 용어를 잘못 이해하고, 질문에 정확하게 답변하지 못할 수 있다는 점도 명심해야 한다”며 “인공지능이 생성한 논문 요약을 읽는 것이 논문을 직접 읽는 것을 대체할 수는 없다”고 강조했다.
곽노필 선임기자 nopil@hani.co.kr
Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지
- 433mm 물벼락 위에 300mm 더…내일까지 전국이 고비
- 특검, ‘통일교 로비 의혹’ 친윤계 정조준…권성동 사무실 압수수색
- [속보] 채상병 특검, 이철규 국힘 의원 사무실·자택 압수수색
- [단독] 윤 관저 골프연습장, 하청이 공사비 더 받아…‘자금 출처가 뇌물죄 핵심’
- [단독] 권성동 주도해, 윤석열 후보 때 통일교 행사 참석…특검 수사에 친윤계 ‘긴장’
- “쾅,쾅,쾅 폭발음 계속 났어요”…아수라장 된 광명 아파트 화재 현장
- 밤새 쏟아진 폭우에, 대피소에서 지샌 사람들…“내일까지 강한 비”
- 엉뚱하거나 ‘커닝’하거나…이진숙, 교육 현안 답변도 부실
- “가해자보다 더 밉다”…본분 저버린 군인권보호관
- [단독] “윤석열 독방에 에어컨 설치”…인권위 진정 40여건 접수