인공지능, “충격적 속도”로 인간을 앞서고 있다

곽노필의 미래창
스탠퍼드대 인공지능 분석 보고서
이미지 분류 등 기본 작업에서 앞서

인공지능 시스템이 영어 이해도, 이미지 분류, 시각적 추론 등을 포함한 몇가지 기본적 업무 분야에서 인간을 뛰어넘는 수준에 이르렀다. Andy Kelly/Unsplash

챗지피티와 같은 인공지능 시스템이 영어 이해도, 이미지 분류, 시각적 추론 등을 포함한 몇 가지 기본적 업무 분야에서 인간을 뛰어넘는 수준에 이르렀다는 평가가 나왔다.

미 스탠퍼드대 인간중심 인공지능연구소(HAI)는 최근 7번째 발표한 ‘인공지능 지수 2024’(AI Index 2024) 보고서에서 이렇게 밝히고 “이는 시스템을 평가하기 위한 다수 벤치마크(표준 지표)의 유효성이 빠른 속도로 사라지고 있음을 뜻한다”며 추상 및 추론과 같은 복잡한 작업에 대한 성능을 평가하는 새로운 방식이 필요하다고 제안했다.

보고서 작성을 주도한 네스토어 마슬레이(Nestor Maslej) 편집장은 “10년 전만 해도 벤치마크는 5~10년 동안 유효했지만 이제는 몇 년 안에 무의미해지는 경우가 많다”고 말했다.

보고서는 그러나 경시대회급 수학이나 시각적 상식 추론(시각 정보를 활용해 상식을 이해하고 추론하는 기술) 등 더 복잡한 분야에서는 인공지능이 아직 인간에 약간 미치지 못하는 것으로 나타났다고 밝혔다.

플랫폼 공유 코드, 800개서 180만개로

2017년부터 해마다 발표되고 있는 스탠퍼드 인공지능 보고서는 학계와 업계 전문가들이 인공지능 분야의 기술 수준과 비용, 윤리 등 다양한 측면을 평가해 작성한다. 400쪽이 넘는 올해 보고서 작성과 편집에도 인공지능이 활용됐다.

보고서는 인공지능의 발전은 2010년대 초반 신경망과 기계학습(머신러닝) 알고리즘을 기반으로 시작됐으며, 이후 급속히 확산됐다고 밝혔다. 보고서는 그 사례로 코드 공유 플랫폼인 깃허브에 올라와 있는 인공지능 코딩 프로젝트 수가 2011년 약 800개에서 2023년 180만개로 증가한 점을 꼽았다. 보고서는 또 이 기간중 인공지능에 관한 학술지 논문도 약 3배 증가했다고 덧붙였다.

박사급 연구자들보다 훨씬 높은 정답률

보고서에 따르면 인공지능의 최전선을 이끌고 있는 연구는 대부분 산업계에서 이뤄지고 있다. 2023년 산업계에서는 51개의 주목할 만한 머신러닝 시스템을 개발한 반면, 학계에서 내놓은 것은 15개에 그쳤다. 오스틴 텍사스대 인공지능연구소의 레이몬드 무니 소장은 국제학술지 네이처에 “학계의 연구는 기업에서 나오는 모델을 분석하고 약점을 파헤치는 쪽으로 방향을 바꾸고 있다”고 말했다.

예컨대 뉴욕대 연구진은 지난해 거대언어모델(LLM) 성능 평가 도구 ‘GPQA1’을 개발했다. 400개 이상의 객관식 문항으로 구성된 이 벤치마크는 대학원 수준으로 매우 까다로워서 박사급 연구자들도 정답을 맞추는 비율이 65%에 그친다. 같은 박사급 연구자들이라도 자신의 전공 분야가 아닌 문제에 정답을 맞춘 비율은 인터넷의 도움을 받았음에도 34%에 그쳤다. 지난해 기준으로 인공지능의 정답률은 30~40%대였다. 그러나 올해 샌프란시스코의 인공지능 업체 앤스로픽의 최신 챗봇 클로드3의 정답률은 약 60%였다. 뉴욕대의 데이비드 레인 연구원은 네이처에 “상당히 충격적인 발전 속도”라고 평가했다.

학습 비용·에너지 소비량 상승…윤리적 우려도 커져

인공지능의 빠른 성능 향상은 비용 상승과 비례하고 있다.

챗지피티 개발 업체인 오픈에이아이(OpenAI)의 경우, 2023년 3월에 출시한 거대언어모델 지피티4(GPT4)를 훈련하는 데 7800만달러(1080억원)가 든 것으로 알려졌다. 9개월 후인 지난해 12월 구글이 내놓은 챗봇 제미나이 울트라(Gemini Ultra)를 훈련하는 데는 1억9100만달러(2600억원)가 들었다. 네이처는 “이에 따라 많은 이들이 인공지능 시스템의 에너지 소비량과 시스템 운영에 동원되는 데이터센터 냉각에 필요한 물의 양에 대해 우려하고 있다”고 전했다. 현재 인공지능 시스템 성능을 높이는 주요한 방법 가운데 하나는 시스템을 더 크게 만드는 것이기 때문에 성능이 좋아질수록 비용과 에너지가 더 많이 들어간다.

인공지능 성능 개선을 위해선 또 더 많은 문서와 사진 등의 학습 자료가 필요하다. 보고서는 일부에서 학습 데이터 부족에 대한 우려가 일고 있다고 밝혔다. 미국의 비영리 연구기관 에포크(Epoch)는 지난해 발표한 보고서에서, 이르면 2024년 안에 고품질 언어 데이터 공급이 고갈될 것으로 예상했다. 네이처는 그러나 에포크의 최신 분석에서는 그 시기가 2028년으로 수정됐다고 전했다.

인공지능의 설계와 사용 방식을 둘러싼 윤리적 우려도 커지고 있다. 보고서는 미국의 경우 2016년에는 인공지능을 언급한 규정이 단 한 건이었지만 지난해엔 25건에 이르렀다고 지적했다. 마슬레이 편집장은 “2022년 이후 인공지능 관련 법안 발의 건수가 급증했다”고 말했다.

인공지능에 대한 일반인들의 우려와 기대도 함께 커지고 있다. 보고서는 세계 31개국 2만2816명(16~74살)을 대상으로 한 설문 조사 결과, 응답자의 절반 이상(52%)이 인공지능에 대한 불안감을 표명했다고 밝혔다. 이는 전년도의 39%보다 크게 늘어난 수치다. 인공지능의 문제보다는 혜택이 더 많을 것이라는 응답자 비율도 52%에서 54%로 조금 늘었다. 응답자 셋 중 둘(66%)은 좋은 쪽이든 나쁜 쪽이든 인공지능이 3~5년 내에 자신의 삶을 크게 변화시킬 것으로 내다봤다.

곽노필 선임기자 nopil@hani.co.kr

한겨레

IT/과학