전격 공개된 GPT-4, 사진 보고 답하고 정확성 끌어올렸다
미국 SAT 시험 상위 10% 수준...“매개변수 확대보다 최적화 초점”
“이미지·영상 인식 ‘멀티모달’… B2B 서비스 가능해”
인공지능(AI) 연구소 오픈AI가 새로운 버전의 AI 대규모 언어모델인 GPT-4를 공개했다. GPT-3.5를 기반으로 하는 대화형 AI “챗GPT’가 출시된 지 4개월 만이다.
오픈AI는 GPT-4를 공개하면서 전문성과 정확도를 개선했다고 설명했다. 실제로 GPT-4는 전문자격시험에서 높은 성능을 보였고, 이미지나 영상으로 응답을 얻어낼 수도 있었다. 구체적으로 GPT-4는 미국 변호사 시험에서 400점 만점에 298점을 기록하며 상위 10% 수준의 정답률을 보였다. GPT-3.5는 동일한 시험에서 400점 중 213점을 받았는데, 이는 하위 10%에 해당하는 점수로 합격 기준을 살짝 넘은 수준이었다. 미국 대학 입학시험인 SAT 읽기와 수학에서도 각각 상위 7%와 11% 수준의 점수를 보이면서 GPT-3.5보다 향상된 성능을 보였다.
사용자의 의도를 파악하는 기능이 향상되면서 답변 선호도도 높아졌다. 오픈AI가 보유한 프롬프트(명령어)로 실험한 결과, 총 5214개 중 3660개(70.2%)에서 GPT-4의 답변이 채택됐다. 또 GPT-4의 영어에 대한 정확도는 85.5%로, GPT-3.5(70.1%)보다 15.4%P 높였다. 한국어에 대한 정확도는 77% 수준으로 평가됐다.
생성 AI의 고질적인 문제로 거론되는 ‘할루시네이션(Hallucination·환각)’도 개선됐다. 환각은 AI가 오류가 있는 데이터를 학습해 틀린 답변을 맞는 것처럼 제시하는 현상인데, 오픈AI는 사실성 평가에서 GPT-3.5보다 19%P 높은 점수를 기록했다고 밝혔다. ‘탈옥(AI 설정을 피해 허용하지 않는 답변을 얻는 행위)’과 같은 시도로 유해한 응답을 내놓을 확률은 0.73%로, GPT-3.5(6.48%)의 6분의 1 이하 수준으로 낮췄다.
GPT-4에 대해 오픈AI는 ‘새로운 지평이 열렸다’고 자평했다. 그동안의 챗GPT가 일종의 놀이도구였다면 GPT-4는 유용한 도구로 발전했다는 것이다.
국내 AI 전문가들은 GPT-4의 성능 향상이 매개변수(파라미터) 확장이 아닌 대규모 언어 모델(LLM)의 조직화로 이뤄졌다는 점을 주목했다. 매개변수는 LLM의 성능을 좌우하는 중요한 요인으로 꼽혔다. GPT-3에 사용된 매개변수는 약 1750억개였는데, GPT-4는 이보다 훨씬 많을 것이라는 전망이 나왔다.
하지만 GPT-4의 실제 매개변수는 공개되지 않았다. 오픈AI가 이름과 달리 구체적인 세부사항을 비공개했기 때문이다. 오히려 전문가들은 GPT-4의 매개변수가 크게 늘어나지는 않은 것으로 봤다. 오픈AI도 “도메인 전문가와의 적대적 테스트, 안전 파이프라인을 도입해 GPT-4의 잠재적 피해를 완화했다”고 설명했다.
장병탁 서울대 AI연구원장은 “LLM의 학습 능력을 향상시키는 방법으로 매개변수의 수를 증가시키는 것은 기억 용량 늘리는 것과 같은데, 용량을 늘리기만 한다고 해서 성능이 좋아지진 않는다”며 “같은 용량에서 모델의 조직화를 이끌어 최적화하는 것도 중요한 의미가 있다”고 말했다.
하정우 네이버클라우드 AI랩 소장은 “매개변수를 많이 늘리지 않으면서 전문적 지식에 대한 활용도와 이미지 인식 기능과 같은 부분에서 생산성을 높여 충분히 지갑을 열고 싶은 서비스가 됐다”면서도 “오픈AI가 공개한 논문에 구체적인 내용이 없어 실험이 얼마나 정밀하게 됐는지 알 수 없는 것은 명확하게 아쉬운 부분”이라고 지적했다.
전문가들이 언급한 GPT-4의 가장 큰 변화는 이미지와 영상에 대해 응답을 얻을 수 있는 ‘멀티모달(Multimodal)’이었다. 챗GPT가 텍스트 기반으로만 질문하던 것과는 달리 GPT-4는 시각적 자료를 사용해 사람과 비슷한 지능 수준에 닿을 수 있는 기반을 닦았다는 설명이다. 더 나아가 기업용 AI 서비스를 본격화할 ‘B2B 모델’로도 평가받았다.
궁재하 대구경북과학기술원(DGIST) 정보통신융합전공 교수는 “AI 기술의 목표는 결국 사람과 유사하거나 그 이상의 지능을 달성하는 것”이라며 “여러 가지의 소스를 AI에 입력하면서 정보를 정확하게 해석하고 추출할 수 있다”고 했다.
조성배 연세대 컴퓨터공학과 교수도 “아직 GPT-4의 이미지·영상 분석 성능이 고도화된 것 같진 않지만, 멀티모달은 산업 분야에서도 유용하게 쓰일 수 있는 모델”이라며 “AI 시장을 선점하기 위해 IT업체들의 경쟁이 심화하는 상황에서 멀티모달은 어느 정도 역할을 할 것으로 본다”고 말했다.
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- [김지수의 인터스텔라] 텅 빈 채 그저 달리네… 당신이 겪는 그 증상의 이름은 ‘시들함’
- 中, 석화단지 또 증설 완료… 갈수록 심화하는 중국발 공급과잉
- [2024 연말정산]⑥ 10일 남은 2024년… 막판 절세 포인트는?
- [정책 인사이트] 스크린 파크 골프장·PC방·건강관리실로 변신하는 경로당
- [시승기] 비·눈길서도 돋보이는 ‘포르셰 911 카레라’
- 무너진 30년 동맹…퀄컴, ARM과 소송서 승소
- “탄핵 시위 참가자에 음식·커피 주려고 내 돈도 보탰는데 별점 테러” 자영업자들 하소연
- 中에 신규 수주 밀린 韓 조선… “효율·경쟁력은 더 높아져”
- 치솟는 프랜차이즈 커피값에… ‘한 잔에 500원’ 홈카페 경쟁
- 늦은 밤 소주잔 기울이며 직원 애로사항 듣는 김보현 대우건설 사장, ‘사람’과 ‘소통’ 강조