GPT-4, 사진 알아보고 변호사·대입 시험 성적도 우수

[IT동아 차주경 기자] 인공지능 기술 개발사 오픈AI(OpenAI)는 3월 14일(이하 현지시각), 언어 모델 기반 인공지능 GPT(Generative Pre-trained Transformer)의 최신판 GPT-4를 공개했다.

오픈AI가 2022년 11월 선보인 GPT-3.5는 사람과의 대화와 글 짓기, 웹 코딩까지 할 정도로 우수한 능력을 발휘해 세계인으로부터 주목 받았다. 오픈AI는 GPT-3.5의 버그(오동작)를 수정하고 더욱 다양한 작업을 하도록 GPT-4를 개량했다고 밝혔다.

오픈AI GPT-4는 문장뿐만 아니라 사진도 보고 분석한다. 오픈AI가 공개한 예시를 보면, GPT-4는 옛날 PC 모니터를 연결하는 규격 ‘VGA’ 커넥터 모양으로 만든 ‘라이트닝(애플 스마트폰 데이터 전송·충전 규격)’ 커넥터의 상품 사진을 알아봤다. 이어 ‘크기가 작은 첨단 라이트닝 커넥터를, 구식에다 크기도 큰 VGA 커넥터로 만들다니 재미있네요’라는 분석도 내놨다.

오픈AI GPT-4를 활용해 온라인 가정교사 '칸미고(Khanmigo)'를 구현한 칸아카데미. 출처 = 칸아카데미

오픈AI는 일반 작업이나 대화에서는 GPT-3.5와 GPT-4의 차이가 두드러지지 않는다고 말한다. 하지만, 작업이나 대화가 복잡해지면 GPT-4가 더 안정감 있게 창의적인 답변을 한다고 밝혔다.

질문과 답변의 수준을 제어하는 능력도 좋아졌다. 답변이나 정보를 바로 말하는 것이 아니라 조금씩 추리하면서 접근하고 이 과정을 잘 소개한다. 오픈AI GPT-4를 가정 교사처럼 쓸 가능성도 증명한 셈이다. 실제로 GPT-4를 활용해 온라인 가정교사 서비스를 만든 스타트업도 있다. 언어 호환성과 번역 능력도 좋아졌다. GPT-4는 26개 언어 가운데 24개 언어에서 GPT-3.5를 능가하는 성능을 나타냈다.

오픈AI는 GPT-4를 마이크로소프트의 클라우드 ‘애저(Azure)’에서 운용한 결과 안정적으로 움직였고, 학습의 성과도 사전에 정확하게 예상했다고 밝혔다. 덕분에 앞으로의 GPT가 어떤 능력을 가질지 예측하는 방법론 연구도 쉬워졌다고 말했다.

오픈AI는 GPT-4의 능력을 검증하려고 사람이 응시하는 각종 시험 문제를 제시했다. GPT-4는 미국 모의 변호사 시험에서 상위 10%에 들 정도로 우수한 성적을 낸 것으로 알려졌다. 앞서 GPT-3.5는 같은 시험에서 하위 10%의 성적을 냈을 뿐이었다.

사람이 응시하는 각종 시험을 GPT-3.5와 GPT-4가 각각 본 결과. 출처 = 오픈AI

오픈AI GPT-4는 사람이 미국 대학교에 입학할 때 응시하는 ‘SAT 시험’도 봤다. 읽고 쓰기 부문에서 800점 만점에 710점, 수학 부문에서 800점 만점에 700점을 각각 받았다. 앞서 GPT-3.5는 각각 670점, 590점을 받았는데, 점수가 많이 올랐다.

전문 영역을 다루는 객관식 질문을 여러 개 제시하는 ‘MMLU’, 상식과 추론 능력을 검증하는 ‘헬라스웩(HellaSwag)’, 파이썬 코딩 실력을 보는 ‘휴먼이벌(HumanEval)’, 독해와 산술 능력을 시험하는 드롭(DROP)등 기계 학습과 인공지능의 성능을 시험하는 각종 벤치마크가 있다. 이 벤치마크 테스트에서도 오픈AI GPT-4는 GPT-3.5를 포함해 기존의 언어 모델 기반 인공지능의 실력을 웃도는 성적을 냈다. 오픈AI는 GPT-4를 도입해 서비스를 고도화한 기업의 사례도 공개했다.

오픈AI는 그럼에도 GPT-4를 완전히 신뢰하면 안된다고 당부했다. GPT-4가 아직 추론 방법을 배우는 중이며, 2021년 9월 이전까지의 데이터만 활용했기에 그 이후 만들어진 지식이나 사건은 제대로 답변하지 못할 가능성이 있다고 말했다. 이어 GPT-4의 버그와 취약점을 개선하고 유해한 정보(폭탄 제조법, 불법 약물 구입처)를 말하지 않도록, 업계 전문가와 함께 성능을 고도화한다고도 언급했다.

글 / IT동아 차주경(racingcar@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)