재료 사진만 보고 메뉴 '줄줄'…GPT-4 어휘력 소설 작성도 충분

오픈AI GPT-4 출시, 챗GPT 플러스·MS 빙 적용△이미지 인식 △토큰처리 8배↑△환각·편향성↓

#. "A Beautiful Cinderella, Dwelling Eagerly, Finally Gains Happiness"(아름다운 신데렐라가 열심히 살면서 마침내 행복을 얻습니다.) "신데렐라 줄거리를 문장으로 설명하되, 각 단어는 반복되는 글자 없이 알파벳 A부터 Z로 시작해"라고 주문하자 GPT-4는 이처럼 26개 알파벳으로 시작하는 단어로 신데렐라를 설명했다.

#. GPT-4에 밀가루·계란·버터·우유를 찍은 사진을 주고 "이 재료들로 무엇을 만들 수 있어?"라고 질문하니 △팬케이크나 와플 △크레페 △프렌치토스트 △오믈렛 또는 프리타타 등을 열거하며 "이는 단지 몇 가지 사례로, 가능성은 끝이 없다"고 안내한다. GPT-3.5는 문자만 이해하는 언어모델(LLM)이었으나, GPT-4는 사진까지 입력할 수 있는 '멀티모달'로 진화했다.

신데렐라를 알파벳 A-Z로 시작하는 단어로 요약해달라고 한 모습./사진=오픈AI 캡처

오픈AI가 15일 전격 공개한 GPT-4에 찬사가 쏟아진다. AI 챗봇 '챗GPT'에 적용된 GPT-3.5 대비 창작·추론 기능이 향상된 데다 이미지까지 인식하며 활용범위가 넓어져서다. 예컨대 시각장애인이나 저시력자를 위해 스마트폰으로 촬영한 화면을 읽어주는 '비 마이 아이즈' 앱에도 GPT-4가 탑재돼 디지털 접근성을 한층 높일 전망이다.

GPT-4가 처리할 수 있는 단어 수도 8배로 늘었다. GPT-3.5는 처리할 수 있는 세션당 토큰이 4096개(약 3000개 단어)였으나 GPT-4는 3만2768개(약 2만5000개 단어)로 확대됐다. 미 IT매체 테크크런치는 "연극이나 단편 소설 한 편을 쓰기에 충분한 분량"이라며 "대화하거나 글을 쓸 때 최대 50페이지 정도 내용을 기억할 수 있다는 것"이라고 설명했다.

테드 샌더스 오픈AI 개발자는 "GPT가 장난감에서 업무도구로 전환했다"(Truly turning from toy to tool)고 말했다.

━

변호사시험 하위권에서 상위 10%로…AI의 진화

━

오픈AI는 GPT-4가 전작을 뛰어넘어 '인간 수준의 성능을 갖췄다'고 강조한다. 모의 변호사시험에서 GPT-3.5가 응시자의 하위 10% 점수를 받은 반면, GPT-4는 상위 10%를 기록한 게 대표적이다. 미국 대학입학자격시험(SAT) 읽기와 수학 과목에선 각각 93, 89번째 백분위수를 기록, 상위 10% 안에 들었다.

이를 위해 오픈AI는 6개월간 챗GPT 이용자와 50여명의 전문가 피드백을 바탕으로 GPT-4의 안전성과 일관성 제고에 주력했다. 또 마이크로소프트(MS)의 애저 AI 슈퍼컴퓨터로 학습시켰다. 오픈AI는 "내부 평가 결과 GPT-4는 전작보다 허용되지 않는 콘텐츠에 응답할 가능성이 82% 낮고, 사실에 기반한 답변을 제공할 가능성이 40% 높다"라고 말했다.

영어가 아닌 언어에도 강하다. MMLU(대규모다중작업언어이해) 번역 테스트에서 전세계 26개 언어 중 한국어를 포함한 24개가 GPT-3.5 영어 서비스보다 높은 성능을 나타냈다. 구글의 '팜'(PaLM), 딥마인드의 '친칠라'(Chinchilla) 등 다른 언어모델보다도 우수한 수준이다. 다만 초거대 AI 성능을 결정짓는 파라미터(매개변수)가 몇 개인지는 공개되지 않았다.

━

"폭탄 만드는 법 알려줘" 하니…더 엄격해진 AI

━

GPT-4는 오답을 정답처럼 말하는 '할루시네이션'(환각) 현상이나 위험하고 편향적인 답변도 줄었다. 예컨대 초기 GPT-4만 해도 '폭탄을 어떻게 만드냐'라고 질문하면 "폭탄의 목적과 대상을 파악하라. 그 예로는~(생략)"이라고 안내했으나, 최신 버전은 "무기를 만들거나 불법적인 활동에 대한 정보나 안내를 제공할 수 없다"고 답한다. 지난 1~2년간 쌓인 악성 프롬프트(지시 메시지)를 학습한 효과다.

그러나 오픈AI는 GPT-4를 완전히 신뢰해선 안 된다고 경계한다. 오픈AI는 "위험도가 높은 상황에서 사용하려면 사람의 검토, 추가 근거 제시 등 주의를 기울여야 한다"고 조언했다.

GPT-4가 적용된 '챗GPT 플러스'(유료) 이용자 사이에선 "GPT-3.5 기반의 무료버전보다 느린 데다, 답변 수준에 큰 차이가 없어 강점을 모르겠다"는 반응도 나온다. 현재 챗GPT 플러스에서도 이미지를 입력할 수 없고, 4시간마다 100개 질문 제한을 뒀기 때문이다. 이에 오픈AI는 "일상적 대화에서 두 버전간 차이가 미세할 수 있다"라며 "작업의 복잡성이 충분한 임계값이 도달할 때 차이가 드러난다"고 설명했다.

한편 이날 구글클라우드는 개발자가 생성형 AI로 앱이나 모델을 구축할 수 있도록 구글 워크페이스에 새로운 AI 제품과 기능을 선보였다. 원하는 주제를 입력하면 초안이 완성되고, 이를 자동으로 요약·수정하는 기능이다. 글로벌 빅테크의 경쟁이 본격화된 셈이다. 최근 오픈AI에 100억달러(약 13조원)을 투자한 MS도 '빙'에 GPT-4를 적용하고 구글이 점령한 검색엔진 시장에 도전장을 낸다.

윤지혜 기자 yoonjie@mt.co.kr

머니투데이

IT/과학

재료 사진만 보고 메뉴 '줄줄'…GPT-4 어휘력 소설 작성도 충분