챗GPT 가고 GPT-4V가 온다…‘존맛탱’ 번역하고 엑스레이 영상도 분석
텍스트만 가능했던 챗GPT에서 진화
이미지 입력하면 이해하고 유추해서 답변까지
올해의 단어를 꼽으라면 ‘LLM(대규모언어모델)’을 빼놓고 이야기하기는 힘들 것 같다. 작년 말 오픈AI의 챗GPT가 공개된 이후 LLM은 정보기술(IT) 분야를 넘어서 일상 곳곳에 자리잡았다.
그런데 불과 1년 만에 LLM이라는 단어도 낡은 유산으로 전락할 처지다. LLM을 대신할 새로운 용어가 인공지능(AI) 업계에 등장했기 때문이다. 바로 ‘LMM(대규모멀티모달모델)’이 챗GPT 등장 1년 만에 AI 업계의 판도를 바꿀 새로운 ‘게임 체인저’로 주목받고 있다.
LLM와 LMM의 차이는 언어와 멀티모달에 있다. LLM이 대규모로 언어 모델을 학습했다면 LMM은 멀티모달을 학습했다고 보면 된다. 멀티모달은 텍스트 외에 이미지와 음성 같은 다양한 방식을 사용하는 AI를 말한다. 챗GPT가 텍스트에 기반해서 이용자와 질문과 대답을 주고 받는 AI였다면 LMM을 적용한 AI는 텍스트뿐만 아니라 이미지와 음성까지도 이용할 수 있게 되는 셈이다.
LMM은 많은 AI전문가들이 챗GPT의 다음으로 주목했던 기술이다. 하지만 이미지와 음성을 인식하고 출력하는 기술은 텍스트를 대상으로 하는 것과는 비교가 안 되게 어려움이 클 것이라는 예상이 많았다. LMM의 시대가 오기까지는 제법 시간이 걸릴 것이라는 전망이 많았다.
그런데 오픈AI가 다시 한 번 그 예상을 깼다. 오픈AI가 지난 9월 25일 공개한 ‘GPT-4V(ision)’는 AI 전문가들을 깜짝 놀라게 했다. GPT-4V는 이용자가 이미지를 올리고 이미지에 대한 질문을 할 수 있는 LMM으로, 사실상 전 세계에서 처음으로 대중화된 LMM 서비스다. 오픈AI는 이미 작년 말 GPT-4V를 위한 학습을 마치고, 올해에는 알파 그룹의 사용자에게 접근 권한을 부여한 뒤 테스트를 진행해 GPT-4V의 신뢰도를 높였다. 공개 직전인 9월 초에는 베타테스터 규모를 1만6000명까지 늘리기도 했다.
이렇게 출시된 GPT-4V는 챗GPT와는 또다른 충격을 주고 있다. 많은 사람들이 GPT-4V가 어떤 이미지까지 인식할 수 있는지 실험에 나서고 있는데, 챗GPT가 처음 나왔을 때 챗GPT에 질문을 던지는 게 일종의 ‘밈’처럼 이뤄진 것과 같은 분위기다.
지난 9월 29일에는 마이크로소프트의 연구자들이 GPT-4V를 이용해 다양한 실험을 진행한 논문이 공개되기도 했다. 단순한 이미지 해석에서부터 스도쿠 같은 게임을 이용한 추리, 인물의 표정을 통해 기분을 유추하는 것 등 다양한 실험이 망라돼 있었다.
특히 인상깊은 건 엑스레이 이미지를 보고 골절 부위를 지목한다거나 영어가 아닌 다른 국가의 언어가 들어간 이미지까지 제대로 해석해서 설명을 내놓는다는 점이었다. 김밥을 만드는 순서를 정확하게 나열하거나 손글씨로 제시된 이미지도 문제 없이 이해하는 모습이었다.
김진중 원티드랩 생성 AI팀 리더는 자신의 페이스북에 올린 글에서 “GPT-4V는 이미지 판별, 디텍팅, OCR은 물론이고 X-Ray 분석과 밈의 이해와 설명까지 한다”며 “챗GPT가 처음 나왔을 때 정도의 충격”이라고 평가했다. 그는 GPT-3로 AI 업계가 완전히 바뀐 것과 같은 상황이 다시 올 것이라고도 내다봤다.
논문을 작성한 연구진은 “GPT-4V 같은 시각적인 프롬프트를 이용한 방식은 인간과 컴퓨터가 상호 작용하는 새로운 길을 열 수 있다”며 “LMM은 LLM에서 한 단계 더 나아가서 다양한 감각을 갖춘 일반적인 지능을 달성하게 해줄 것”이라고 밝혔다.
오픈AI가 선수를 쳤다면 구글은 반격을 준비하고 있다. 구글이 이르면 다음 달 공개할 예정인 제미니 역시 LMM을 표방하고 있다. 주빈 가라마니 구글 딥마인드 부사장은 지난 5월 열린 구글 연례 개발자 회의에서 “멀티모달은 의료 서비스, 가상 비서, 자율주행 같은 다양한 분야에서 활용도가 높다”며 LMM을 차세대 AI 서비스로 지목한 바 있다.
참고자료
arxiv, DOI : https://doi.org/10.48550/arXiv.2309.17421
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- 李 ‘대권가도’ 최대 위기… 434억 반환시 黨도 존립 기로
- 정부효율부 구인 나선 머스크 “주 80시간 근무에 무보수, 초고지능이어야”
- TSMC, 美 공장 ‘미국인 차별’로 고소 당해… 가동 전부터 파열음
- [절세의神] 판례 바뀌어 ‘경정청구’했더니… 양도세 1.6억 돌려받았다
- 무비자에 급 높인 주한대사, 정상회담까지… 한국에 공들이는 中, 속내는
- 금투세 폐지시킨 개미들... “이번엔 민주당 지지해야겠다”는 이유는
- 5년 전 알테오젠이 맺은 계약 가치 알아봤다면… 지금 증권가는 바이오 공부 삼매경
- 반도체 업계, 트럼프 재집권에 中 ‘엑소더스’ 가속… 베트남에는 투자 러시
- [단독] 中企 수수료 더 받아 시정명령… 불복한 홈앤쇼핑, 과기부에 행정訴 패소
- 고려아연이 꺼낸 ‘소수주주 과반결의제’, 영풍·MBK 견제 가능할까