사진보고 '피식'…GPT-4도 이미지 속 유머 코드 이해했다

14일(현지시각) 그렉 브록먼 오픈AI 사장 겸 공동창업자가 GPT-4의 이미지 맥락 이해 기능을 온라인 시연했다. /사진=오픈AI 유튜브 갈무리

GPT-3.5와 GPT-4의 가장 큰 차이점은 이미지도 입력(input)할 수 있는 멀티모달 생성 AI 모델로 진화했다는 점이다. 텍스트만 인식할 수 있던 과거를 넘어 사진이나 그림을 인식할 뿐만 아니라 이미지 속 '맥락(Context)'까지 이해할 수 있다. 아직 일반에 공개되지 않은 기능이지만, 오픈AI의 테크 리포트나 '비 마이 아이즈(Be my eyes)' 서비스를 통해 GPT-4로 어떤 이미지 작업을 할 수 있을지 엿볼 수 있었다.

그렉 브록먼 오픈AI 사장 겸 공동창업자는 14일(현지 시각) GPT-4를 온라인 시연했다. 브록먼 사장은 GPT-4에 이미지에 관해 설명해달라고 하거나 손으로 그린 그림을 웹 사이트로 구연하는 등 이미지 활용 기능을 선보였다.

오픈AI가 특히 강조한 부분은 GPT-4가 이미지의 '맥락'을 이해할 수 있다는 점이다. 단순히 이 이미지가 어떤 형태나 색, 질감 등을 가졌는지를 나열하는 데 그치지 않고 이 이미지가 왜 웃기는지, 어떤 의미를 가졌는지까지 짚어준다.

브록먼 사장은 다람쥐가 카메라를 들고 호두를 찍는 그림을 제시하며 "이 이미지의 어떤 부분이 웃기지?"라고 물었다. 그러자 GPT-4는 "다람쥐는 보통 호두를 먹지 사진을 찍지 않는데, 다람쥐가 마치 프로 사진사가 된 것처럼 사람 흉내를 내는 부분이 재미있다"고 답한다.

VGA 커넥터와 아이폰을 연결한 유머를 이해하는 GPT-4. /사진=오픈AI 기술 리포트

여러 그림을 하나의 맥락에서 설명하는 능력도 갖췄다. 오픈AI 기술 리포트는 GPT-4에 '구시대적인 대형 15핀의 VGA 커넥터'와 아이폰 충전 단자인 '라이트닝 커넥터', 이를 연결한 3가지 이미지를 보여주며 '이 이미지가 재미있는 이유를 설명해 달라'고 한다. 그러면 GPT-4는 3가지 이미지가 각각 무엇을 보여주는지 설명하며 "크고 오래된 VGA 커넥터를 최신 스마트폰에 연결하는 부조리로 유머를 만들어 낸다"고 설명한다. '치킨 너겟으로 만든 세계지도' 밈(meme)도 치킨 너겟, 세계 지도 둘 중 하나로 인식하는 것이 아니라 하나의 맥락에서 유머를 만들어 낸다는 사실을 설명한다.

그래프나 수식도 인식해 문제를 해결해준다. 조지아, 핀란드, 서아시아의 1997년 일일 육류 소비량 평균 막대그래프를 주고 조지아와 서아시아의 수치를 합해달라고 하면, 필요한 수치만 골라 단계별로 계산해 준다. 적분과 같은 수학 문제를 이미지로 입력해도 GPT-4가 인식하고 해석해준다.

GPT-4가 적용된 비 마이 아이즈로 냉장고 속 음료를 확인하는 시각 장애인. /사진=오픈AI 홈페이지 갈무리

GPT-4의 이미지 인식 기능은 특히 시각장애인을 돕는 서비스 '비 마이 아이즈'에서 빛을 발한다. 오픈AI는 지난 2월 초부터 비 마이 아이즈와 GPT를 적용한 베타테스트를 시작했다. 덴마크 스타트업인 비 마이 아이즈는 지금까지 자원봉사자와 연결해주는 방식으로 시각장애인이나 저시력자를 도왔다. 이제 GPT-4가 적용되면서 AI가 인간 봉사자와 동일한 수준으로 맥락을 이해하고 시각장애인을 빠르고 정확하게 도울 수 있게 된 것이다.

비 마이 아이즈 CTO(최고기술책임자)인 제스퍼 헨릭센은 "기본적인 이미지 인식 앱은 앞에 있는 것만 알려주는데, GPT-4는 국수에 이상한 재료가 들어가지는 않았는지, 땅 위에 있는 물체가 공이라는 것을 알려주는 데 그치지 않고 걸려 넘어질 위험이 있는지 이해하고 토론할 수 있게 해준다"고 설명했다.

배한님 기자 bhn25@mt.co.kr

머니투데이

IT/과학

사진보고 '피식'…GPT-4도 이미지 속 유머 코드 이해했다