“이쯤되니 겁나네”…음식 보여주면 조리법 ‘뚝딱’ 알려준다는데

이상덕 기자(asiris27@mk.co.kr) 2023. 9. 19. 20:12
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

빅테크 이번엔 ‘멀티모달AI’ 전쟁 준비
문장 이미지 음성 자유자재 분석·생성
구글, 1조 파라미터 ‘제미니’ 연내 공개
픈AI, 대항마 ‘GPT-비전’으로 맞불 예정
■ <용어 설명> 멀티모달(multimodal) AI : 텍스트를 넘어 음성 이미지 영상 등 다양한 형태의 데이터를 처리하고 생성할 수 있는 AI다. 텍스트만 처리하는 유니모달(unimodal)과 크게 차이난다.

구글과 오픈AI가 텍스트를 넘어 음성 이미지 영상 등 다양한 형태의 데이터를 분석하고 생성할 수 있는 이른바 ‘멀티 모달(Multi Modal)’ 인공지능(AI)을 곧 공개한다. 한국의 기술 기업이 텍스트 중심의 대규모언어모델(LLM) 개발에 집중하는 사이에, 미국 빅테크 기업이 대규모 자본을 앞세워 후발주자들과 격차를 더 벌리려하는 대목이다.

18일(현지시각) 미국 정보기술(IT) 전문매체인 디인포메이션에 따르면, 구글과 오픈AI는 각각 연내에 ‘멀티모달 AI’ 발표를 목표로 하고 있다. LLM이 프롬프트 창에 문장을 입력하면 문장만 생성한다면, 멀티모달 AI는 텍스트, 이미지, 음성, 영상 등에 제한이 없는 것이 특징이다. 예를 들어 사용자가 음식 이미지를 업로드하면 해당 식재료 내용과 조리법을 생성하고, 숫자가 포함된 문서를 올리면 즉석에서 그래프나 도표를 보여주는 방식이다.

멀티모달 출시를 가장 서두르는 빅테크는 구글이다.

구글은 멀티모달 엔진 ‘제미니(Gemini)’에 대한 개발을 마치고 일부 기업과 테스트 중이다. 제미니는 인간 두뇌의 시냅스에 해당하는 파라미터수가 약 1조개에 달하는 것으로 알려졌다. 오픈AI가 내놓은 최신 버전인 GPT-4가 약 5000억개로 추산되는 것에 비해 약 배가 큰 대목이다.

업계에서는 제미니가 유튜브 영상의 인터넷주소(URL) 입력하면 자동으로 스크립트를 생성하고 분석해 줄 것으로 기대하고 있다. 다만 무료는 아닐 것으로 보인다. 월 구독료는 약 30달러로 추정된다. 그동안 구글은 오픈AI와 마이크로소프트(MS)를 꺾고자 AI 조직을 통폐합했다. AI 계열인 딥마인드과 구글내 AI조직인 브레인을 통폐합해 ‘구글 딥마인드’로 변경했고 수장에는 ‘알파고’의 주역인 데미스 허사비스를 앉혔다. 특히 창업자인 세르게이 브린이 이를 적극 지원하는 것으로 알려졌다.

이 같은 소식에 오픈AI가 반격에 나섰다. 오픈AI는 올 3월 GPT-4를 내놓으면서 멀티모달 AI의 초기 버전을 시연했다.

요리 이미지 사진을 올리면 요리 조리법을 생성하고 식재료를 분석하는 모습을 선보인 바 있다. 하지만 해당 기능은 데모 시연에 그쳤다. 디인포메이션은 “오픈AI가 그동안 준비해 온 ‘GPT-비전’으로 불리는 기술을 곧 공개할 것으로 보인다”면서 “이와 함께 ‘GPT-비전’보다 더 강력한 ‘고비(Gobi)’라는 프로젝트를 운영하고 있어 주목된다”고 말했다.

오픈AI는 LLM인 GPT-4와 이미지 AI인 달리(DALL·E)를 각각 선보인바 있다. 하지만 ‘고비’는 처음부터 멀티모달 AI로 개발되고 있어 LLM과 이미지 AI를 합한 것과는 차원이 다를 것이라는 평가가 벌써 나온다.

인재 채용에도 사활을 걸고 있다. 오픈AI 홈페이지에 따르면, 현재 최대 연봉 37만달러(약 4억9000만원)를 걸고 멀티모달 전문가를 채용 중이다.

업계에서는 구글과 오픈AI의 멀티모달 AI 대결을 2라운드로 보고 있다.

디인포메이션은 “구글은 검색과 유튜브를 보유하고 있어, 멀티모달을 내놓을 경우 비즈니스 측면에서도 상당히 유리할 것으로 보인다”면서 “이를 놓고 AI업계에선 제2의 아이폰 대 안드로이드폰 대결로 보고 있다”고 설명했다.

다른 기업이 진입할 틈도 없이 AI 생태계가 이원화될 것이라는 분석이다.

분석 업체인 ABI 리서치에 따르면, 멀티모달 AI이 확산될 경우 자율주행, 로봇, 스마트홈 분야에서 획기적인 변화가 일어날 가능성이 크다. 예를 들어 로봇에 입력된 이미지 영상을 분석해 이를 소비자가 이해하기 쉬운 텍스트로 전달할 수 있다.

포춘비즈니스인사이트에 따르면 글로벌 AI시장 규모는 2022년 4280억달러에서 올해 5153억달러로 성장한 뒤 2030년에는 2조251억달러로 커질 전망이다.

다만 멀티모달은 다양한 데이터를 학습해 악용에 대한 염려가 더 크다. 예를 들어 특정 인물의 사진을 업로드해 분석을 요청하고 이를 안면인식 AI를 해킹하는데 악용할 수도 있다. 오픈AI는 이 같은 이유로 GPT-비전 공개를 미뤄왔는데 구글이 선수를 치면서 경쟁은 가속화 될 전망이다. 한편 국내에서는 LG가 이미지 문장을 양방향 생성할 수 있는 엑사원을 내놓은 바있다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?