음식 이미지 올리니 조리법 쫙 …'멀티모달 AI' 급부상

빅테크, 이젠 차세대 AI 경쟁
LLM 개발사와 격차 벌리기
다양한 형태 데이터 처리해
텍스트·이미지·음성 생성
구글, 1조 파라미터 '제미니'
오픈AI 'GPT-비전' 본격 대결

구글과 오픈AI가 텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 분석하고 생성할 수 있는 이른바 '멀티모달(multimodal)' 인공지능(AI)을 곧 공개한다. 한국 기술기업이 텍스트 중심의 대규모언어모델(LLM) 개발에 집중하는 사이 미국 빅테크가 거대 자본을 앞세워 후발주자와 격차를 더 벌리려는 것이다.

18일(현지시간) 미국 정보기술(IT) 전문매체 디인포메이션에 따르면 구글과 오픈AI는 각각 연내 '멀티모달 AI' 공개를 목표로 하고 있다. 프롬프터에 문장을 입력했을 때 문장만 생성하는 LLM과 달리 멀티모달 AI는 텍스트, 이미지, 음성, 영상 등을 제한 없이 모두 생성한다. 예를 들어 사용자가 음식 이미지를 업로드하면 해당 식재료 내용과 조리법을 생성하고, 숫자가 포함된 문서를 올리면 즉석에서 그래프나 도표를 보여주는 방식이다.

멀티모달 출시를 가장 서두르는 빅테크는 구글이다. 구글은 멀티모달 엔진 '제미니(Gemini)'에 대한 개발을 마치고 일부 기업과 테스트하고 있다. 제미니는 인간 두뇌의 시냅스에 해당하는 파라미터(매개변수)가 약 1조개에 달하는 것으로 알려졌다. 오픈AI가 내놓은 최신 버전 GPT-4의 파라미터가 5000억개로 추산되는 것에 비하면 2배가량 많다.

업계에서는 제미니가 유튜브 영상의 인터넷주소(URL)를 입력하면 자동으로 스크립트를 생성하고 분석해줄 것으로 기대한다. 다만 무료는 아닐 것으로 보인다. 월 구독료는 30달러로 추정된다. 그동안 구글은 오픈AI와 마이크로소프트(MS)를 꺾고자 AI 조직을 통폐합했다. AI 계열인 딥마인드와 구글 내 AI 조직인 브레인을 통폐합해 '구글 딥마인드'로 변경했고, 수장에는 '알파고' 주역인 데미스 허사비스를 앉혔다. 특히 세르게이 브린 구글 창업자가 이를 적극 지원하는 것으로 알려졌다.

이 같은 소식에 오픈AI가 반격에 나섰다. 오픈AI는 올해 3월 GPT-4를 내놓으면서 멀티모달 AI의 초기 버전을 시연했다. 요리 이미지를 올리면 조리법을 생성하고 식재료를 분석했지만, 해당 기능은 데모 시연에 그쳤다. 디인포메이션은 "오픈AI가 'GPT-비전'으로 불리는 기술을 곧 공개할 것으로 보인다"며 "이와 함께 GPT-비전보다 더 강력한 '고비(Gobi)'라는 프로젝트를 운영하고 있어 주목된다"고 전했다.

오픈AI는 LLM인 GPT-4와 이미지 AI인 달리(DALL·E)를 각각 선보인 바 있다. 하지만 '고비'는 처음부터 멀티모달 AI로 개발되고 있어 LLM과 이미지 AI를 합한 것과 차원이 다를 것이라는 평가가 나온다.

오픈AI는 인재 채용에도 사활을 걸고 있다. 오픈AI 홈페이지에 따르면 현재 최대 연봉 37만달러(약 4억9000만원)를 걸고 멀티모달 전문가를 채용 중이다.

업계에서는 구글과 오픈AI 간 멀티모달 AI 대결을 2라운드로 보고 있다. 디인포메이션은 "구글이 검색엔진과 유튜브를 보유하고 있어 멀티모달을 내놓으면 비즈니스 측면에서도 상당히 유리할 것으로 전망된다"며 "AI 업계에선 이를 제2의 아이폰 대 안드로이드폰 대결로 보고 있다"고 설명했다. 다른 기업이 진입할 틈도 없이 AI 생태계가 이원화될 것이라는 분석이다.

시장조사기관 ABI리서치에 따르면 멀티모달 AI가 확산되면 자율주행, 로봇, 스마트홈 분야에서 획기적인 변화가 일어날 가능성이 크다. 예를 들어 로봇에 입력된 이미지와 영상을 분석해 소비자가 이해하기 쉬운 텍스트로 전달할 수 있다. 포천비즈니스인사이트에 따르면 글로벌 AI 시장 규모는 2022년 4280억달러에서 2030년에는 2조251억달러로 커질 것으로 전망된다.

다만 멀티모달은 다양한 데이터를 학습해 악용에 대한 염려가 더 크다. 예를 들어 특정 인물 사진을 올려 분석을 요청한 뒤 이를 안면인식 AI를 해킹하는 데 악용할 수 있다. 오픈AI는 이 같은 이유로 GPT-비전 공개를 미뤄왔는데, 구글이 선수를 치면서 경쟁이 가속화될 전망이다. 국내에선 LG가 이미지 문장을 양방향 생성하는 엑사원을 내놓은 바 있다.

멀티모달 AI

텍스트를 넘어 음성, 이미지, 영상 등 다양한 형태의 데이터를 처리하고 생성할 수 있는 인공지능(AI)이다. 텍스트만 처리하는 유니모달(unimodal)과 크게 차이 난다.

[이상덕 기자]

매일경제

IT/과학

음식 이미지 올리니 조리법 쫙 …'멀티모달 AI' 급부상