[김병필의 인공지능 개척시대] 멀티모달리티 인공지능

2024. 5. 20. 00:26
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

김병필 KAIST 기술경영학부 교수

지금 인공지능(AI) 분야 트랜드를 한마디로 요약하면, 단연 ‘멀티-모달리티’를 손꼽을 수 있다. ‘모달리티(modality)’란 우리가 AI와 정보를 주고받는 방식을 말한다. 원래 전문 용어였지만 이제 널리 쓰이는 표현이 되었다. ‘멀티-모달리티’란 AI가 다양한 소통 방식을 지원한다는 뜻이다. 글로 입력하고 글로 답을 받는 것뿐만 아니라, 말·동영상·3D 정보 등 다양한 형태로 소통하는 것이다.

지난주 OpenAI와 구글은 모두 새로운 멀티-모달리티 기능을 갖춘 AI를 발표했다. 이용자가 일일이 입력할 필요가 없이 마이크 버튼을 눌러 말을 걸면 AI와 대화를 나눌 수 있다. 스마트폰 카메라를 켜서 칠판에 적힌 문제를 보여주면 척척 풀어낸다. 우리 삶을 크게 바꿔 놓을 기세다.

「 글·음성·동영상 모두 소통하는
인간 같은 AI 시대 성큼 다가서
성능 관건은 고품질 학습 데이터
인간 창작자와 AI 공존해 나가야

김지윤 기자

가장 인상적이었던 시연은 시각 장애인이 AI를 활용하는 모습이었다. 그가 스마트폰에서 AI 앱을 실행해 주변을 보여주니, AI는 어디에 무엇이 있는지 음성으로 안내해 주었다. 택시를 타겠다고 하니, 마침 빈 택시가 오고 있다고 알려 주었다. 덕분에 문제없이 빈 택시를 잡아탔다. 시연 장면 속 시각 장애인 옆에는 사랑스러운 모습의 보조견이 앉아 있었다. 하지만 보조견보다 훨씬 똑똑하고 유능한 AI 보조자가 그를 도운 것이다.

이러한 발전은 기술적 측면에서도 큰 진전으로 평가된다. 가장 놀라운 점은 단 하나의 AI 모형이 여러 모달리티를 통합하여 처리한다는 것이다. 얼마 전까지만 하더라도 문자, 음성, 영상 정보 처리용 AI는 각기 전혀 다른 방식으로 구현되었다. 가령, 과거에는 AI와 말로 대화를 나누려면 적어도 세 가지의 AI를 별도로 구축해야 했다. 음성을 문자로 전환하는 AI, 문자 입력에 대해 문자 답변을 생성하는 AI, 생성된 문자를 음성으로 전환하는 AI이다. 이들을 하나로 합치는 작업은 간단치 않았다.

그런데, 2020년을 전후하여 통합형 AI를 구축할 수 있는 새로운 아이디어가 발표되기 시작했다. 그 핵심은 대규모 언어처리 AI를 기반으로 다른 정보 처리 역량을 통합하는 것이다. 멀티-모달리티를 지원하는 AI는 영상이나 음성을 잘게 쪼개 단어와 유사한 형태로 변환한다. 그러면 대규모 언어처리 AI가 영상과 음성도 마치 글인 양 함께 처리할 수 있다. 그 결과, 입력 정보의 모달리티마다 별개의 AI 모형을 구축할 필요가 없게 된다.

인간 뇌와 비교해 보면 자연스러운 발전이다. 우리 뇌는 오감을 통해 들어온 정보를 통합해 처리한다. 고향 음식 냄새를 맡으면 고향 집 풍경이 떠오르고, 어릴 적 즐겨 듣던 동요를 들으면 친구 모습이 떠오른다. 이제 AI도 인간과 마찬가지로 다양한 형태의 감각을 한데 모아 처리할 역량을 갖추게 되었다. 그 덕분에 여러 상황에서 AI를 유용하게 활용할 가능성이 크게 열리고 있다.

문제는 학습 데이터다. 문자, 영상, 음성 등 다양한 정보를 통합해 처리하려면 AI 용량도 커지기 마련이다. 그만큼 더 많은 학습 데이터가 필요하다. 현재의 AI는 인터넷에 공개된 정보를 긁어모아 학습 데이터로 활용한다. 무한히 많아 보이지만 한계가 있다.

최근 한 AI 분석기관의 추정에 따르면 고품질 텍스트 데이터는 2026년 이전에 고갈될 수 있고, 이미지 데이터도 2030년대 후반에 이르면 부족해질 수 있다고 한다. 현재와 같이 AI 용량이 가파르게 증가하는 추세가 계속된다면, 학습 데이터가 고갈되는 시점도 머지않아 도래할 것이다.

이 문제에 대한 기술적 해법으로 AI가 생성한 데이터를 활용해 다시 AI를 학습시키는 방안이 제시되기도 한다. 하지만 그 과정에서 오히려 AI의 성능이 저하되는 문제가 발생할 수 있다는 지적도 있다. 결국 우수한 AI를 학습시키기 위해서는 여전히 인간이 창조한 데이터가 필요하다.

그러다 보니 좋은 품질의 AI 학습 데이터를 확보하기 위한 경쟁이 치열하게 이루어지고 있다. 얼마 전 OpenAI가 권리자의 허락 없이 백만 시간이 넘는 유튜브 영상을 내려받아 GPT-4 학습에 사용한 사실이 밝혀져 논란이 된 바 있다. AI 학습을 위해 그 창작자의 허락을 받아야 하는지는 법적 다툼이 이어지고 있다. 금방 명쾌한 결론이 나기는 어려울 것이다. 하지만 한 가지 확실한 것은 앞으로 인간이 창작한 고품질 학습 데이터의 가치가 더욱 높아질 것이라는 사실이다.

장기적으로 보면, 결국 인간 창작자와 AI 산업이 조화롭게 공존해야 멀티-모달리티 AI가 발전해 나갈 수 있다. AI가 인간 창작자를 모두 대체해 버린다면 머지않아 AI 성장도 멈출 가능성이 크다. 반대로 인간이 AI의 도움을 얻어 더 활발하게 창작 활동을 한다면 AI의 발전도 계속 이어질 수 있다. 인간 창작자와 AI는 서로 대립하는 것이 아니라 상생 관계에서 협업하는 관계에 있음을 기억하자.

김병필 KAIST 기술경영학부 교수

Copyright © 중앙일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?