사람처럼 사고하는 멀티모달 AI

5월 23일 아이디어 조각 찾는 순서 🧐

◾ 큐트키 : 멀티모달 AI
◾ 10초 컷 마케팅 늬우스
◾ 내공이 쌓이는 마케팅 퀴즈

인류는 지구상의 생명체들 중 유일하게 문명을 이루고 살아가는 존재예요. 여기에는 여러 가지 비결이 존재하는데요. 대표적으로는 '언어'를 사용한다는 점이에요. 인간은 언어를 사용함으로써 다른 존재와 소통하고 기록을 할 수 있기 때문에 지식을 축척할 수 있었어요.

또, 시각적 정보를 받아들이고 이해하는 뇌의 처리능력이 뛰어나요. 그리고 시각적 정보와 함께 후각, 미각, 통각을 비롯한 여러 감각들을 통해 입력된 정보들과 기억들을 융합해서 사물을 받아들이는 지식 통합 능력을 가지고 있죠.

이렇게 사람처럼 사고하는 AI를 만들기 위해, AI의 학습 방법에 사람의 학습 과정을 적용한 것이 바로 멀티모달이에요. 사람처럼 텍스트, 이미지, 음성, 비디오 등의 다양한 유형의 데이터를 통해 인지하고 학습하는 AI'멀티모달 AI'라고 하는 것이죠.

이미지 : 네이버 채널 테크

기존의 AI의 경우 텍스트를 이해하는 데 초점을 맞췄어요. 가장 많이 남겨진 인류의 기록은 텍스트였고, 그러한 언어를 분석하고 이해하는 능력이 전제되어야 명제를 만들고 추론을 할 수 있다고 본 거예요. 사람이 어떤 질문을 할 때, 그 질문을 이해해야 답을 할 수 있기 때문이죠.

하지만 AI는 텍스트로만 그 내용을 이해하고 있을 뿐, 실제로는 대상이 어떤 형태로 세상에 존재하는지 이해하지 못하는 문제가 생겨요. 예를 들어, '사과를 먹는 아기'라는 문장에서 사과는 어떤 크기인지, 먹는다는 것은 어떤 모습인지 AI는 이해하지 못해요. 데이터 처리나 통계, 검색을 통해 보여주는 것은 가능하지만 인간과 유사한 방식의 사고를 할 수 없는 것이죠.

그래서 사람과 같은 방식으로 배우고 인지하는 멀티모달 AI가 등장하고, 비로소 AI는 우리가 사는 세상을 제대로 인지할 수 있게 됐어요. 이젠 모두가 잘 아는 Chat GPT 또한 처음에는 언어 기반으로 시작했지만, 현재는 이미지, 글, 영상까지 이해하는 멀티모달로 확장되었죠.

이미지 : AI Greem

위 이미지는 AI가 만들어 준 사진인데요. '반 고흐가 그린 고양이 초상화'라는 프롬프트로 만들어 낸 이미지예요. AI는 '반 고흐'의 그림 스타일, '고양이', '초상화'라는 개념을 이해하고 위와 같은 이미지를 만들어 낸 것이죠.


10초 컷 뉴스 📰

◾ 네이버, 마이플레이스 서비스 개편
네이버가 장소·리뷰 공유 플랫폼인 '마이플레이스'에 최근 리뷰 사진을 게시할 때 블러(Blur) 처리를 할 수 있는 기능을 선보였어요. 다른 SNS처럼 리뷰를 통해 영상으로 후기를 남기거나 이미지 편집 기능을 이용한 사진을 게재하는 식으로 사용자 간 상호 소통을 활성화하는 작업이 추진되고 있는데요. 네이버는 리뷰 콘텐츠화를 발판 삼아 플레이스에서 제공하는 사업장 정보를 고도화하겠다는 구상이에요.

◾ 틱톡, 1시간 길이의 영상까지 허용하나
틱톡이 사용자가 1시간짜리 동영상을 업로드할 수 있는 기능을 테스트하고 있다고 밝혔어요. 해당 기능은 현재 일부 지역의 제한된 사용자 대상으로 테스트 중이며, 정식 출시 계획은 아직 없다고 틱톡 측은 설명했어요. 틱톡은 최근 동영상 길이 제한을 점점 늘리고 있는 추세인데요. 틱톡은 서비스 출시 당시 동영상 길이를 15초로 제한했으나, 이후 점점 영상 길이 제한을 늘리고 있어요.

◾ 공정위, 쿠팡 멤버십 가격인상 동의 눈속임 조사
쿠팡이 눈속임으로 멤버십 가격 인상 동의를 받았다는 의혹에 대해 공정위가 나섰어요. 쿠팡은 앞서 멤버십 가격을 월 4990원에서 7890원으로 인상했는데요. 관련하여 소비자 동의를 받으면서 결제 버튼 옆에 동의 문구를 넣어 버튼을 누르면 가격 인상에 동의한 것으로 간주했다는 의혹이 제기됐어요.

◾ 위기의 플랫폼 업계... 일부 강자만 회복세
플랫폼 업계가 강자 중 강자들만 경영 지표를 개선하며 회복세를 보이고 있어요. 우선 네이버, 카카오 등 온라인 대형사들의 커머스 플랫폼과 전문 플랫폼 에이블리, 퀸잇 등의 약진이 두드러졌는데요. 성장형 흑자가 아닌 비용 감축에 의한 일시적 성과라는 시각이 아직은 지배적이에요. 온라인 플랫폼의 지표라 할 수 있는 MAU, 매출, 거래액 등의 성장은 1~2년 사이 기대하기 어렵다는 지적이에요.

◾ 오픈AI, GPT-4o 음성 중단
오픈AI가 미국 유명 배우 스칼렛 요한슨의 목소리를 모방했다는 지적을 받은 챗GPT 음성 기능 일부를 중단하기로 했어요. 오픈AI는 스칼렛 요한슨을 모방한 것이 아닌 자신의 자연스러운 목소리를 사용하는 다른 전문 여배우의 목소리라며 부인했는데요. 하지만 스칼렛 요한슨은 가장 가까운 친구와 뉴스 매체도 차이를 구분할 수 없을 정도로 비슷했다고 비판했어요.


Q. 다음 중 GPT-4o에 대해 올바르게 설명한 사람은 누구일까요?

(A) 다온
(B) 경태
(C) 민희
(D) 모두 틀림

퀴즈 풀고 정답 확인하기!


#지식토스트