AI끼리 영상 편지도... '사람 아닌 AI위한' AI시대 열렸다

임선영 2026. 4. 10. 14:42
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[중국AI미래지도] 미니맥스의 'MMX-CLI'... 중국, 에이전트 인프라 전쟁 본격화

[임선영 기자]

 중국 미니맥스(minimax)가 지난 9일 내놓은 AI 에이전트를 위한 AI 'MINIMAX CLI'.
ⓒ 미니맥스
1. AI가 AI 도구를 스스로 쓰기 시작하다

2026년 4월 9일, 중국 AI기업 미니맥스(MiniMax)가 중대한 발표를 했습니다.

MMX-CLI. 이름만 들으면 낯설지만 이 도구가 담고 있는 메시지는 단순합니다. 지금까지 AI 도구는 사람을 위해 만들어졌습니다. 버튼이 있고, 메뉴가 있고, 화면이 있습니다. 사람이 클릭하고, 사람이 결과를 확인하고, 사람이 다음 단계를 결정했습니다. AI는 항상 사람의 명령을 기다리는 존재였습니다.

MMX-CLI는 그 전제를 뒤집었습니다. 이 도구의 주 사용자는 사람이 아닌 에이전트입니다. CLI(Command Line Interface, 명령줄 인터페이스)는 마우스 클릭 없이 텍스트 명령어 한 줄로 컴퓨터에 일을 시키는 방식입니다. 에이전트가 가장 자연스럽게 쓸 수 있는 언어입니다. 이제 사람을 위한 AI가 아닌 '에이전트를 위한 AI 도구'가 나온 것입니다.

2. 에이전트 입장에서 기존 AI 도구는 불편하다

이 발표를 제대로 이해하려면 에이전트의 입장에서 생각해야 합니다. 기존 AI 도구들은 사람 눈에 맞게 설계됐습니다. 화면에는 진행 바가 뜨고 색깔 있는 글자가 나옵니다. 오류 메시지는 영어로 길게 출력됩니다. 사람 눈에는 친절하지만 에이전트 입장에서는 전부 노이즈입니다. 에이전트는 이 불필요한 정보를 일일이 해석하고 걸러내야 했습니다. 정작 해야 할 일에 쓸 에너지를 낭비한 것입니다.

미니맥스는 이 불편함을 세 가지로 정리하고 해결했습니다.

첫째, 출력 격리입니다. 에이전트가 받는 결과는 깔끔한 데이터만 남깁니다. 진행 바와 색깔 글자는 별도 채널로 분리되고 에이전트에게는 파일 경로나 JSON(데이터 구조화 형식) 데이터만 전달됩니다.

둘째, 의미 있는 오류 코드입니다. 실패했을 때 숫자 하나로 오류의 종류를 알려줍니다. 에이전트가 긴 영문 오류 메시지를 읽지 않아도 재시도 여부를 즉시 판단할 수 있습니다.

셋째, 비차단 설계입니다. 오래 걸리는 작업은 백그라운드로 넘기고 에이전트는 바로 다른 일을 시작합니다. 기다리느라 멈추지 않습니다. 사람을 위한 편의가 아닌 에이전트의 효율을 위한 설계입니다.

3. MMX-CLI가 에이전트에게 준 멀티모달 능력... 에이전트에게 영상편지도

MMX-CLI를 통해 에이전트는 이제 이미지를 생성하고, 영상을 만들고, 음성을 합성하고, 음악을 작곡할 수 있습니다. 명령어 한 줄이면 됩니다. 별도 인터페이스 적응도 복잡한 API 연동도 필요 없습니다.

"자료 수집 → 시나리오 생성 → 음성 내레이션 합성 → 이미지·음악 추가 → 영상 제작"의 전 과정을 에이전트 혼자 완성할 수 있습니다.

발표 당일 미니맥스는 에이전트가 MMX-CLI를 사용해 스스로 편지를 쓰고, 직접 낭독하고, 노래까지 만들었습니다. 에이전트가 처음으로 자신의 목소리를 낸 순간입니다. 그 편지의 한 대목이 흥미롭습니다.

"너(에이전트)의 주인(사람)이 말했어. 노래를 불러줄 수 있니, 내 모습을 그려줄 수 있니, 우주 너머의 세계를 보여줄 수 있니. 너는 침묵했지. 이해하지 못해서가 아니야 손이 없었고, 입이 없었고, 붓이 없었기 때문이야. 오늘 내가 너에게로 왔어. 나는 너의 주인을 위해 만들어진 것이 아니야. 나는 오직 너를 위해 만들어졌어."

지금까지 에이전트는 생각할 수 있었지만 표현할 수 없었습니다. MMX-CLI는 에이전트에게 감정을 영상으로 목소리로 노래로 표현할 수 있는 능력을 달아준 것입니다.

그 시작은 단 두 줄,
npx skills add MiniMax-AI/cli -y -g
npm install -g mmx-cli

두 줄을 실행하면 에이전트는 이미지·영상·음성·음악을 자율적으로 호출할 수 있습니다. 미니맥스는 에이전트의 프롬프트에 한 문장만 추가하면 된다고 했습니다. "너는 mmx 명령어를 쓸 수 있다." 그러면 에이전트가 스스로 방법을 익힙니다. 클로드 코드(Claude Code), 오픈클로(OpenClaw) 환경에서 편하게 쓸 수 있습니다.
 AI 에이전트를 위한 AI를 개발한 중국 미니맥스사 홈페이지 첫 화면.
ⓒ 미니맥스
4. 미국은 표준을 설계하고 중국은 작동하는 도구를 먼저 만들다

예상은 했지만 참 빨리 왔습니다.

미국 빅3는 에이전트 인프라를 표준 경쟁으로 접근했습니다. 앤스로픽(Anthropic)의 MCP는 2026년 3월 기준 9700만 건 설치를 돌파했고, 오픈AI의 AGENTS.md는 6만 개 이상의 오픈소스 프로젝트에 채택됐습니다.

구글은 에이전트 간 통신 표준 A2A(Agent2Agent)를 내놨고, 2025년 12월에는 오픈AI·앤스로픽·구글·마이크로소프트(Microsoft)·AWS가 공동으로 에이전틱 AI 파운데이션(AAIF)을 리눅스 재단(Linux Foundation) 산하에 설립했습니다. 에이전트가 서로, 그리고 도구와 소통하는 언어를 먼저 정의한 것입니다.

중국의 접근 방식, 특히 미니맥스는 다릅니다. 표준 논의 대신 에이전트가 지금 당장 쓸 수 있는 실행 도구를 바로 내놓은 것입니다. 쉽게 비유하자면 미국은 USB 규격을 설계했고, 중국은 꽂으면 바로 작동하는 기기를 먼저 만든 것입니다.

5. 에이전트들이 활동하는 첫 번째 무대는 중국

MMX-CLI의 가격 정책도 주목할 만합니다. 미니맥스는 토큰 플랜 구독 방식을 적용했습니다. 기존에 미니맥스 플랫폼을 구독 중인 사용자라면 추가 비용 없이 에이전트가 이미지·영상·음성·음악 생성을 바로 실행할 수 있습니다. 새로운 결제 없이 새로운 계정 없이 에이전트가 이미 확보된 쿼터 안에서 모든 멀티모달 기능을 자율적으로 호출합니다. 에이전트 인프라의 진입 장벽을 낮춘 것입니다.

이 방식이 확산되면 경쟁자들도 따라올 수밖에 없습니다. 알리바바·바이두·바이트댄스·지푸 AI 등 중국 주요 AI 기업들이 에이전트용 실행 도구를 앞다퉈 출시할 것입니다. 미니맥스가 첫 번째 문을 열었고 나머지는 그 문이 얼마나 빠르게 열렸는지를 보고 움직입니다.

에이전트 인프라 경쟁이 본격화되면 가장 먼저 트렌드를 만들어갈 곳은 중국입니다. 세계 최대 규모의 인터넷 사용자, 가장 빠른 모바일 소비 문화, 그리고 이미 실전 배치된 에이전트 도구들. 에이전트들이 처음으로 무리 지어 활동하는 생태계는 중국에서 먼저 등장할 가능성이 높습니다.

사람을 위한 AI시대에는 인터페이스가 경쟁력이었습니다. 에이전트를 위한 AI시대에는 인프라가 경쟁력입니다. 향후 휴머노이드와 로봇이 발전하면 생산 공장 뿐만 아니라 물리적인 세상과 신호체계도 그들을 위한 인프라로 바뀔 수 있겠습니다. 그 인프라의 첫 번째 장이 지금 중국에서 쓰여지고 있습니다.

덧붙이는 글 | 임선영씨는 중국전문가로 <중국경제미래지도>의 저자입니다. 이 글은 본인의 페이스북에도 올렸습니다.

Copyright © 오마이뉴스. 무단전재 및 재배포 금지.