MS의 'AI 독립선언'… 오픈AI 도움 없이 자체모델 '오픈'

원호섭 기자(wonc@mk.co.kr) 2026. 4. 3. 17:30
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

마이크로소프트(MS)가 음성 전사(받아쓰기)와 이미지·음성 생성 등에 특화된 인공지능(AI) 모델을 처음 공개하며 'AI 자립'에 시동을 걸었다.

MS는 2일(현지시간) MS AI 시리즈로 각각 음성 인식, 음성 생성, 이미지 생성이 가능한 'MAI-전사-1' 'MAI-음성-1' 'MAI-이미지-2' 등 3개 모델을 공개했다.

MS는 그동안 오픈AI와 협력해 챗GPT 기반 AI 모델을 자사 서비스에 적용해왔던 만큼 자체 모델 확보에는 제약이 있었다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

음성·이미지 제작에 특화된
생성형AI 'MAI시리즈' 공개

마이크로소프트(MS)가 음성 전사(받아쓰기)와 이미지·음성 생성 등에 특화된 인공지능(AI) 모델을 처음 공개하며 'AI 자립'에 시동을 걸었다. 전략적 파트너였던 오픈AI 의존에서 벗어나 내년까지 최첨단 대형 AI 모델을 확보한다는 전략이다.

MS는 2일(현지시간) MS AI 시리즈로 각각 음성 인식, 음성 생성, 이미지 생성이 가능한 'MAI-전사-1' 'MAI-음성-1' 'MAI-이미지-2' 등 3개 모델을 공개했다. MS에 따르면 음성 인식 모델은 25개 주요 언어 테스트에서 챗GPT나 제미나이 같은 경쟁 모델과 비교했을 때 최고 수준의 정확도를 기록했다.

음성 생성 모델은 사람 말투와 감정 표현을 자연스럽게 구현하는 데 초점을 맞췄다. 몇 초 분량의 음성만으로도 특정 화자 목소리를 생성할 수 있으며 1초 만에 60초 길이 음성을 만들 수 있는 속도를 확보했다. 이미지 생성 모델은 속도를 빠르게 끌어올린 게 특징이다.

MS는 "자연스러운 조명과 피부색, 텍스트 표현 정확도를 강화해 광고나 디자인 등 상업적으로 활용할 수 있다"며 "글로벌 광고 기업 WPP가 초기 파트너로 참여하는 등 기업 고객 확보에 속도가 붙고 있다"고 밝혔다. 가격 경쟁력도 강조됐다. 음성 인식은 시간당 0.36달러, 음성 생성은 100만문자당 22달러, 이미지 생성은 입력·출력 기준 토큰당 각각 5달러와 33달러 수준으로 책정됐다. MS는 "대형 클라우드 사업자 중 최고 수준의 가격 대비 성능"이라고 말했다.

MS의 이번 발표는 단순한 신제품 공개를 넘어 AI 전략의 전환 신호라는 해석이 나온다. MS는 그동안 오픈AI와 협력해 챗GPT 기반 AI 모델을 자사 서비스에 적용해왔던 만큼 자체 모델 확보에는 제약이 있었다. 과거 오픈AI와 MS 간 계약 조건 중에 'MS는 범용 AI 모델을 직접 개발하지 않는다'는 조항이 있었는데 AI 확장의 걸림돌로 작용했다.

하지만 지난해 오픈AI와의 재협상 과정에서 이 같은 제한이 사라지면서 상황이 바뀌었다. 이를 계기로 MS는 독자 AI 모델 개발에 속도를 내고 있다. 장기적으로는 외부 AI에 의존하지 않는 자립형 AI 체제를 구축한다는 목표다. 이를 위해 MS는 대규모 컴퓨팅 인프라스트럭처도 빠르게 확충하고 있다.

[실리콘밸리 원호섭 특파원]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지