MS, 신규 SLM '파이3.5' 공개…"일부 성능 GPT-4o 미니 제쳐"

남혁우 기자 2024. 8. 21. 09:43
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

마이크로소프트가 신규 소규모언어모델(SLM) '파이3.5'를 공개했다.

파이3.5는 합성 데이터와 필터링한 공개 웹사이트 기반 데이터를 학습한 오픈 멀티모달 모델이다.

마이크로소프트 측은 "파이3.5는 저렴한 비용과 낮은 대기 시간을 제공하는 SML모델"이라며 "개발자들이 이러한 AI를 활용해 상업 및 연구 분야 전반에서 혁신을 촉진할 수 있도록 오픈소스로 제공하고 있다"고 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

산업과 제한된 컴퓨팅 환경에 최적화 가능한 AI 모델…오픈소스로 제공

(지디넷코리아=남혁우 기자)마이크로소프트가 신규 소규모언어모델(SLM) '파이3.5'를 공개했다. 벤치마크 결과 일부 성능은 오픈AI의 GPT-4o 미니를 넘어서는 것으로 나타났다.

21일 벤처비트 등 외신에 따르면 마이크로소프트는 파이3.5의 AI모델 3종을 허깅페이스를 통해 출시했다.

파이3.5는 합성 데이터와 필터링한 공개 웹사이트 기반 데이터를 학습한 오픈 멀티모달 모델이다.

마이크로소프트에서 공개한 AI 벤치마크 측정 결과(이미지=마이크로소프트)

공개한 3종은 파이3.5 미니, 파이3.5 전문가 혼합(MoE), 파이3.5 비전이다. 각각 빠른 추론, 복잡한 추론 그리고 이미지 및 비디오 분석 등 비전 작업을 위해 설계됐다.

파이3.5 미니는 38억개의 매개변수로 학습된 SLM으로 노트북이나 모바일 디바이스 등 제한된 컴퓨팅 환경에서도 추론을 비롯한 코드 생성, 수학 문제 해결 작업을 위해 설계됐다.

특히 다국어 및 복잡한 대화에 관련 성능이 최적화됐으며, 128k 토큰 컨텍스트를 지원해 대량의 텍스트도 한 번에 검토하는 것이 가능하다.

파이-3.5 MoE는 복잡한 작업을 효율적으로 처리하기 위해 설계된 모델이다. 서로 다른 역할이나 작업에 특화된 소규모AI를 여러 개 결합한 형태가 특징이다.

덕분에 총 419억 파라미터 규모지만 주어진 업무에 필요한 소규모 모델만 처리를 담당하기 때문에 실제는 66억 개의 파라미터만 활성화해 작업을 수행한다. 이를 통해 자원 효율성을 높임과 동시에 높은 성능을 유지할 수 있다.

이를 통해 파이3.5 MoE는 일부 작업의 벤치마크 결과에서 GPT-4o 미니를 넘어서는 결과를 달성했다.

과학, 인문학, 사회과학 등 다양한 분야의 이해도를 평가하는 다중 작업 언어 이해(MMLU)의 경우 파이3.5 MoE는 GPT-4o 미니보다 평균 2-3% 더 높은 점수를 기록했다.

코드를 이해하거나 긴 문맥에서의 정보 추출을 평가하는 레포QA에서도 파이3.5 MoE가 높은 성과를 거뒀다.

파이3.5 비전은 이름에서 알 수 있듯 텍스트와 이미지 처리 기능에 최적화한 모델이다. 41억5천만 파라미터 기반으로 이미지 및 문자 인식, 차트 해석, 비디오 요약 관련 학습을 중점적으로 훈련했다.

세 모델은 모두 오픈소스로 허깅페이스에서 다운 받아 사용할 수 있다. 또한 마이크로소프트의 MIT 라이선스 기반으로 상업적 사용 및 수정, 배포에 제한이 없다.

마이크로소프트 측은 "파이3.5는 저렴한 비용과 낮은 대기 시간을 제공하는 SML모델"이라며 "개발자들이 이러한 AI를 활용해 상업 및 연구 분야 전반에서 혁신을 촉진할 수 있도록 오픈소스로 제공하고 있다"고 밝혔다.

남혁우 기자(firstblood@zdnet.co.kr)

Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?