메타 부사장 “라마 파생 AI모델 6만여개, 오픈소스로 사회가치 기여”
김재민 2024. 10. 10. 17:39
- 지난달 라마 3.2 선봬…“개방형 생태계 개척”
- 한국과학기술정보연구원 실제 성과 ‘고니’ 소개
- SAM2, Seamless M4T 등 메타 연구 성과 공개
마노하 팔루리 메타 부사장이 오픈소스 대규모 언어모델 ‘라마(Llama)’를 중심으로 한 AI(인공지능) 기술 오픈소스로 모든 이들이 AI 혜택을 누릴 수 있는 개방형 생태계를 만들겠다는 각오를 밝혔다.
팔루리 부사장은 10일 오전 서울 강남구 메타코리아 사무실에서 열린 ‘메타의 AI 미디어 브리핑’ 행사에서 이 같이 밝혔다. 이날 행사에선 라마의 성과 및 오픈소스 접근 방식, 국내 라마 활용 사례, 메타 인공지능 연구소 ‘FAIR(Fundamental AI Research)’의 최신 연구 내용·성과 등이 소개됐다.
첫 발표자로 나선 팔루리 부사장은 라마에서 파생된 AI모델이 6만5000개에 달하며 허깅페이스에서 라마 모델 다운로드 수는 4억건 이상으로, 이는 지난해 대비 10배 증가한 수치라고 설명했다.
그는 “메타는 개방형 생태계를 개척하고 수천 개의 오픈소스를 제공해 전 세계 개발자들이 서로의 연구 성과를 더해 더 나은 AI모델을 선보이고, 개발자뿐만 아니라 메타, 그리고 전 세계가 수혜를 볼 수 있도록 한다”고 설명했다.
팔루리 부사장은 안전성에 대한 부분도 강조했다. 그는 “AI모델을 구축하고 개발하는 데 있어 신뢰성과 안전성은 프로젝트 처음과 마지막에만 고려될 것이 아니라 전반적으로 고려돼야 한다”며 “라마 가드(Guard)나 프롬프트 가드(Prompt-Guard) 등 도구를 통해 모델 자체의 안전성에서 한 발 나아가 시스템 전체의 안전성을 확보하도록 했다”고 말했다.
이어 “메타의 장기 목표는 AGI(범용인공지능, Artificial General Intelligence)를 구축하고 이를 책임감 있게 오픈소스로 공개해 모든 사람의 AI의 혜택을 누릴 수 있도록 하는 것”이라며 “AI기술은 단순히 기업의 성장을 넘어 사회와 경제에 큰 가치를 제공할 수 있다”고 덧붙였다. AGI는 지각·추론·계획·실행 등 능력을 갖춘, 인간과 비슷하거나 그 이상의 수준을 갖춘 사실상 궁극적 형태의 AI를 말한다.
한국과학기술정보연구원(KISTI)의 장광선 선임연구원은 라마를 활용한 과학기술정보 특화 대형언어모델인 ‘고니(KISTI Open Natural Intelligence, KONI)’를 소개했다. 장 연구원은 “일반 상업용 LLM(거대언어모델)이나 자체 LLM을 개발하기엔 보안과 비용 등 문제가 동반되는 반면, 라마는 비교적 적은 자원으로 보안성이 높은 모델을 구축할 수 있어 선택했다”고 말했다.
KISTI는 고니에 과학기술정보(논문·문헌 등)를 학습시켜 다양한 과학기술 특화 서비스를 제공하는 한편, 지난해 12월 허깅스페이스에 모델을 공개해 여타 공공기관에서도 활용할 계획 중이다. 장 연구원은 “내년부터는 스스로 연구하는 에이전트 모델 ‘연구자AI’를 개발할 계획”이라며 “이를 통해 과학적 발전을 도모하고 관련 난제들을 해소할 수 있길 기대해 본다”고 말했다.
메타 인공지능 연구소 ‘FAIR’는 연구로 시작해 제품화가 된 Segment Anything 2(SAM2) 모델과, Seamless M4T, Audiobox 기술을 소개했다. 지난해부터 공개돼 온 이 기술들은 메타 데모 버전으로 체험해볼 수 있다.
니킬라 라비 FAIR 연구원은 “과거 사물에 대한 인식은 고양이·사과 등 이미지에 대한 아주 특화된 좁은 범위 내에서 전문화돼 있었다면, SAM의 경우 영상에 포함된 모든 프레임에 마스크를 만들어 인식한다”면서 “일상의 여러 영상들은 대상이 빠르게 지나가 블러(blur) 현상이 발생하거나, 사라졌다 다시 나타나고 가려지는 등 매우 복잡하고 역동적이기 때문에 이를 원활히 수행하도록 한 것이 특징”이라고 설명했다. SAM2 기술은 지난 7월 오픈소스로 공개된 바 있으며, 향후 해양 과학 및 의료 분야 등에도 혁신적으로 활용될 것으로 기대되고 있다.
이어 후안 피노 FAIR 연구원은 음성 및 텍스트 명령을 통해 특정 용도에 맞춤화된 음향 효과 또는 자연스러운 목소리를 제작하는 Audiobox 기술을 소개하며 “기존 Voicebox 기술 대비 연령·성별·환경 등 조건을 입력할 수 있는 ‘Text style prompt’와, ‘Voice prompt(억양 등)’를 추가해 더 자연스럽고 원하는 결과물을 정확히 도출할 수 있다”고 말했다.
또, 음성과 텍스트를 넘나들며 즉각적인 번역을 제공하는 Seamless M4T 기능에 대해서는 “텍스트 기준 최대 100개 언어, 음성 기준 36개 언어에 대한 음성-텍스트, 음성-음성, 텍스트-음성, 텍스트-텍스트 번역을 수행할 수 있다”며 “동시통역과 발화자의 톤과 억양을 보존해 더 정확도 높은 번역을 도출할 수 있으며, 사람 귀에는 들리지 않는 신호음(워터마크)을 추가해 추적하는 등 안전성을 높였다”고 설명했다.
김재민 기자 jaemin@kukinews.com
- 한국과학기술정보연구원 실제 성과 ‘고니’ 소개
- SAM2, Seamless M4T 등 메타 연구 성과 공개
마노하 팔루리 메타 부사장이 오픈소스 대규모 언어모델 ‘라마(Llama)’를 중심으로 한 AI(인공지능) 기술 오픈소스로 모든 이들이 AI 혜택을 누릴 수 있는 개방형 생태계를 만들겠다는 각오를 밝혔다.
팔루리 부사장은 10일 오전 서울 강남구 메타코리아 사무실에서 열린 ‘메타의 AI 미디어 브리핑’ 행사에서 이 같이 밝혔다. 이날 행사에선 라마의 성과 및 오픈소스 접근 방식, 국내 라마 활용 사례, 메타 인공지능 연구소 ‘FAIR(Fundamental AI Research)’의 최신 연구 내용·성과 등이 소개됐다.
첫 발표자로 나선 팔루리 부사장은 라마에서 파생된 AI모델이 6만5000개에 달하며 허깅페이스에서 라마 모델 다운로드 수는 4억건 이상으로, 이는 지난해 대비 10배 증가한 수치라고 설명했다.
그는 “메타는 개방형 생태계를 개척하고 수천 개의 오픈소스를 제공해 전 세계 개발자들이 서로의 연구 성과를 더해 더 나은 AI모델을 선보이고, 개발자뿐만 아니라 메타, 그리고 전 세계가 수혜를 볼 수 있도록 한다”고 설명했다.
팔루리 부사장은 안전성에 대한 부분도 강조했다. 그는 “AI모델을 구축하고 개발하는 데 있어 신뢰성과 안전성은 프로젝트 처음과 마지막에만 고려될 것이 아니라 전반적으로 고려돼야 한다”며 “라마 가드(Guard)나 프롬프트 가드(Prompt-Guard) 등 도구를 통해 모델 자체의 안전성에서 한 발 나아가 시스템 전체의 안전성을 확보하도록 했다”고 말했다.
이어 “메타의 장기 목표는 AGI(범용인공지능, Artificial General Intelligence)를 구축하고 이를 책임감 있게 오픈소스로 공개해 모든 사람의 AI의 혜택을 누릴 수 있도록 하는 것”이라며 “AI기술은 단순히 기업의 성장을 넘어 사회와 경제에 큰 가치를 제공할 수 있다”고 덧붙였다. AGI는 지각·추론·계획·실행 등 능력을 갖춘, 인간과 비슷하거나 그 이상의 수준을 갖춘 사실상 궁극적 형태의 AI를 말한다.
한국과학기술정보연구원(KISTI)의 장광선 선임연구원은 라마를 활용한 과학기술정보 특화 대형언어모델인 ‘고니(KISTI Open Natural Intelligence, KONI)’를 소개했다. 장 연구원은 “일반 상업용 LLM(거대언어모델)이나 자체 LLM을 개발하기엔 보안과 비용 등 문제가 동반되는 반면, 라마는 비교적 적은 자원으로 보안성이 높은 모델을 구축할 수 있어 선택했다”고 말했다.
KISTI는 고니에 과학기술정보(논문·문헌 등)를 학습시켜 다양한 과학기술 특화 서비스를 제공하는 한편, 지난해 12월 허깅스페이스에 모델을 공개해 여타 공공기관에서도 활용할 계획 중이다. 장 연구원은 “내년부터는 스스로 연구하는 에이전트 모델 ‘연구자AI’를 개발할 계획”이라며 “이를 통해 과학적 발전을 도모하고 관련 난제들을 해소할 수 있길 기대해 본다”고 말했다.
메타 인공지능 연구소 ‘FAIR’는 연구로 시작해 제품화가 된 Segment Anything 2(SAM2) 모델과, Seamless M4T, Audiobox 기술을 소개했다. 지난해부터 공개돼 온 이 기술들은 메타 데모 버전으로 체험해볼 수 있다.
니킬라 라비 FAIR 연구원은 “과거 사물에 대한 인식은 고양이·사과 등 이미지에 대한 아주 특화된 좁은 범위 내에서 전문화돼 있었다면, SAM의 경우 영상에 포함된 모든 프레임에 마스크를 만들어 인식한다”면서 “일상의 여러 영상들은 대상이 빠르게 지나가 블러(blur) 현상이 발생하거나, 사라졌다 다시 나타나고 가려지는 등 매우 복잡하고 역동적이기 때문에 이를 원활히 수행하도록 한 것이 특징”이라고 설명했다. SAM2 기술은 지난 7월 오픈소스로 공개된 바 있으며, 향후 해양 과학 및 의료 분야 등에도 혁신적으로 활용될 것으로 기대되고 있다.
이어 후안 피노 FAIR 연구원은 음성 및 텍스트 명령을 통해 특정 용도에 맞춤화된 음향 효과 또는 자연스러운 목소리를 제작하는 Audiobox 기술을 소개하며 “기존 Voicebox 기술 대비 연령·성별·환경 등 조건을 입력할 수 있는 ‘Text style prompt’와, ‘Voice prompt(억양 등)’를 추가해 더 자연스럽고 원하는 결과물을 정확히 도출할 수 있다”고 말했다.
또, 음성과 텍스트를 넘나들며 즉각적인 번역을 제공하는 Seamless M4T 기능에 대해서는 “텍스트 기준 최대 100개 언어, 음성 기준 36개 언어에 대한 음성-텍스트, 음성-음성, 텍스트-음성, 텍스트-텍스트 번역을 수행할 수 있다”며 “동시통역과 발화자의 톤과 억양을 보존해 더 정확도 높은 번역을 도출할 수 있으며, 사람 귀에는 들리지 않는 신호음(워터마크)을 추가해 추적하는 등 안전성을 높였다”고 설명했다.
김재민 기자 jaemin@kukinews.com
Copyright © 쿠키뉴스. 무단전재 및 재배포 금지.
이 기사에 대해 어떻게 생각하시나요?
쿠키뉴스에서 직접 확인하세요. 해당 언론사로 이동합니다.