"생성AI 추론 비용 절감"…프렌들리AI, GPU 최적화 서비스 출시

[이 기사에 나온 스타트업에 대한 보다 다양한 기업정보는 유니콘팩토리 빅데이터 플랫폼 '데이터랩'에서 볼 수 있습니다.]

인공지능(AI) 기술 개발·적용 과정에서 발생하는 비용의 절감하는 기술을 개발한 프렌들리AI가 생성 AI 모델을 쉽게 활용할 수 있도록 돕는 서비스를 출시했다고 4일 밝혔다.

이번에 출시한 '프렌들리AI 서버리스 엔드포인트(Friendli Serverless Endpoints)'는 △연구자 △개발자 △머신러닝 엔지니어 △데이터 과학자 등이 서빙 인프라 관리를 신경 쓸 필요 없이 생성 AI 모델들을 쉽게 사용할 수 있도록 지원한다.

챗GPT의 등장 이후 각광 받는 초거대 AI 분야에서 '학습' 영역은 단기간 집중적으로 대용량·고사양의 그래픽처리장치(GPU)를 필요로 한다. 이후 '추론' 영역은 적은 양의 GPU를 끊김 없이 상시 사용해야 하는 특성을 갖고 있다.

이 때문에 학습에 사용한 인프라를 그대로 추론 인프라로 활용하면 필요 이상의 비용 부담이 발생한다. 프렌들리AI는 초거대 AI 모델의 효율적인 추론을 가능하게 하는 서빙 시스템을 개발해 GPU 최적화 등의 문제를 해결했다고 강조했다.

프렌들리AI 관계자는 "누구나 쉽게 낮은 비용과 빠른 속도로 라마2, 스테이블 디퓨전, 미스트랄 등 인기 있는 생성 AI 모델을 자사 서비스에 통합해 텍스트 생성, 이미지 생성 등을 활용할 수 있다"고 했다.

새롭게 내놓은 서버리스 엔드포인트 서비스는 오픈소스 프레임워크를 쓰는 다른 솔루션 대비 최대 4배 빠른 시간에 응답을 생성하고, 최적화된 서빙 엔진은 기존 솔루션에 비해 서빙에 필요한 GPU 수를 최대 7분의 1 수준으로 줄인다는 설명이다.

전병곤 프렌들리AI 대표는 "생성 AI의 미래는 해당 기술에 누구나 쉽게 접근해서 사용할 수 있도록 하는 것에 있다"며 "오픈소스 생성 AI 모델을 더 빠르고 저렴하게 제공하기 위해 새로운 서비스를 개발했다"고 말했다.

[머니투데이 스타트업 미디어 플랫폼 '유니콘팩토리']

최태범 기자 bum_t@mt.co.kr

경제