슈퍼브에이아이, 자동으로 균형 잡힌 데이터셋 생성 툴 출시

김현아 2023. 4. 27. 07:54
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

초거대AI 시대에 맞춰 데이터셋도 달라지고 있다.

머신러닝 데이터 관리 플랫폼 기업 슈퍼브에이아이는 자동 데이터셋 생성 기능을 제공하는 '슈퍼브 큐레이트(SUPERB Curate)'를 정식 출시했다고 밝혔다.

슈퍼브 큐레이트의 핵심 기능 중 하나인 오토 큐레이트(Auto-Curate)는 고성능의 데이터 선별 알고리즘을 활용해 학습용 데이터셋이나 검증용 데이터셋에 반드시 포함시켜야 하는 유의미한 데이터를 편향성 없이 자동으로 선별해 준다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[이데일리 김현아 기자]

초거대AI 시대에 맞춰 데이터셋도 달라지고 있다.

머신러닝 데이터 관리 플랫폼 기업 슈퍼브에이아이는 자동 데이터셋 생성 기능을 제공하는 ‘슈퍼브 큐레이트(SUPERB Curate)’를 정식 출시했다고 밝혔다.

슈퍼브 큐레이트는 머신러닝 팀이 손쉽게 훈련용 데이터셋을 구축하여 더 강건하고 높은 성능의 모델을 구현할 수 있도록 하는 혁신적인 데이터 큐레이션(Curation; 양질의 데이터를 취합, 선별, 분류, 구조화하는 것) 툴이다.

기존 데이터셋 구축 및 관리 방식의 한계를 극복하며 컴퓨터 비전 데이터를 한곳에서 손쉽게 관리하고, 선별하고, 시각화할 수 있다.

AI 기능을 통해 데이터셋 전체를 가장 잘 대변하는 균형 잡힌 학습용 데이터 슬라이스를 자동으로 구축하거나, 엣지 케이스나 라벨링 오류일 확률이 높은 데이터와 같이 중요한 데이터를 자동으로 탐색하는 등, 사람의 개입을 최소화하면서도 앞서 말한 모든 문제를 손쉽게 해결해 준다.

슈퍼브 큐레이트의 핵심 기능 중 하나인 오토 큐레이트(Auto-Curate)는 고성능의 데이터 선별 알고리즘을 활용해 학습용 데이터셋이나 검증용 데이터셋에 반드시 포함시켜야 하는 유의미한 데이터를 편향성 없이 자동으로 선별해 준다. 이는 머신러닝 모델의 정확성을 개선하는데 도움이 된다. 이를 통해 균형 잡힌 데이터셋을 구축할 수 있어 랜덤 샘플링 의존도가 대폭 줄어들게 된다.

슈퍼브 큐레이트를 이용해 데이터셋 구축을 진행한 닛폰스틸(Nippon-Steel)의 연구원 Nobuyuki Tatemizo 은 “ML 프로젝트를 진행할 때 한정된 자원을 적재적소에 잘 사용하면서 동시에 모델을 상용화하기에 충분한 양의 고품질 데이터까지 확보하기는 정말 어려웠는데, 슈퍼브 큐레이트를 만나고 생각이 바뀌었다. 우선적으로 라벨링해야 하는, 모델 성능 개선에 가장 유의미한 데이터를 자동으로 선별해 주는 데다, 검색 기능과 함께 사용하면 신규 객체 클래스를 훨씬 빠르게 추가할 수 있다. 또 특징맵(Feature map)에서 학습용 데이터를 균일하게 추출해 주어서 데이터가 편향될 일 없이 소량의 엄선된 데이터만으로도 원활하고 빠른 모델 재훈련이 가능했다”고 말했다.

슈퍼브에이아이 관계자는 “데이터셋이 커지고 속성값이 다양해져도 동일한 ROI를 유지하려면 더 적은 시간, 노력, 비용으로 더 많은 데이터를 라벨링 할 수 있는 우수한 모델을 구축하고 관리할 수 있어야 한다. 슈퍼브 큐레이트를 이용하면 데이터셋 관리에 대한 고민은 줄어들게 될 것”이라고 말했다.

김현아 (chaos@edaily.co.kr)

Copyright © 이데일리. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?