초거대 AI용 데이터 확대…법률안 요약 등 민간 공유

(서울=연합뉴스) 조성미 기자 = 과학기술정보통신부는 단순·반복 작업 중심의 기존 데이터 라벨링 물량을 축소하고 챗GPT와 같은 초거대 AI 모델 지원을 목표로 데이터 라벨링 사업을 추진하겠다고 14일 밝혔다.

데이터 라벨링은 인공지능이 인식할 수 있는 형태의 데이터로 컴퓨터에 입력하는 작업으로, 정부는 2017년부터 언어, 이미지, 영상, 음성 등 분야에서 AI 학습 데이터를 구축 중이다.

올해 모두 2천805억원을 투입해 헬스케어, 교통·물류, 재난·안전·환경, 농·축·수산, 제조, 로보틱스, 문화·관광, 스포츠, 교육, 법률, 금융, 지식재산 등 분야에서 신규 데이터 150종을 구축할 예정이다.

이 가운데 데이터 34종은 '초거대AI 지원 데이터'로 구분해 구축하기로 했다.

이미지 데이터 48종은 생성형 AI 학습에 활용할 수 있도록 이미지를 묘사·설명하는 캡션 정보를 추가 입력한다.

문화관광, 스포츠, 법률 등 특화 분야에서 인공지능 도입을 목표로 관련 데이터 구축 비중을 지난해 19%에서 올해 25%로 높이기로 했다.

아울러 법률안 검토 보고서 요약 데이터, 119 신고 접수 음성 데이터 등 국회·소방과 같은 공공분야에서 보유한 데이터의 민간 이용 확산을 지원한다.

올해 사업 주관기관 114곳을 선정할 예정이며, 데이터 1종당 구축 비용으로 연간 최대 17억원 지원한다.

과기정통부는 이달 말부터 지난해 데이터 라벨링 사업을 통해 구축한 데이터 310종을 품질검증을 거쳐 순차적으로 개방한다고 덧붙였다.

csm@yna.co.kr

▶제보는 카톡 okjebo

IT/과학