초거대 AI용 데이터 확대…법률안 요약 등 민간 공유

조성미 2023. 4. 14. 14:31
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

과학기술정보통신부는 단순·반복 작업 중심의 기존 데이터 라벨링 물량을 축소하고 챗GPT와 같은 초거대 AI 모델 지원을 목표로 데이터 라벨링 사업을 추진하겠다고 14일 밝혔다.

데이터 라벨링은 인공지능이 인식할 수 있는 형태의 데이터로 컴퓨터에 입력하는 작업으로, 정부는 2017년부터 언어, 이미지, 영상, 음성 등 분야에서 AI 학습 데이터를 구축 중이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

과학기술정보통신부 [과학기술정보통신부 제공]

(서울=연합뉴스) 조성미 기자 = 과학기술정보통신부는 단순·반복 작업 중심의 기존 데이터 라벨링 물량을 축소하고 챗GPT와 같은 초거대 AI 모델 지원을 목표로 데이터 라벨링 사업을 추진하겠다고 14일 밝혔다.

데이터 라벨링은 인공지능이 인식할 수 있는 형태의 데이터로 컴퓨터에 입력하는 작업으로, 정부는 2017년부터 언어, 이미지, 영상, 음성 등 분야에서 AI 학습 데이터를 구축 중이다.

올해 모두 2천805억원을 투입해 헬스케어, 교통·물류, 재난·안전·환경, 농·축·수산, 제조, 로보틱스, 문화·관광, 스포츠, 교육, 법률, 금융, 지식재산 등 분야에서 신규 데이터 150종을 구축할 예정이다.

이 가운데 데이터 34종은 '초거대AI 지원 데이터'로 구분해 구축하기로 했다.

이미지 데이터 48종은 생성형 AI 학습에 활용할 수 있도록 이미지를 묘사·설명하는 캡션 정보를 추가 입력한다.

문화관광, 스포츠, 법률 등 특화 분야에서 인공지능 도입을 목표로 관련 데이터 구축 비중을 지난해 19%에서 올해 25%로 높이기로 했다.

아울러 법률안 검토 보고서 요약 데이터, 119 신고 접수 음성 데이터 등 국회·소방과 같은 공공분야에서 보유한 데이터의 민간 이용 확산을 지원한다.

올해 사업 주관기관 114곳을 선정할 예정이며, 데이터 1종당 구축 비용으로 연간 최대 17억원 지원한다.

과기정통부는 이달 말부터 지난해 데이터 라벨링 사업을 통해 구축한 데이터 310종을 품질검증을 거쳐 순차적으로 개방한다고 덧붙였다.

csm@yna.co.kr

▶제보는 카톡 okjebo

Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?