KISTI, 기계학습데이터 425만건 무료 개방

2021. 11. 3. 15:01
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나, AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다.

KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 사이언스온의 기존 학술정보 서비스에 기계학습데이터 논문 전문 텍스트, 보고서 표/그림, 논문 QA, 논문 문장 의미태깅을 접목한 서비스를 선보인다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

논문 QA 데이터를 활용한 질의응답 서비스 화면.[KISTI 제공]

[헤럴드경제=구본혁 기자] 한국과학기술정보연구원(KISTI)은 ‘과학기술 분야 기계학습데이터 구축 사업’의 결과물을 누구나 쉽게 활용할 수 있도록 과학기술 지식인프라 ‘사이언스온(ScienceON)에서 개방한다.

데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나, AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다. KISTI는 기계학습데이터 구축 사업을 전개, 과학기술 분야 국내논문 및 국가R&D연구보고서를 토대로 AI를 위한 데이터셋 5종 425만 건을 구축하는 데 성공했다.

KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 사이언스온의 기존 학술정보 서비스에 기계학습데이터 논문 전문 텍스트, 보고서 표/그림, 논문 QA, 논문 문장 의미태깅을 접목한 서비스를 선보인다.

제공되는 서비스는 논문 전문 텍스트를 활용해 이용자가 검색한 키워드가 본문 문장에서 어떻게 표현되는지 키워드의 전후 내용을 스니펫(검색한 의도에 부합하는 답을 제공할 수 있는 최소한의 단위)으로 제공된다. 보고서에 수록된 표/그림 이미지는 물론, 이를 설명하는 캡션과 인용 문장들까지도 함께 제공하게 된다. 또 논문 QA 데이터를 활용해 논문의 핵심 어휘를 질문과 답변 형식으로 쉽게 풀이해 제공하고, 논문 문장 의미태깅을 통해 연구목적, 연구방법, 연구결과를 요약하여 제공함으로써 이용자가 논문을 빠르게 선택할 수 있도록 도움을 주게 된다.

이 외에도 요약 정보를 PDF 원문에 표시하여 제공함으로써 PDF 원문 가독성을 높였으며, 특정 참고문헌이 인용된 문장도 논문에서 바로 확인할 수 있도록 했다.

이석형 KISTI 융합서비스센터장은 “연말까지 AI 데이터셋을 활용해 AI가 자동으로 논문을 요약하는 서비스를 정식 오픈할 계획”이라며 “사이언스온을 통해 연구자의 다양한 연구 활동을 지원할 수 있도록 지속적인 데이터 확충과 안정적인 서비스 운영에 최선을 다하겠다”고 밝혔다.

nbgkoo@heraldcorp.com

Copyright © 헤럴드경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?