KISTI, 기계학습데이터 425만건 무료 개방
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나, AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다.
KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 사이언스온의 기존 학술정보 서비스에 기계학습데이터 논문 전문 텍스트, 보고서 표/그림, 논문 QA, 논문 문장 의미태깅을 접목한 서비스를 선보인다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[헤럴드경제=구본혁 기자] 한국과학기술정보연구원(KISTI)은 ‘과학기술 분야 기계학습데이터 구축 사업’의 결과물을 누구나 쉽게 활용할 수 있도록 과학기술 지식인프라 ‘사이언스온(ScienceON)에서 개방한다.
데이터와 AI가 글로벌 경제의 핵심으로 전망되며 많은 연구 분야에서 AI가 적극 활용되고 있으나, AI가 활용할 수 있는 데이터, 즉 기계학습데이터는 부족한 상황이다. KISTI는 기계학습데이터 구축 사업을 전개, 과학기술 분야 국내논문 및 국가R&D연구보고서를 토대로 AI를 위한 데이터셋 5종 425만 건을 구축하는 데 성공했다.
KISTI는 이렇게 구축한 데이터셋을 이용자가 원하는 방식으로 자유롭게 활용할 수 있도록 사이언스온의 기존 학술정보 서비스에 기계학습데이터 논문 전문 텍스트, 보고서 표/그림, 논문 QA, 논문 문장 의미태깅을 접목한 서비스를 선보인다.
제공되는 서비스는 논문 전문 텍스트를 활용해 이용자가 검색한 키워드가 본문 문장에서 어떻게 표현되는지 키워드의 전후 내용을 스니펫(검색한 의도에 부합하는 답을 제공할 수 있는 최소한의 단위)으로 제공된다. 보고서에 수록된 표/그림 이미지는 물론, 이를 설명하는 캡션과 인용 문장들까지도 함께 제공하게 된다. 또 논문 QA 데이터를 활용해 논문의 핵심 어휘를 질문과 답변 형식으로 쉽게 풀이해 제공하고, 논문 문장 의미태깅을 통해 연구목적, 연구방법, 연구결과를 요약하여 제공함으로써 이용자가 논문을 빠르게 선택할 수 있도록 도움을 주게 된다.
이 외에도 요약 정보를 PDF 원문에 표시하여 제공함으로써 PDF 원문 가독성을 높였으며, 특정 참고문헌이 인용된 문장도 논문에서 바로 확인할 수 있도록 했다.
이석형 KISTI 융합서비스센터장은 “연말까지 AI 데이터셋을 활용해 AI가 자동으로 논문을 요약하는 서비스를 정식 오픈할 계획”이라며 “사이언스온을 통해 연구자의 다양한 연구 활동을 지원할 수 있도록 지속적인 데이터 확충과 안정적인 서비스 운영에 최선을 다하겠다”고 밝혔다.
nbgkoo@heraldcorp.com
Copyright © 헤럴드경제. 무단전재 및 재배포 금지.
- 이승환, 이재명 두둔? “로봇개 11년간 밥 안 줘…학대 끝판왕”
- 한소희, 베드신 현장에서 알았다? 소속사 “협의 후 진행”
- “바둑 두는 줄”···주차면 4칸 차지한 ‘역대급 주차 빌런’
- 오달수, 박성광 연출 영화 '웅남이' 출연…스크린 복귀 본격화
- ‘폐암 투병’ 김철민 , 안타까운 근황…“마지막 사투 중”
- ‘LA올림픽 女농구’ 김영희 “거인병 고통…서장훈·허재가 도와줘”
- 연세대 송도 캠퍼스에 무슨 일?…‘기숙사서 성관계’소문 일파만파
- 김어준, 라디오 생방송 지각에 “오세훈이 잘랐나” 지지자들 문의 빗발쳐
- 당근마켓에 성매매 추정 글…“차 안에서 봉사 받을 남자분만”
- 2400% 폭등했던 ‘오겜’ 테마 코인 0달러로…개발자 24억 ‘먹튀’