한은 주요 보고서 12만페이지 디지털화...“AI 언어모델 학습 활용”
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
한국은행이 최근 20년 넘는 기간의 주요 보고서와 문서 등을 디지털화하는 작업을 진행한다.
한은 홈페이지 수록 문서 중 2000년 이후를 대상으로 언어모형 학습 등에 활용하고 의미검색기능을 구현한다는 계획이다.
한은 관계자는 "이번 프로젝트 이후 2000년대 이전 문서까지 과거 데이터까지 더 확장도 고려할 수 있을 것"이라며 "AI가 조금 더 정확한 답변을 할 수 있게 되며, 업무에 AI를 폭넓게 활용할 수 있을 것"이라고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
‘BOK 경제연구’·‘국민계정리뷰’ 등 다양한 연구 담겨
한은 “AI 폭넓게 활용할 수 있을 것 기대”
5일 한은에 따르면 내부 디지털혁신실은 최근 ‘한국은행 문서 디지털화 사업’ 관련 제안요청서를 공개했다. 디지털혁신실은 한은 업무에 특화된 AI 언어모델 기반 서비스를 개발 중이다. 한은 홈페이지 수록 문서 중 2000년 이후를 대상으로 언어모형 학습 등에 활용하고 의미검색기능을 구현한다는 계획이다.
이번 사업으로 기존 연구 보고서 내용은 검색증강생성(RAG) 기술을 활용하기 위한 데이터베이스로 활용될 전망이다. 검색증강생성은 대규모 언어모델(LLM)에 정보검색 기능을 결합한 기술로, 생성형 AI가 답변을 도출하기 전 외부의 데이터베이스를 통해 관련 정보를 실시간으로 검색하는 기술을 말한다. 이 기술은 생성형 AI의 단점인 할루시네이션(거짓 정보 제공)을 막고 개인 문서나 조직 정보를 기반으로 개인화된 답변을 제공한다.
기존 보고서 문서 형식의 경우 AI가 잘 인식하지 못하는 문제점이 있었는데 이 같은 점이 해결될 것으로 기대되고 있다. 이를 위해 한은은 오는 10월까지 조사 연구 관련 보고서 중 주요 보고서 파일을 기계판독 가능한 포맷으로 변환한다. 은행내 시스템과 원활하게 호환되고, 효과적으로 연계하는 작업도 지원한다. 다양한 종류의 문서 내용을 일관적으로 효과적으로 처리할 수 있는 기술을 활용해 데이터의 접근성과 호환성을 보장한다는 계획이다.
한은 디지털혁신실 관계자는 “기존 파일 형식의 경우 컴퓨터가 텍스트 사이에 있는 각주와 그림을 정확하게 읽지 못하는 한계가 있었다”며 “요약도 잘 안되고, 질문에도 답을 제대로 못 하는 경우가 많아 문서 내용을 그대로 추출하는 게 핵심”이라고 설명했다.
한은 관계자는 “이번 프로젝트 이후 2000년대 이전 문서까지 과거 데이터까지 더 확장도 고려할 수 있을 것”이라며 “AI가 조금 더 정확한 답변을 할 수 있게 되며, 업무에 AI를 폭넓게 활용할 수 있을 것”이라고 밝혔다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 집단성폭행 당한 두 딸 극단 선택, 충격받은 아빠도 사망…가해자 공개 예고한 유튜버 - 매일경
- “토마토 주스” 시청역 사망자 충격 조롱…20대男 결국 자수 - 매일경제
- 홍준표 “박근혜 탄핵 전야제처럼 흘러간다, 걱정된다” - 매일경제
- “푸바오, 할부지 알아봤다”…3개월 만에 중국서 재회한 강 사육사 - 매일경제
- “명품백 사과하겠다” 김여사 문자 무시 의혹…한동훈 “사적인 방식 부적절” - 매일경제
- “트럼프, 되겠는데?”… 이 종목 뭉칫돈 몰린다, 주가 들썩 - 매일경제
- “아직은 개천에서 용 나는 세상”…14년만에 집권, 세계의 눈 쏠린 ‘이 남자’ - 매일경제
- 불패신화 ‘강남 입성’ 더 치열해졌다…5년간 청약경쟁률 평균 ‘71대 1’ - 매일경제
- “요즘 지하철 왜 이러지”…이번엔 9호선 흑석역서 승객 대피, 30분간 무정차통과 - 매일경제
- ‘K-황소’ 황희찬, 마르세유가 ‘만장일치’ 원한다…프랑스 매체 “이적 쉽지 않지만 마르세