미디어젠, 초거대 언어 모델 TTA 성능 검증 통과
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
미디어젠 컨소시엄이 최근 인공지능(AI) 산업계를 달구고 있는 초거대 AI 모델을 위한 인공지능 데이터 사업에서 구축된 데이터를 활용해 제작한 초거대 언어 모델(LLM)이 TTA의 성능 검증을 통과했다고 17일 밝혔다.
미디어젠 컨소시엄은 '과학기술정보통신부'가 주관하고 '한국지능정보사회진흥원(NIA)'이 추진하는 2023년도 인공지능 학습용 데이터 구축 사업의 '초거대 AI 모델'을 위한 인공지능 학습용 데이터 구축 사업자로 최종 선정된 바 있으며, 약 2억 어절이 넘는 초거대 규모 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축 완료했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
미디어젠 컨소시엄이 최근 인공지능(AI) 산업계를 달구고 있는 초거대 AI 모델을 위한 인공지능 데이터 사업에서 구축된 데이터를 활용해 제작한 초거대 언어 모델(LLM)이 TTA의 성능 검증을 통과했다고 17일 밝혔다.
미디어젠 컨소시엄은 ‘과학기술정보통신부’가 주관하고 ‘한국지능정보사회진흥원(NIA)’이 추진하는 2023년도 인공지능 학습용 데이터 구축 사업의 ‘초거대 AI 모델’을 위한 인공지능 학습용 데이터 구축 사업자로 최종 선정된 바 있으며, 약 2억 어절이 넘는 초거대 규모 헬스케어 분야 생성형 AI 챗봇 질의응답 데이터를 구축 완료했다.
이번 사업은 AI 최신 기술인 초거대 AI 언어 모델 및 응용 서비스 개발에 필수적인 대량의 말뭉치 데이터를 구축하는 것으로, 실제 일반인 및 의료진의 질의응답 데이터, 전문 의료 서적 데이터, 증강 데이터 등으로 구성됐다.
미디어젠 컨소시엄은 메트릭스, 비디, 위뉴, 메인 등 5개 전문 기업으로 구성돼 있으며 이번에 구축된 데이터에 대해 통계적 다양성, 구문 정확성, 의미 정확성, 유사성 등에 대해 진행된 TTA의 정밀 검증에서 모두 합격 판정을 받았다.
특히 초거대 언어 모델 성능을 평가하는 TTA의 유효성 검증에서 챗봇의 답변 성공률에 대한 생성 모델 비교 평가 결과 ROUGE-1, ROUGE-2 기준을 모두 달성함으로써, AI 학습용 데이터의 안정성은 물론 초거대 언어 모델의 성능도 공식적 입증도 받게 됐다.
이번 TTA 검증에 활용된 데이터는 일반인의 질문 데이터와 의료진이 직접 작성한 헬스케어 데이터가 질의응답 쌍을 이루고 있으며, 직접 수집된 데이터를 기반으로 증강됐다. 데이터 증강에는 Polyglot을 기반으로 미디어젠이 직접 개발한 증강 모델이 활용됐으며, 초거대 AI 질의응답 모델은 한국전자통신연구원(ETRI)의 T5 기반 파인 튜닝 모델로 시험을 진행했다.
이번 사업을 총괄하고 있는 미디어젠의 송민규 상무는 “초거대 AI 모델의 최적 성능 확보를 위한 증강 데이터와 생성형 질의응답 모델이 TTA 성능 검증을 통과한 것에 매우 기쁘다”면서 “각 산업 영역에서 직접적으로 활용될 수 있는 사업화 초거대 언어 모델을 꾸준히 발표할 예정”이라고 밝혔다.
한편, 초거대 AI 모델 학습을 위한 헬스케어 질의응답 데이터 구축은 2023년 12월 말까지 데이터 수집 및 AI 모델 검증이 완료됐으며, 2024년 상반기 한국지능정보사회진흥원이 운영하는 AI-Hub를 통해 모든 데이터가 일반에 공개될 예정이다.
미디어젠 소개
미디어젠은 음성 인공지능(AI) 기반 기술을 바탕으로 스마트카, 스마트 컨택센터, AI 에듀테크, AI 키오스크, 다국어 AI 통역 서비스 등 다양한 사업 분야에서 더 앞선 신기술과 서비스를 제공하는 코스닥 상장 기업이다. 최근 초거대 AI를 위한 데이터 구축 및 생성형 AI 기술 등 최신 알고리즘을 개발해 첨단 기술 사업화에 앞장서고 있다.
이 뉴스는 기업·기관·단체가 뉴스와이어를 통해 배포한 보도자료입니다.
출처:미디어젠
보도자료 통신사 뉴스와이어(www.newswire.co.kr) 배포
Copyright © 뉴스와이어. 무단전재 및 재배포 금지.
- 삼성물산, 4000억원 규모 데이터센터 수주 - 뉴스와이어
- 두산에너빌리티, 발전용 가스터빈 서비스 사업 3대 핵심 역량 국산화 - 뉴스와이어
- 롯데건설, 탄소저감 기술 개발해 친환경 건설기술 선도 - 뉴스와이어
- 현대자동차, 울산시와 수소 생태계 조성 협력 - 뉴스와이어
- 모노하우스 ‘비싸도 불티나게 팔리는 이유’ 출간 - 뉴스와이어
- 해피바스, 퍼퓸부티크 라인 출시 - 뉴스와이어
- 정신건강 돌봄 힐링 콘텐츠 ‘마인드시티’ 앱 리뉴얼 출시 - 뉴스와이어
- 노보텍, 2024 Clinical Trials Arena Excellence Awards에서 비즈니스 확장·혁신·마케팅 부문 수상 - 뉴스와
- 아하 커뮤니티, 토론 기능으로 트럼프 당선 57:43으로 예측… 여론조사보다 정확 - 뉴스와이어
- ‘투란도트’가 노벨문학상 한강과 만난다… R석 관객에게 ‘회복하는 인간’ 깜짝 선물 - 뉴스