KT, LLM 성능 '데이터 큐레이션'으로 끌어올렸다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
KT가 자사의 대형언어모델(LLM) 성능을 데이터 큐레이션을 통해 끌어올린 것으로 나타났다.
대량 데이터 확보 대신 품질 중심 선별과 합성 데이터 전략이 적용된 것이다.
LLM 기반 평가 모델과 코드 구조 분석(AST)을 활용해 저품질 데이터를 걸러내고, 학습에 적합한 데이터만 남기는 '품질 중심 큐레이션'을 구축한 것으로 나타났다.
KT는 리포트에서 "데이터 전략이 양을 늘리는 방식에서 품질 중심 선별 방식으로 전환됐다"고 설명했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[아이뉴스24 서효빈 기자] KT가 자사의 대형언어모델(LLM) 성능을 데이터 큐레이션을 통해 끌어올린 것으로 나타났다. 대량 데이터 확보 대신 품질 중심 선별과 합성 데이터 전략이 적용된 것이다.
23일 통신업계에 따르면 KT는 논문 사전공개 사이트 '아카이브(arXiv)'에 '믿:음 K 2.5 프로'의 학습 구조와 데이터 구축 방식을 담은 테크리포트를 공개했다.
'믿:음 K 2.5 프로'는 최근 MWC26서 KT가 선보인 새로운 LLM 모델이다. 글로벌 AI 평가 플랫폼 AAII v3.0에서 국내 모델 중 최고 성능을 기록하고, 에이전틱 AI 성능 지표인 '타우 스쿠어 벤치'에서 87%를 기록하며 과업 수행 능력을 입증했다.
![데이터 정제 파이프라인 [사진=arxiv]](https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202603/23/inews24/20260323173726583myou.jpg)
리포트에 따르면 KT는 데이터를 대량으로 수집하는 대신 품질을 기준으로 선별하는 방식을 적용했다. LLM 기반 평가 모델과 코드 구조 분석(AST)을 활용해 저품질 데이터를 걸러내고, 학습에 적합한 데이터만 남기는 '품질 중심 큐레이션'을 구축한 것으로 나타났다.
KT는 리포트에서 "데이터 전략이 양을 늘리는 방식에서 품질 중심 선별 방식으로 전환됐다"고 설명했다.
코드 데이터는 언어 분류, 품질 평가, 실행 가능성 검증, 난이도 분류 등 단계별 필터링을 거쳐 학습에 활용된다. 이를 통해 데이터 노이즈를 줄이고, 추론 학습에 적합한 데이터만 선별했다는 설명이다.
데이터가 부족한 영역은 AI로 직접 생성해 보완했다. 수학과 코드 등 고난도 추론이 필요한 분야는 실제 데이터가 제한적인 만큼, 문제와 풀이 과정을 함께 생성하는 '합성 데이터(gap-filling)' 전략을 적용했다.
모델 설계 역시 단순 질의응답을 넘어 추론 중심으로 확장됐다. 다단계 추론과 장문 이해, 외부 도구 활용 등 복잡한 문제 해결 능력을 강화하는 방향으로 학습 구조를 설계했다. 이를 위해 문제 해결 과정을 단계별로 학습하는 데이터 구성을 적용하고, 단순 질의응답이 아닌 추론 경로를 함께 학습하도록 설계했다.
KT 관계자는 "AI는 문서 요약이나 검색 등 보조적 도구를 넘어 실제 업무를 수행하는 실행 주체로 진화하고 있다"며 "데이터와 모델, 인프라를 통합한 전략을 바탕으로 기업 고객의 AI 전환을 지원하겠다"고 밝혔다.
/서효빈 기자(x40805@inews24.com)Copyright © 아이뉴스24. 무단전재 및 재배포 금지.
- 삼성전자, 노조에 먼저 대화 제안…전영현 “대화로 풀자”
- 유튜버 '수탉' 납치·살해 시도한 20대 일당, 무기징역 구형
- 12세 딸 성폭행한 40대 아빠, 징역 10년⋯法 "범행 인정하고 잘못 반성 중"
- "대위야? 상사야?"⋯육군 학사장교 홍보 포스터, '계급 불일치·집게 손' 논란
- "연설도 AI·사진도 다 조작?"⋯이란 최고지도자 '사망설' 확산
- 이재용, CDF 2년 연속 초청…맨 앞줄서 '찰칵'
- 李 대통령 지지율 62.2%, 3주 연속 상승⋯민주 53.0%·국힘28.1% [리얼미터]
- 내달 전국 입주 물량 30% 넘게 늘어난다
- 장동혁 "국조, 李 기소 정당함만 드러낼 것…다음은 재판 재개"
- "못생겼는데 어떻게 승무원?"⋯태국인 향한 한국 누리꾼 악플, 국제 설전으로