딥시크, 최고 11배 빠른 초고속 장문 훈련·추론 기술 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
고효율 생성형 인공지능(AI) 모델로 전 세계적 돌풍을 일으킨 딥시크가 장문을 빠르게 훈련하고 추론할 수 있는 최신 기술을 공개했다.
딥시크는 이 논문에서 "장문(long-context) 모델링은 차세대 언어모델에서 매우 중요하지만, 표준 어텐션(Attention) 메커니즘의 높은 연산 비용은 상당한 도전이 된다"며 "'희소(sparse) 어텐션'은 모델의 역량은 유지하면서도 효율성을 개선할 수 있다"고 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

고효율 생성형 인공지능(AI) 모델로 전 세계적 돌풍을 일으킨 딥시크가 장문을 빠르게 훈련하고 추론할 수 있는 최신 기술을 공개했다.
19일 딥시크의 X공식 계정에 따르면 창업자 량원펑을 포함한 딥시크의 개발자 등은 ‘NSA(Native Sparse Attention)’라고 명명한 메커니즘을 소개한 논문을 논문저장 사이트인 ‘arXiv’에 공개했다.
딥시크는 이 논문에서 "장문(long-context) 모델링은 차세대 언어모델에서 매우 중요하지만, 표준 어텐션(Attention) 메커니즘의 높은 연산 비용은 상당한 도전이 된다"며 "‘희소(sparse) 어텐션’은 모델의 역량은 유지하면서도 효율성을 개선할 수 있다"고 밝혔다.
모든 토큰(AI 모델에서 처리되는 데이터 단위) 간 관계를 계산하는 기존의 ‘풀(Full) 어텐션’ 메커니즘은 시퀀스 길이가 증가할수록 계산 복잡도가 기하급수적으로 늘어나는 문제가 있어 AI 업계에서는 일부 토큰만 선택해 계산하는 ‘희소 어텐션’ 연구가 활발하다.
딥시크는 "효율적인 장문 모델링을 위해 알고리즘 혁신과 하드웨어 최적화를 통합한 ‘선천적으로 훈련할 수 있는 희소 어텐션(NSA)’ 메커니즘‘을 발표한다"며 "NSA는 동적 계층화(dynamic hierarchical) 희소 전략을 채택해 토큰 압축과 토큰 선택을 결합했다"고 설명했다.
최근 AI 모델은 챗GPT 개발사 오픈AI의 ‘o’시리즈와 딥시크의 ‘R1’, 구글의 제미니 2.0 등 추론(reasoning) 모델이 대세로 장문 처리 능력이 더욱 요구되고 있다. 딥시크가 개발한 NSA는 중요하지 않은 토큰은 선천적으로 압축하고, 필수적인 토큰만 선택해 연산 비용을 줄이고 속도를 높이는 ‘동적 계층화’희소 전략을 적용했다. 딥시크는 풀 어텐션과 NSA의 벤치마크(성능 실험) 테스크 결과 NSA의 점수가 높았으며 64K 시퀀스 처리 속도를 비교한 결과 디코딩은 NSA가 11.6배 빨랐고, 역전파(backpropagation)도 6배 빨랐다고 주장했다.
황혜진 기자
Copyright © 문화일보. 무단전재 및 재배포 금지.
- 홍준표, 명태균 의혹에 “이준석과 같이 왔길래 나가라 한 게 전부”
- 민주당, ‘문형배 임기 연장’ 꼼수법안 발의
- 제주에서 ‘전설의 심해어’ 183㎝·140㎏초대형 돗돔, 낚시로 잡혀
- “술 마신 얼굴에 숨 쉴 때마다 ‘색색’” 탈북 외교관의 김정은 묘사
- [속보]‘보수주자 적합도’ 김문수 22.3% 유승민 15.1%…김문수 중도층 약진
- 런던행 비즈니스 150만 원에 잘못 팔고…“재정산한다”는 아시아나
- ‘중도 보수 선언’ 이재명 “월급쟁이가 봉이냐” 소득세 손질하나
- 인요한 “난 광주서 시민군 통역했다…尹과 전두환 계엄 달라”
- 임계치 이른 ‘헌재 탄핵심판’ 불공정 논란… 헌법·법률 위반 수두룩[허민의 정치카페]
- 김동연 “국힘 후보 대통령 되면 민주당 문 닫아야…역사 퇴행”