딥시크, 최고 11배 빠른 초고속 장문 훈련·추론 기술 공개

고효율 생성형 인공지능(AI) 모델로 전 세계적 돌풍을 일으킨 딥시크가 장문을 빠르게 훈련하고 추론할 수 있는 최신 기술을 공개했다.

19일 딥시크의 X공식 계정에 따르면 창업자 량원펑을 포함한 딥시크의 개발자 등은 ‘NSA(Native Sparse Attention)’라고 명명한 메커니즘을 소개한 논문을 논문저장 사이트인 ‘arXiv’에 공개했다.

딥시크는 이 논문에서 "장문(long-context) 모델링은 차세대 언어모델에서 매우 중요하지만, 표준 어텐션(Attention) 메커니즘의 높은 연산 비용은 상당한 도전이 된다"며 "‘희소(sparse) 어텐션’은 모델의 역량은 유지하면서도 효율성을 개선할 수 있다"고 밝혔다.

모든 토큰(AI 모델에서 처리되는 데이터 단위) 간 관계를 계산하는 기존의 ‘풀(Full) 어텐션’ 메커니즘은 시퀀스 길이가 증가할수록 계산 복잡도가 기하급수적으로 늘어나는 문제가 있어 AI 업계에서는 일부 토큰만 선택해 계산하는 ‘희소 어텐션’ 연구가 활발하다.

딥시크는 "효율적인 장문 모델링을 위해 알고리즘 혁신과 하드웨어 최적화를 통합한 ‘선천적으로 훈련할 수 있는 희소 어텐션(NSA)’ 메커니즘‘을 발표한다"며 "NSA는 동적 계층화(dynamic hierarchical) 희소 전략을 채택해 토큰 압축과 토큰 선택을 결합했다"고 설명했다.

최근 AI 모델은 챗GPT 개발사 오픈AI의 ‘o’시리즈와 딥시크의 ‘R1’, 구글의 제미니 2.0 등 추론(reasoning) 모델이 대세로 장문 처리 능력이 더욱 요구되고 있다. 딥시크가 개발한 NSA는 중요하지 않은 토큰은 선천적으로 압축하고, 필수적인 토큰만 선택해 연산 비용을 줄이고 속도를 높이는 ‘동적 계층화’희소 전략을 적용했다. 딥시크는 풀 어텐션과 NSA의 벤치마크(성능 실험) 테스크 결과 NSA의 점수가 높았으며 64K 시퀀스 처리 속도를 비교한 결과 디코딩은 NSA가 11.6배 빨랐고, 역전파(backpropagation)도 6배 빨랐다고 주장했다.

황혜진 기자

문화일보

국제

딥시크, 최고 11배 빠른 초고속 장문 훈련·추론 기술 공개