한양대 최정욱 교수팀, 대형 언어 모델 효율성 개선하는 알고리즘 개발

박지은 인턴 기자 2024. 8. 21. 14:57
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

정성적, 정량적 성능을 극대화하는 데 중점
[서울=뉴시스] 한양대학교 융합전자공학과 최정욱 교수 (사진=한양대 제공) *재판매 및 DB 금지


[서울=뉴시스]박지은 인턴 기자 = 한양대는 한양대 융합전자공학과 최정욱 교수팀과 KT 연구팀이 대형 언어 모델(LLM)의 효율성을 획기적으로 개선하는 두 가지 새로운 알고리즘을 개발했다고 21일 밝혔다.

이번 연구는 고성능 대규모 언어 모델의 효율성을 유지하면서 정성적, 정량적 성능을 극대화하는 데 중점을 두고 있다.

대규모 언어 모델은 심층 신경망의 가중치 수를 크게 늘려 뛰어난 성능을 발휘하지만, 일반적으로 16비트 부동소수점으로 모델 가중치와 활성화를 연산하기 때문에 막대한 저장 공간과 연산 비용이 필요하다.

이를 해결하기 위해 다양한 양자화 기법들이 개발돼 저장 공간과 연산 비용을 줄이는 데 기여해왔다.

그러나 최정욱 교수 연구팀은 기존 양자화 기법들이 대화형 언어 모델에서 정량적인 성능은 유지하지만, 대화 능력과 같은 정성적인 성능이 크게 감소하는 문제를 발견했다.

이는 연구팀이 개발한 두 가지 알고리즘 중 첫 번째로 해결하려고 했던 문제였다.

이를 해결하기 위해 최 교수 연구팀은 '양자화 인식 직접 선호 최적화(QDPO)'라는 새로운 방법을 제안했다.

QDPO는 양자화된 대화형 언어 모델의 대화 능력 감소의 주 원인이 토큰 전환 문제에 있음을 밝혀냈다.

토큰 전환 문제는 양자화된 모델이 특정 단어를 잘못 예측해 대화의 흐름을 깨뜨리는 현상이다.

연구팀은 이를 해결하기 위해 저 정밀도 모델을 고 정밀도 모델과 정렬을 높이는 효율적인 최적화 기법을 개발했다.

[서울=뉴시스] 양자화 인식 직접 선호 최적화(QDPO)의 효과 (사진=한양대 제공) *재판매 및 DB 금지

QDPO는 16비트 정밀도 모델과 저 정밀도 모델을 활용해 최적화를 위한 데이터를 별도의 라벨링 없이 자동으로 생성하며, 이를 통해 대화 능력을 유지하거나 향상시키는 것을 목표로 한다.

실험 결과, QDPO를 적용한 4비트 저 정밀도 모델은 기존 4비트 양자화 기법과 비슷한 정량적 성능을 유지하면서도 GPT-4와 같은 최신 모델을 활용한 정성적 벤치마크에서 우수한 성능을 보였다.

또한 연구팀은 두 번째로 해결하려던 문제인 저비트 양자화 환경에서의 성능 저하 문제를 해결하기 위해 'RA-LoRA (Rank-Adaptive Low-Rank Adaptation)'라는 방법을 개발했다.

기존의 Low-Rank Adaptation (LoRA) 기법은 모델의 메모리 사용량을 줄이기 위해 일부 파라미터만 조정하는 방식이었으나, 이는 양자화 오류를 충분히 보정하지 못했다.

이를 보완하기 위해 RA-LoRA는 랭크 서브스페이스 분석을 통해 어댑터의 랭크를 동적으로 조정해 최적의 성능을 유지할 수 있도록 설계됐다.

랭크 서브스페이스 분석은 각 레이어의 특성과 입력 데이터에 따라 적절한 랭크를 선택하는 과정을 포함한다.

이를 통해 RA-LoRA는 적은 파라미터로도 높은 정확도를 유지할 수 있으며, 이는 특히 2비트 양자화 환경에서 두드러진다.

실험 결과, RA-LoRA는 DeBERTa-V3 및 LLaMA-2 모델을 사용한 2비트 효율적인 미세 조정에서 기존의 방법들보다 뛰어난 성능을 보여줬다.

특히 RA-LoRA는 다양한 NLP 작업에서 기존의 양자화가 적용된 LoRA 기법보다 더 우수한 성능을 기록했다.

첫 번째 논문 '직접 선호도 정렬을 통한 양자화된 대규모 언어모델의 대화능력 향상(Improving Conversational Abilities of Quantized Large Language Models via Direct Preference Alignment)'는 한양대 융합전자공학과 이장환, 박성민 박사과정생이 공동1저자, 최정욱 교수가 교신저자로 KT 연구팀과 함께 참여했다.

두 번째 논문 'RA-LoRA: 정확한 2비트 양자화된 대규모 언어 모델을 위한 순위 적응형 파라미터 효율적 미세 조정(RA-LoRA: Rank-Adaptive Parameter-Efficient Fine-Tuning for Accurate 2-bit Quantized Large Language Models)'은 한양대 융합전자공학과 김민수 박사과정생이 1저자로,서울대 성원용 교수가 참여 연구자, 최정욱 교수가 교신저자로 참여했다.

두 논문 모두 세계 권위의 자연어처리 학회인 ACL 2024에서 8월 발표될 예정이다.

☞공감언론 뉴시스 written11@newsis.com

Copyright © 뉴시스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?