"AI 통제력 상실 막겠다" 네이버, 3개월마다 평가

김영욱 2024. 6. 17. 11:06
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

네이버가 인공지능(AI) 시스템을 개발하고 배포하는 과정의 모든 단계에서 AI의 잠재적 위험을 인식·평가·관리하기 위한 대응 체계 '네이버 ASF(AI Safety Framework)'를 발표했다.

네이버 ASF는 AI 시스템이 초래할 수 있는 위험을 각각 '통제력 상실 위험'과 '악용 위험'으로 정의하고, 이에 대응하기 위한 방법을 설계한 것이 특징이다.

AI 위험 평가 스케일을 통해 시스템의 위험을 주기적으로 평가하고 관리한다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

안전성 실천 체계 'ASF' 발표
사용목적·조치 필요성별 관리
문화권 특성 반영해 위험 식별
연합뉴스 제공

"인공지능(AI)이 사람의 통제권을 벗어나는 것을 막겠다. AI의 악용으로 인한 위험에 대한 대비책도 마련하겠다."

AI 기술이 급속도로 발전하면서 부작용과 위험성에 대한 우려도 커지는 가운데 네이버가 국내 기업 최초로 AI의 통제력 상실과 악용을 방지하기 위한 체계를 도입했다. AI가 사람의 판단과 사회시스템의 틀에서 벗어나지 못하도록 안전한 가드레일과 브레이크 시스템을 갖추기 위한 시도다.

네이버는 17일 자체 기술 채널 '채널 테크'를 통해 AI 안전성 실천 체계인 '네이버 AI 안전 프레임워크(ASF)'를 발표했다.

네이버가 AI 시스템을 개발하고 배포하는 모든 과정에서 잠재적 위험을 인식·평가·관리하기 위한 대응체계다. 2021년 '네이버 AI 윤리 준칙', 2022년 'AI 윤리 자문 프로세스'에 이어 한 단계 구체화된 AI 안전성 실천 체계다.

네이버 ASF는 AI 시스템이 초래할 수 있는 위험을 각각 '통제력 상실 위험'과 '악용 위험'으로 정의하고, 이에 대응하기 위한 방법을 설계했다. 인간이 AI 시스템에 손쓰지 못하게 되는 통제력 상실 위험은 'AI 위험 평가 스케일'을 통해 주기적으로 평가하고 관리한다. 현존 최고 성능의 AI 시스템을 '프런티어 AI'로 정의하고, 이 기술 수준에 해당하는 AI 시스템은 3개월마다 위험 평가를 한다. 시스템 능력이 기존보다 6배 이상 급격히 증가할 땐 추가 평가를 한다.

잠재 위험인 '악용 가능성'에 대해서는 'AI 위험 평가 매트릭스'를 적용한다. 이는 AI 시스템의 사용 목적과 안전조치 필요성 정도에 따라 각각 다른 방법으로 위험을 관리한다. 예를 들어 생화학 물질 개발처럼 특수한 목적으로 사용되는 AI 시스템은 특별한 자격이 있는 사용자에게만 제공해 위험을 완화한다. 사용 목적과 관계 없이 안전 조치의 필요성이 높은 AI 시스템이라면 추가적인 기술적·정책적 안전 조치를 통해 위험이 완화될 때까지는 배포하지 않는다.

네이버는 문화적 다양성을 반영한 AI 안전성 체계로 네이버 ASF를 발전시켜 나가는 계획이다. 한국 외 다른 지역의 정부 및 기업과 소버린(Sovereign) AI를 공동 개발하고, 특정 문화권에서 성립될 수 있는 AI 시스템의 위험을 식별하고 위험의 정도를 측정하는 벤치마크도 문화권의 특성을 반영해 고도화할 예정이다.

'네이버 ASF'를 토대로 안전한 AI 활용을 실천하기 위한 거버넌스도 구축했다. 거버넌스는 △AI 시스템 위험에 대한 실무적인 논의 기구 '퓨처 AI 센터' △실무적으로 논의된 AI 시스템 위험에 대해 이사회에 보고할 사항을 판단하는 '리스크관리워킹그룹' △AI 시스템 위험에 대한 최종적인 의사결정 기구 '이사회(리스크관리위원회)' 등으로 구성된다.

AI 안정성 확보를 위해 내부적으로 다양한 평가 방식도 수립해왔다. 레드티밍, 적대적 프롬프팅 등을 테스트해 위험을 검증하면서 테스트 방법을 고도화하고 있다. 지난 4월 정부기관, 생성형 AI 기업, 다양한 분야의 참가자들과 함께 진행한 '생성형 AI 레드팀 챌린지'가 대표적이다. 레드티밍은 AI의 잠재적 취약점과 편향성을 테스트해 신뢰성과 성능을 높이는 프로세스다.

ASF를 활용한 위험 평가 결과나 실천 경험을 외부에 공유하면서 ASF를 지속적으로 개선함과 동시에 안전한 AI 생태계 를 구성해나갈 계획이다.

한편 네이버와 삼성전자, 구글 딥마인드, 아마존, 메타, 마이크로소프트(MS), 오픈AI, 앤트로픽 등은 지난달 AI 서울 정상회의에서 '프런티어 AI 안전 서약'에 동참했다. 최첨단 AI 모델의 위험을 측정하기 위한 안전 프레임워크를 게시하고, 임계 수준을 넘어서는 위험을 완화하지 못하면 모델을 개발하거나 배포하지 않기로 뜻을 모았다. 메타, 오픈AI, MS, 구글 딥마인드 등 글로벌 기업들도 AI 안전 체계를 도입했다. 이런 가운데 오픈AI를 중심으로 AI 기업 내부에서는 AI 위험성에 대한 논란이 계속되고 있다.

최수연 네이버 대표는 "네이버는 한국에서 '하이퍼클로바X'라는 소버린 AI를 개발한 경험을 통해 문화적·지정학적 상황과 지역적 이해가 AI의 성능뿐만 아니라 안전성에도 영향을 미친다는 점을 실증했다"며 "향후 글로벌 시장에서도 소버린 AI를 개발하면서 네이버 ASF를 지속적으로 개선해나갈 것"이라고 말했다. 또 "이를 통해 다양한 지역의 문화와 가치를 반영하는 다수의 AI 모델이 안전하게 사용되며 공존하는 지속 가능한 AI 생태계를 위해 기여하겠다"고 말했다.

김영욱기자 wook95@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?