네이버, AI 안전성 실천 체계 공개…"통제력 상실 완화 위해 주기적 평가"

AI가 초래할 수 있는 위험을 '통제력 상실'과 '악용'으로 정의…대응 체계 구축

[아이뉴스24 정유림 기자] 네이버는 인공지능(AI) 안전성 실천 체계를 17일 공개했다. 이는 네이버가 AI 시스템을 개발하고 배포하는 모든 단계에서 AI의 잠재적 위험을 인식·평가·관리하기 위한 대응 체계다.

네이버는 AI 안전성 실천 체계를 통해 AI 시스템이 초래할 수 있는 위험을 각각 통제력 상실 위험과 악용 위험으로 정의하고 이에 대응하기 위한 방법을 설계했다. 인간이 AI 시스템에 영향을 미치지 못하게 되는 통제력 상실 위험을 완화하기 위해 AI 위험 평가 스케일을 통해 AI 시스템의 위험을 주기적으로 평가·관리한다.

현존 최고 성능의 AI 시스템은 '프런티어(frontier) AI'로 정의하고 이 기술 수준에 해당하는 AI 시스템에 대해서는 3개월마다 위험 평가를 수행한다. 또한 시스템의 능력이 기존보다 6배 이상 급격히 증가한 경우에는 그 시점에 추가 평가가 이뤄진다.

또 다른 잠재적 위험인 악용의 가능성에는 AI 위험 평가 매트릭스를 적용해 대응한다. AI 위험 평가 매트릭스는 AI 시스템의 사용 목적과 안전 조치의 필요성 정도에 따라 각각 다른 방법으로 위험을 관리한다.

예를 들어 생화학 물질 개발과 같이, 특수한 목적으로 사용되는 AI 시스템은 특별한 자격이 있는 이용자에게만 제공해 위험을 완화하고 사용 목적과 관계 없이 안전 조치의 필요성이 높은 AI 시스템이라면 추가적인 기술·정책적 안전 조치를 통해 위험이 완화될 때까지는 배포하지 않는다.

네이버는 AI 안전성 확보를 위해 다양한 평가 방식을 수립해왔다. 레드티밍(조직의 보안 수준을 평가하고 개선하기 위해 실제 공격을 시도하는 활동), 적대적 프롬프팅(adversarial prompt) 등 테스트를 통해 위험을 살피고 앞으로 테스트 방법을 고도화할 예정이다.

위험이 발생하지 않도록 예방하는 차원에서 지속적으로 관리하면서 실제 위험이 상당하다고 판단되면 안전 조치를 통해 위험을 완화할 때까지 모델 또는 서비스의 배포를 중단해 위험을 관리한다.

네이버는 또한 문화적 다양성을 반영해 AI 안전성 실천 체계를 발전시킬 계획이다. 한국 외 다른 지역의 정부, 기업과 소버린(Sovereign·주권) AI를 공동 개발하며 특정 문화권에서 성립될 수 있는 AI 시스템의 위험을 식별하고 위험의 정도를 측정하는 벤치마크도 문화권의 특성을 반영해 고도화한다.

하정우 네이버 퓨처AI센터장은 "네이버는 최근 UN의 AI 안전성 보고서 작성에 기술 자문을 제공하고 다수의 빅테크(대형 IT 기업)가 참여하는 개방형 컨소시엄인 ML커먼스(MLCommons)에서 AI 안전 벤치마크 구축 작업에 기여하는 등 글로벌 커뮤니티와의 협업을 늘려가고 있다"고 했다.

그러면서 "AI 안전성 실천 체계는 생성형 AI 시대에 네이버가 다시 한 번 선제적으로 수립한 안전성 검증 프로토콜로, 이러한 경험을 글로벌 커뮤니티에도 공유하며 AI 안전성 분야 리더십을 확보해 나갈 것"이라고 덧붙였다.

최수연 네이버 대표는 "다양한 지역의 문화와 가치를 반영하는 다수의 AI 모델이 안전하게 사용되며 공존하는 지속 가능한 AI 생태계에 네이버가 적극 기여할 것"이라고 밝혔다.

/정유림 기자(2yclever@inews24.com)

IT/과학

네이버, AI 안전성 실천 체계 공개…"통제력 상실 완화 위해 주기적 평가"