[기획]생성형 AI 열풍 속 세계적 인정받은 韓 연구진

조재학 2023. 6. 21. 17:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

주요 기업 생성AI 개발 현황

국내 연구진이 개발한 생성형 인공지능(AI) 기술이 세계적 권위 자연어처리 학회 ACL에 채택됐다. 이들이 공개한 AI 언어모델은 ‘다크웹용 챗GPT’로 불리며 해외 기술 진영에서 트위터 누적 조회 수 100만건 이상을 기록하는 등 폭발적인 주목을 받고 있다. 특히 보안에 특화한 언어모델이라는 점에서 생성형 AI를 자체 구축하려는 기업과 기관 문의가 30개국 이상에서 밀려든다.

국내 보안 스타트업 에스투더블유(S2W)와 한국과학기술원(KAIST) 연구진에 따르면, 이들이 개발한 다크웹 전문 언어모델 ‘다크버트(DarkBERT)’에 관한 논문이 세계 3대 자연어처리 학회인 ACL에 채택·발표된 뒤 미국과 유럽 지역 정보기관, 기업으로부터 문의가 쇄도한다. AI 분야 세계적 권위를 인정받는 전문가들의 언급이 사회관계망서비스(SNS)에 잇따르면서 학계와 보안 업계를 넘어 글로벌 정보기술(IT) 시장에서 다크버트가 화두로 떠올랐다.

세계 3대 자연어처리 학회 ACL에 채택된 에스투더블유(S2W)와 한국과학기술원(KAIST) 연구진 논문.(S2W 제공)

다크버트는 ‘다크웹’과 구글 언어모델 ‘버트’의 합성어다. 오픈AI의 챗GPT가 일반 웹 상의 데이터를 학습했다면, 다크버트는 다크웹 상의 데이터를 학습한 모델이다. 일반 인터넷 브라우저로 접속이 불가한 다크웹은 마약, 정보 유출, 랜섬웨어, 해킹 등 범죄 온상이 된 익명 기반 네트워크로 각종 불법 거래와 유해 콘텐츠가 유통되지만, 정보의 휘발성과 탈중앙화, 익명화 기술로 보호돼 범죄자 추적이나 출처 파악, 데이터 확보 등이 매우 어렵다.

연구진은 언어모델을 개발해 이 같은 어려움을 극복했다. 2.2테라바이트(TB)에 달하는 다크웹 페이지 약 600만건을 학습한 뒤 위협 시나리오별로 테스트를 수행, 정보를 효과적으로 탐지하고 식별하는 훈련을 거쳤다. 구체적으로 다크버트는 △다크웹 내 위협 활동 분류 △랜섬웨어 및 정보 유출 사이트 탐지 △사이버 안보나 범죄 관련 중요 위협 활동 모니터링 및 탐지 △사이버 범죄자가 사용하는 은어와 신조어에 대한 높은 이해력과 추론 등 특징이 있다.

AI 기반기술인 자연어처리 분야에서는 그동안 에듀테크 또는 검색엔진 플랫폼 사업자들이 주로 언어모델을 개발해 왔지만, 보안 전문가들이 다크웹이라는 특정 도메인에 특화한 언어모델을 만든 것은 다크버트가 처음이다. 무엇보다 다크웹은 AI 학습을 위한 데이터 수집과 정제 과정이 매우 까다롭기 때문에 다크버트 언어모델을 다른 도메인에 적용하는 건 훨씬 용이할 것이라는 게 연구진의 설명이다.

논문 저자이자 S2W AI 팀을 이끄는 정진우 팀장은 “다크버트는 정확성과 신뢰성이 핵심인 보안 분야뿐만 아니라 다양한 산업에 적용 가능한 AI 모델”이라면서 “기업 목적에 맞는 경량화 모델 수요가 꾸준히 늘어날 것으로 예상되는 만큼 보안 분야뿐만 아니라 여러 산업에 맞는 언어모델로 적용 중”이라고 말했다.

에스투더블유(S2W)와 한국과학기술원(KAIST) 공동 연구팀이 다크웹용 챗GPT ‘다크버트’ 회의를 하고 있다.(S2W 제공)

다크버트를 활용하면 한국과 관련된 다크웹 콘텐츠를 요약하거나 다크웹 내 공격자들이 자주 사용하는 신종 툴을 빠르고 정확하게 확인할 수 있다. 또 챗GPT와 같은 초거대 생성형 AI를 자체 구축하는 데 천문학적인 비용이 투자되지만 다크버트는 이보다 훨씬 가볍게 구축이 가능, 기업 맞춤형 온프레미스 구축에 유리하다는 장점이 있다.

이에 따라 거대 언어모델을 자체 구축하고자 하는 각국 정부기관 문의가 특히 많이 들어오는 상황이다.

서상덕 S2W 대표는 “챗GPT를 쓰고 싶어도 보안 우려가 있는 곳에 자체 구축 요구사항이 많다”면서 “더 경량화되고 외부 유출 우려 없는 언어모델을 만들어 필요한 기업들에 구축하는 것이 우리의 첫 번째 목표”라고 말했다.

세계 IT 시장 반응은 뜨겁다. 세계적 AI 권위자 랜스 엘리엇 박사는 포브스지 기고를 통해 다크버트를 “다크웹 관련 생성형 AI 모델 가운데 연구에 기반한 모범 사례”라고 평가하면서 “관심 있는 사람들에게 유용한 롤모델이 될 것”이라고 적었다.

네덜란드 철도청의 정보보호최고책임자(CISO) 드미트리 반 잔트블리엣은 자신의 SNS에 “다크버트는 혁명적 AI 모델을 활용해 불을 밝히는 일”이라면서 “한국의 다크버트가 사이버보안과 디지털 포렌식 등 숨겨진 온라인 활동에 돌파구를 마련해줄 것”이라고 썼다. 이외에도 구글 CISO 필 베너블스를 비롯한 해외 기술 전문가와 유튜버, 매체 사이에 다크버트를 언급한 콘텐츠는 급증하는 추세다.

인터폴에 재직 중인 홍성진 특별수사관은 “보안 전문 언어모델은 다크웹 수사뿐만 아니라 향후 다양한 국제범죄 근절에 활용될 것으로 기대된다”고 말했다.

조재학 기자 2jh@etnews.com

Copyright © 전자신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?