[기획]韓 기술로 만든 언어모델에 세계가 찬사… 맞춤형 AI 상용화 ‘성큼’
생성형 인공지능(AI)이 화두로 떠오른 가운데 한국 연구진이 만든 언어모델에 업계 이목이 집중된다.
언어모델은 생성형 AI 핵심 기술이다. 국내 연구진이 공개한 다크웹 전문 언어모델 ‘다크버트(DarkBERT)’는 글로벌 기술 전문가로부터 ‘생성형 AI의 모범 모델’로 불리는 등 맞춤형 AI 시대를 앞당길 기술로 기대받는다.
◇韓 유망 스타트업이 만든 언어모델, 세계가 주목
다크버트는 국내 보안 스타트업 에스투더블유(S2W)와 한국과학기술원(KAIST) 연구진이 공동 개발했다. 해외에서는 ‘다크웹용 챗GPT’로 불리며 트위터와 유튜브 등 사회관계망서비스(SNS)에서 많은 관심을 받고 있다. AI 학습을 위한 데이터 수집과 정제가 까다로운 다크웹에서 언어모델이 만들어진 사례로 이 모델을 다른 산업에 적용하는 건 훨씬 수월할 것이라는 평가다.
다크버트를 만든 S2W는 최근 세계경제포럼(WEF)이 발표한 ‘기술선도 100대 스타트업’으로 선정된 데이터 인텔리전스 기업이다. 국내 보안 스타트업이 세계경제포럼 100대 스타트업으로 선정된 건 S2W가 처음이다. 다크버트에 관한 논문 역시 세계 3대 자연어처리 학회인 ACL에 채택됐다. 토종 국내 스타트업이 세계 무대에서 AI 기술력을 연이어 인정받은 것이다.
S2W는 과학기술정보통신부 산하 정보통신기획평가원 지원을 받아 해외시장 개척에 나섰으며 인도네시아를 비롯한 전 세계 정부로부터 주목받고 있다. 이달 초에는 인도네시아 공공기관과 솔루션 공급 계약을 체결하기도 했다. 이번 수출의 가교 역할을 한 텐서 시큐리티 아시아 퍼시픽의 파리드 알리아스 싱가포르 지사장은 “S2W의 기술력은 놀라운 수준”이라면서 “S2W 솔루션에 국제적 경쟁력이 있는 만큼 이번 계약을 시작으로 함께 시장을 확대해갈 예정”이라고 밝혔다.
◇다크웹에 특화된 ‘다크버트’, 韓 기술로 탄생
다크버트는 일반 인터넷 브라우저로 접속이 불가한 다크웹에서 데이터를 수집, 가공한 뒤 2018년 구글이 발표한 언어모델 ‘버트(BERT)’를 적용, 학습시킨 모델이다. 오픈AI의 챗GPT가 일반 웹 상의 데이터를 학습한 것과 다르다. 다크웹은 마약, 랜섬웨어, 해킹 정보 거래 등 범죄 온상이 된 익명 기반 네트워크로 각종 불법 콘텐츠가 유통되지만 익명화 기술로 보호돼 범죄자 추적이나 출처 파악 등이 매우 어렵다.
다크버트는 이 같은 한계를 극복하기 위해 개발됐다. 연구진은 2.2테라바이트(TB)에 달하는 다크웹 페이지 약 6백만건을 학습한 뒤 위협 시나리오별로 테스트를 수행했다. 이후 정보를 효과적으로 탐지하고 식별하는 훈련을 거쳤다. 이를 통해 다크웹 내 위협 활동을 분류하고 사이버 범죄자가 쓰는 은어와 신조어를 이해 및 추론할 수 있는 모델로 진화시켰다.
다크웹이라는 특정 도메인에 특화한 언어모델을 만든 것은 다크버트가 최초다. 다크버트를 활용하면 기업별로 원하는 다크웹 콘텐츠를 요약하거나 다크웹 내 공격자가 자주 사용하는 신종 툴을 빠르고 정확하게 확인할 수 있다. 특히 챗GPT와 같은 거대 생성형 AI를 자체 구축하는 데 천문학적인 비용이 투자되지만 다크버트는 이보다 훨씬 가볍게 구축할 수 있고 맞춤형 온프레미스 구축에도 유리하다.
서상덕 S2W 대표는 “경계가 없는 사이버 행위를 분석하려면 사용되는 언어를 학습하고 이해하는 것이 기본”이라면서 “다크버트는 세계를 안전하게 지키는 일에서 현재까지 출시된 어떤 AI 언어모델보다 의미 있는 기여를 할 것”이라고 말했다. 이어 “다크버트는 외부 유출 우려 없는 맞춤형 AI”라면서 “보안 우려로 인해 자체 구축형 챗GPT를 쓰려는 기업이 선호한다”고 말했다.
다크버트가 공개된 이후 세계적 AI 권위자 랜스 엘리엇 박사는 “(다크버트는) 다크웹 관련 생성형 AI 모델 가운데 연구에 기반한 모범 사례”라면서 “관심 있는 사람에게 유용한 롤모델이 될 것”이라고 평가했다. 네덜란드 철도청의 정보보호최고책임자(CISO) 드미트리 반 잔트블리엣은 자신의 SNS에 “다크버트는 혁명적 AI 모델을 활용해 불을 밝히는 일”이라면서 “한국의 다크버트가 사이버보안과 디지털 포렌식 등 숨겨진 온라인 활동에 돌파구를 마련해줄 것”이라고 전했다.
◇빅테크, 생성형 AI 주도권 경쟁 치열...각 산업계도 ‘분주’
다크버트 외에도 생성형 AI 주도권 경쟁은 글로벌 빅테크 사이에서 이미 불붙은 모양새다.
엔비디아는 기업이 AI 모델을 자체 학습시키고 운영하도록 지원하는 ‘AI 파운데이션’을 지난 3월 출시했다. 생성형 AI의 핵심인 거대언어모델(LLM)을 기업이 자체 구축하고 규모에 맞게 구현하도록 돕는 서비스다.
마이크로소프트(MS)는 챗GPT 개발사 오픈AI의 그림 생성형 AI ‘달리’를 검색엔진 빙에 적용한 ‘빙 이미지 크리에이터’를 선보였다. 빙 이용자는 AI 챗봇과 대화하며 원하는 그림을 즉시 생성할 수 있다.
이와 유사하게 어도비는 포토샵, 일러스트레이터 등 자사 제품에 통합할 수 있는 생성형 AI ‘파이어플라이’를 내놨다. 무료로 공개됐거나 저작권이 만료된 그림을 학습해 저작권 문제를 애초에 없앴다.
구글은 생성형 AI 챗봇 ‘바드’를 공개했다. 바드 테스트에만 구글 직원 8만명이 동원된 것으로 알려졌다. 바드는 챗GPT나 MS 빙과 비슷하지만 답변 속도가 더 빠르며 단어가 차례로 나타나는 방식이 아닌 한꺼번에 표시된다. 구글 검색과도 연동돼 최근 사건에 대해서도 답변한다.
아마존은 생성형 AI 혁신센터 구축에 1억달러(약 1300억원)을 투자할 계획이라고 지난 22일 밝혔다. 회사 측은 아마존웹서비스(AWS)의 혁신센터를 통해 의료, 금융, 제조 서비스 등 다양한 분야의 고객이 생성형 AI를 활용한 맞춤형 애플리케이션을 구축하도록 지원할 계획이라고 설명했다.
다른 산업에서도 생성형 AI 도입은 분주하다. 여행 산업이 대표적이다.
익스피디아, 프라이스라인 등 온라인 여행사들은 일정 수립과 숙소 예약 등 여행 옵션을 맞춤형으로 짜주는 서비스에 생성형 AI를 활용하고 있다. 여행계획서를 자동 생성하거나 개인 컨시어지처럼 일정 수립을 도와주는 식이다. 하나투어, 인터파크, 참좋은여행 등 국내 여행사들도 잇달아 챗GPT를 도입했다.
시장조사업체 더 브레이니 인사이츠에 따르면 생성형 AI 시장은 향후 10년간 22배가 넘게 커지며 2023년 1886억달러(약 247조원) 규모가 될 것으로 전망된다.
김지선 기자 river@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- 위챗페이 폰투폰 결제 국내 상륙
- LG CNS, 챗GPT 기반 ‘AI 코딩’ 개발…기업 맞춤 코드 짜줘
- LG “개방형 혁신으로 글로벌 스타트업·VC 협업”
- 스티브창 어드밴텍 임베디드 아시아 총괄 부사장 “AIoT로 산업계 ESG 경영 지원”
- 오늘의집 슈퍼앱으로 개편…AI 접목해 라이프스타일 추천
- 디즈니랜드 가면 가오갤 ‘베이비 그루트’가? [숏폼]
- 尹 “정치보조금 없애고 경제보조금 살려야”..내년 예산 첨단과기 집중 투입
- [2023 상반기 인기상품]품질우수-나임네트웍스/클라우드 통합운영관리플랫폼(ICMP)/탱고(TANGO)
- [2023 상반기 인기상품] 고객 신뢰 쌓기에 집중…품질·브랜드 파워↑
- [2023 상반기 인기상품]브랜드우수-알파스캔디스플레이/모니터/AOC Q32V3S QHD IPS 75