AI, 더 멀리 더 오래 더 가까이 [정원훈의 AI 트렌드]

허깅페이스 5월 1주차 AI 동향 분석

인공지능(AI) 트렌드를 가장 빠르게 알 수 있는 허깅페이스를 분석하는 정원훈의 AI 트렌드입니다. 이번 주 허깅페이스는 한마디로 '문맥은 길어지고, 영상은 풀려나고, 프라이버시는 내 손안으로 돌아온' 한 주였습니다.

딥시크(DeepSeek)가 100만 토큰 컨텍스트를 가진 거대 MoE 모델을 오픈소스로 풀어내며 '에이전트가 멈추지 않는 시대'를 선언했습니다. 텍스트만 넣으면 영상이 흘러나오는 9B 규모 동영상 생성 모델이 RTX 한 장에서 돌아가는 시대가 왔습니다. 그리고 오픈AI가 처음 공개한 오픈웨이트 모델은 '챗봇'이 아니라 '내 컴퓨터 안에서 개인정보를 지워주는 작은 파수꾼'이었습니다.

이번 주의 키워드는 세 가지입니다. '100만 토큰 컨텍스트로 에이전트를 위해 설계된 딥시크-V4-프로(DeepSeek-V4-Pro)', '9B 규모로 가성비 동영상 생성 시대를 연 설퍼-2(Sulphur-2-base)', '개인정보를 브라우저 안에서 지우는 오픈AI 프라이버시 필터(OpenAI Privacy Filter)'입니다. 이번 주도 퀴즈로 시작하겠습니다.

총 1조6000억(1.6T) 파라미터 규모이지만 활성 파라미터는 49B에 불과한 MoE(전문가 혼합) 구조로, 100만 토큰 컨텍스트를 단일 패스로 처리합니다. 압축 희소 어텐션(CSA)과 헤비 압축 어텐션(HCA)을 교차 배치한 하이브리드 구조 덕분에, 1M 토큰 환경에서 직전 모델 V3.2 대비 단일 토큰 추론 연산량이 약 27%, KV 캐시 크기는 약 10% 수준으로 줄었습니다. 자율 에이전트가 멈추지 않고 오래 도는 것을 목표로 설계된 이 모델의 이름은 무엇일까요.

텍스트 한 줄을 넣으면 짧은 동영상으로 출력해주는 9B 규모 오픈웨이트 모델로, 라이트릭스의 LTX-2.3 영상 생성 엔진을 베이스로 미세조정됐습니다. 프롬프트 인핸서를 함께 제공해 LM 스튜디오(LM Studio) 같은 로컬 환경에서도 바로 돌릴 수 있고, 디스틸드 LoRA를 적용하면 추론 단계가 대폭 줄어 소비자용 그래픽처리장치(GPU)에서도 영상 생성이 가능한 이 모델의 이름은 무엇일까요.

정답은 'DeepSeek-V4-Pro'와 'Sulphur-2-base'입니다. 그럼 이번 주에는 어떤 혁신이 등장했는지 함께 살펴보겠습니다.

AI 모델 톱3

1위: Deepseek-ai/DeepSeek-V4-Pro | Text Generation

"100만 토큰을 단숨에 읽어 내려가다… 에이전트를 위해 새로 설계된 딥시크의 승부수"

지난 주에 이어 이번주도 DeepSeek-V4-Pro가 1위를 차지했습니다. 이름값이 모든 것을 말해주는 모델입니다. 총 1조6000억(1.6T) 파라미터에 활성 파라미터는 49B인 MoE 구조, 그리고 100만 토큰 컨텍스트 윈도우로 듣기만 해도 어지러운 숫자들입니다.

쉽게 말하면, 책 약 10권 분량을 한 번에 통째로 읽고 기억할 수 있는 거대한 두뇌라는 뜻입니다. 그것도 폐쇄형 API가 아니라 누구나 무료로 가중치를 받아 쓸 수 있는 오픈소스로 말입니다.

진짜 포인트는 '에이전트를 위해 다시 설계됐다'는 데 있습니다. 기존 오픈소스 모델로 자율 코딩 에이전트를 돌려본 분이라면 익숙한 풍경이 있을 겁니다. 작업 중간에 컨텍스트가 차서 멈추고, KV 캐시(Key-Value Cache)가 GPU 메모리를 잡아먹고, 도구 호출이 길어지면 성능이 무너지는 그 풍경 말입니다. 딥시크-V4는 바로 이 고질병을 정조준했습니다.

핵심 구조를 살펴보면, 압축 희소 어텐션(CSA)과 헤비 압축 어텐션(HCA)이라는 두 가지 어텐션을 층별로 교차 배치한 하이브리드 구조를 채택했습니다. 비유하자면, '꼼꼼히 읽는 눈(CSA)'과 '훑어 읽는 눈(HCA)'을 번갈아 가며 글을 보는 셈입니다. 그 결과는 놀랍습니다. 100만 토큰 컨텍스트 환경에서 단일 토큰 추론 연산량은 직전 모델인 V3.2의 27% 수준, KV 캐시는 단 10% 수준으로 줄어들었습니다.

성능도 만만치 않습니다. 파이토치(PyTorch), CUDA, 러스트(Rust), C++을 아우르는 30개 코딩 과제로 구성된 내부 R&D 벤치마크에서 V4-Pro-Max는 67%의 통과율을 기록했습니다. 이는 클로드 소넷 4.5의 47%를 앞서고 클로드 오퍼스 4.5의 70%에 근접한 수치입니다. 개방형 모델 중에서는 에이전틱 코딩 벤치마크에서 SOTA(최고 성능)를 기록했다고 딥시크 측은 발표했습니다.

어디에 활용할 수 있을까요. 거대 코드베이스의 자동 분석과 리팩토링, 수백 페이지 분량의 법률·의료·재무 문서 통합 분석, 멈추지 않는 자율 코딩 에이전트, 1M 토큰을 활용한 대규모 RAG(검색증강생성) 시스템 구축 등에 적합합니다. '에이전트가 일하다 말고 끊긴다'는 고민이 있는 기업이라면 가장 먼저 들여다볼 모델입니다.

2위: SulphurAI/Sulphur-2-base | Text-to-Video

"내 컴퓨터에서 영상이 흘러나온다… 9B로 텍스트를 동영상으로 바꾸는 오픈웨이트의 새 기준"

소라(Sora), 클링(Kling), 비오(Veo) 같은 폐쇄형 동영상 생성 AI들이 화려한 데모로 세상을 놀라게 하는 동안 오픈소스 진영은 조용히 '내 컴퓨터에서 돌리는 영상 생성' 모델을 다듬어 왔습니다. 그 결실 중 하나가 바로 이번 주 톱2에 오른 설퍼-2-베이스(Sulphur-2-base)입니다.

텍스트-영상(Text-to-Video) 카테고리의 9B(90억) 파라미터 규모 모델로, 라이트릭스(Lightricks)의 LTX-2.3 영상 생성 엔진을 베이스로 미세 조정한 오픈웨이트 모델입니다. 핵심은 단순합니다. 텍스트 한 줄을 입력하면 짧은 동영상이 출력됩니다. "노을이 지는 한강에서 강아지가 뛰어다니는 장면"이라고 적으면 그 장면이 영상으로 흘러나오는 셈입니다.

특히 주목할 점은 '실용성'입니다. 단순히 가중치만 던져둔 것이 아니라, 프롬프트를 자동으로 더 풍부하게 다듬어주는 별도의 프롬프트 인핸서(prompt enhancer) GGUF 파일과 디스틸드 LoRA, 그리고 컴피UI(ComfyUI) 워크플로 파일까지 함께 제공합니다. 디스틸드 LoRA를 적용하면 추론 단계가 줄어 RTX 4090 같은 소비자용 GPU에서도 무리 없이 영상 생성이 가능합니다.

다만 한 가지 짚어둘 점이 있습니다. 베이스 모델 자체는 일반적인 동영상 생성용이지만, 커뮤니티에서 파생된 일부 머지 모델은 성인 콘텐츠 등 특정 용도로 추가 튜닝되고 있습니다. 기업 환경에서 활용한다면 베이스 가중치를 사용하고, 출력물 검수와 안전 필터를 반드시 함께 갖춰야 합니다.

어디에 활용할 수 있을까요. 광고·마케팅 영상 시안 제작, 교육용 짧은 설명 영상 자동 생성, 소셜미디어 숏폼 콘텐츠 양산, 브랜드 캠페인 무드 영상 프로토타이핑 등 '아이디어를 빠르게 영상으로 시각화'해야 하는 모든 현장에 적합합니다.

3위: Openai/privacy-filter | Token Classification

"개인정보를 내 컴퓨터에서 지운다… 오픈AI가 보기 드물게 푼 오픈웨이트 모델"

지난 주에 이어 이번주도 3위에 올랐습니다. 폐쇄형의 대명사인 오픈AI가 오랜만에 오픈웨이트 모델을 풀었는데, 그 정체가 GPT급 거대 챗봇이 아니라 '개인정보를 지워주는 작은 도구'입니다.

총 1.5B 파라미터에 활성 파라미터는 50M(5천만) 수준이고, 라이선스는 아파치 2.0으로 상업적 이용도 자유롭습니다. 검출 카테고리는 사람 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 비밀번호(secret) 등 8가지이며, 컨텍스트는 12만8000 토큰까지 처리합니다.

핵심 구조도 흥미롭습니다. 기존 GPT처럼 토큰을 하나씩 생성하는 방식이 아니라, 입력 문장 전체를 한 번의 순방향 패스로 라벨링하고 제약된 비터비(Viterbi) 디코딩으로 일관된 PII 영역을 결정합니다. 쉽게 말해, '글자를 하나씩 써내려가는 작가'가 아니라 '문장 전체를 한눈에 훑어 빨간 펜으로 표시하는 편집자'라고 보면 됩니다.

성능 수치도 만만치 않습니다. PII-Masking-300k 벤치마크에서 즉시 96%의 F1 점수를, 보정된 버전에서는 97.43%를 기록했으며 이는 동일 등급의 폐쇄형 상용 시스템을 웃도는 수치입니다. 속도 역시 인상적이어서, 소비자용 GPU에서는 초당 1500 토큰을, CPU만으로도 FP32 환경에서 초당 200~400 토큰을 처리합니다.

가장 중요한 의미는 '온디바이스 프라이버시'입니다. 필터링 전 데이터가 외부 서버로 전송되지 않고 사용자의 기기 안에 머무를 수 있어, 노출 위험을 줄여줍니다. 챗GPT나 클로드, 노트북LM에 민감 문서를 올리기 전에 이 필터를 한 번 거치게 하면, 실명·주소·계좌가 자동으로 가려진 상태로 전송됩니다.

어디에 활용할 수 있을까요. 의료·법률·금융 문서의 비식별화(가명처리) 파이프라인, 콜센터 상담 기록의 자동 마스킹, GDPR·개인정보보호법 준수가 필요한 데이터셋 정제, AI 학습 데이터 구축 시 사전 필터링 등에 적합합니다.

AI 응용프로그램(Spaces) 톱3

허깅페이스 스페이스는 AI 모델을 웹 브라우저에서 바로 체험할 수 있는 플레이그라운드입니다. 코드 한 줄 없이 최신 AI 기술을 만져볼 수 있죠. 이번 주 가장 뜨거운 스페이스 3곳을 소개합니다.

1위: Talkie 1930 | multimodalart

"1930년의 AI에게 말을 건다… 시간이 멈춘 13B 빈티지 언어 모델"

이번 주 1위 스페이스는 기술 자랑이 아니라 '시간 여행'입니다. 1931년 이전에 출간된 영어 텍스트만으로 학습한 130억(13B) 파라미터 언어 모델과 대화할 수 있는 공간입니다.

쉽게 말해, 이 AI는 '대공황 이후의 세상'도, '제2차 세계대전'도, '컴퓨터'도, '달 착륙'도 모릅니다. 학습 데이터의 종료 시점이 1930년 12월 31일로 엄격하게 고정돼 있기 때문입니다. 기반은 책, 신문, 과학 학술지, 특허, 판례 등 1931년 이전 영어 텍스트 2600억 토큰입니다.

흥미로운 활용 사례가 풍부합니다. 작가와 게임 개발자들은 1930년대 분위기의 대사와 편지를 뽑아내는 데 활용하고, AI 연구자들은 '학습 데이터의 시대가 모델의 추론 방식에 어떤 영향을 주는가'를 비교 실험하는 데 사용합니다. 단순한 호기심 거리가 아니라, AI의 '데이터 편향'과 '시간성'을 들여다보는 진지한 실험실이기도 합니다.

2위: ML Intern | smolagents

"내 옆자리에 ML 인턴이 생긴다… 논문을 읽고 모델을 학습시키는 자율 에이전트"

허깅페이스가 직접 공개한 오픈소스 자율 에이전트 'ML 인턴'을 웹에서 가볍게 체험해 보는 데모 공간입니다. 머신러닝 관련 질문이나 요청을 입력하면 브라우저 안에서 즉시 알기 쉬운 답변을 받을 수 있고, 별도의 파일 업로드나 설정이 필요 없습니다.

CLI(명령줄) 버전의 본 모습은 더 화려합니다. 허깅페이스 생태계에 깊숙이 접속해 논문, 데이터셋, 클라우드 컴퓨팅 자원에 자율적으로 접근하면서 ML 코드를 연구하고 작성하고 실행합니다. 에이전틱 루프는 최대 300번까지 반복되며, 컨텍스트 매니저, 도구 라우터, 그리고 무한 루프를 감지해주는 '둠 루프 디텍터(Doom Loop Detector)'까지 갖췄습니다. 벤치마크에서는 Qwen3-1.7B 모델로 GPQA 점수를 10시간 만에 10%에서 32%까지 끌어올리며, 같은 환경의 클로드 코드(22.99%)를 넘어섰다고 밝혔습니다.

매일 모델을 굴리는 ML 엔지니어에게는 '24시간 일하는 인턴'이, 비전공자에게는 '머신러닝 길잡이'가 되는 셈입니다.

3위: Privacy Filter WebGPU | webml-community

"내 브라우저에서 개인정보가 사라진다… 서버 없이 돌아가는 PII 필터"

오픈AI 프라이버시 필터를 웹GPU 기술로 브라우저 안에서 직접 돌려볼 수 있는 데모 공간입니다. 텍스트를 입력하면 사람 이름, 주소, 이메일, 전화번호, URL, 날짜, 계좌번호, 비밀번호 등 개인정보를 자동으로 찾아내고 마스킹합니다.

핵심은 단 하나, '입력한 문장이 외부 서버로 단 1바이트도 나가지 않는다'는 점입니다. 모든 탐지와 마스킹이 사용자의 브라우저 안에서 처리됩니다. 인터넷 연결을 끊어도 동작합니다.

회의록을 챗GPT에 올리기 전 한 번 거르고 싶은 변호사, 의료 기록을 클로드에 분석시키기 전 환자 이름을 지우고 싶은 의사, 고객 데이터를 학습용으로 정제하려는 데이터 엔지니어에게 즉시 가치 있는 도구입니다. 보안 부서를 통과하지 않고도 'AI에 문서를 안전하게 던지는' 첫 관문이 될 수 있습니다.

시사점 & 인사이트

이번 주 트렌드를 한마디로 요약하면 'AI가 더 길게 보고, 더 멀리 만들고, 더 가까이 지키기 시작했다'입니다.

첫째, '컨텍스트 전쟁'에서 '에이전트 전쟁'으로 무게추가 옮겨가고 있다.

딥시크-V4-프로의 100만 토큰 컨텍스트는 단순한 숫자 자랑이 아닙니다. 이 모델이 강조한 모든 기술적 결정(압축 어텐션, 줄어든 KV 캐시, 결정적(deterministic) 커널)은 '에이전트가 멈추지 않고 오래 동작하는 것'을 목표로 합니다. 즉, AI 산업의 다음 격전지는 '한 번에 얼마나 많이 답하느냐'가 아니라 '얼마나 오래, 안정적으로 일하느냐'입니다. 한국의 SI·금융·제조 기업이 'AI 도입'을 'AI 운용'으로 전환할 때 반드시 점검해야 할 축입니다.

둘째, 텍스트→이미지를 지나 텍스트→영상의 대중화가 시작됐다.

설퍼-2-베이스의 의미는 '한 장의 GPU에서 영상을 만든다'는 데 있습니다. 폐쇄형 동영상 AI가 월 수십~수백 달러의 구독료를 받는 동안, 오픈웨이트 진영은 9B 규모로 '내 책상 위 PC에서 영상을 뽑아내는 시대'를 열고 있습니다. 광고·교육·미디어 기업의 콘텐츠 생산 단가가 다시 한 번 무너질 수 있는 변곡점입니다. 다만 저작권, 초상권, 그리고 베이스 모델에서 파생된 일부 부적절 용도 모델에 대한 거버넌스 정책은 함께 정비돼야 합니다.

셋째, '온디바이스 프라이버시'가 AI 도입의 새 표준이 되고 있다.

오픈AI가 처음 푼 오픈웨이트 모델이 거대 LLM이 아니라 '개인정보 필터'라는 사실은 상징적입니다. 이는 AI 시대의 다음 의제가 '더 똑똑한 모델'이 아니라 '더 안전한 데이터 흐름'이라는 신호입니다. 서버에 올리기 전에 내 컴퓨터에서 한 번 걸러낸다는 이 단순한 원칙이 의료, 법률, 금융, 공공 분야의 AI 도입을 가로막던 가장 큰 장벽을 허물고 있습니다. 한국 기업에게는 반도체·디바이스·보안 솔루션 분야의 강점을 살려 '온디바이스 AI 보안 스택'을 선점할 절호의 기회입니다.

토막상식 : 오픈웨이트(openweight)란?

이번 주 칼럼에서 '오픈AI가 처음 푼 오픈웨이트 모델'이라는 표현이 등장했습니다. 그런데 우리가 흔히 쓰는 '오픈소스'와 '오픈웨이트'는 무엇이 다를까요. 비유하자면 이렇습니다. 유명 셰프가 자신의 시그니처 요리를 공개한다고 할 때, '완성된 요리(가중치)만 공짜로 나눠주는 것'이 오픈웨이트이고, '레시피, 재료 출처, 조리 과정, 주방 환경(코드·학습 데이터·학습 방법)까지 모두 공개하는 것'이 진정한 오픈소스입니다. 즉 오픈웨이트는 '결과물은 자유롭게 가져다 쓰되, 어떻게 만들었는지는 비밀'이고, 오픈소스는 '결과물부터 제작 과정까지 전부 투명하게 공개'한다는 차이가 있습니다.

이 차이가 왜 중요할까요. AI 모델을 그저 '쓰는' 입장이라면 오픈웨이트만으로도 충분합니다. 가중치만 받으면 내 컴퓨터에서 모델을 돌리고 미세조정도 할 수 있기 때문입니다. 하지만 '왜 이 모델이 이렇게 답하는지', '학습 데이터에 편향은 없는지', '저작권이 있는 자료가 무단으로 쓰이지 않았는지' 검증하려면 학습 데이터와 코드까지 공개된 진짜 오픈소스가 필요합니다. 그래서 메타의 라마(Llama), 알리바바의 큐원(Qwen), 그리고 이번 주 1위에 오른 딥시크-V4도 엄밀히 말하면 '오픈웨이트'입니다. 학습 데이터셋 전체가 함께 공개된 모델은 의외로 드뭅니다. 폐쇄형의 대명사인 오픈AI가 이번에 푼 프라이버시 필터 역시 오픈웨이트로 분류되며, '완전한 투명성'까지는 아니지만 '내 기기에서 자유롭게 돌리고 검증할 수 있다'는 점만으로도 보안·법무·의료 분야 실무자들에게는 충분히 의미 있는 진전입니다.

마무리

이번 주 허깅페이스를 한 문장으로 요약하면 이렇습니다. "AI는 더 멀리 보고, 더 오래 만들고, 더 가까이에서 지킨다." 딥시크는 100만 토큰 컨텍스트로 '멈추지 않는 에이전트의 시대'를 선언했고, 설퍼는 9B 규모로 '내 책상 위에서 영상이 흘러나오는 시대'를 열었으며, 오픈AI는 처음으로 푼 오픈웨이트로 '내 데이터를 내 기기 안에서 지키는 시대'에 한 표를 던졌습니다. 거대해지는 두뇌, 풍부해지는 표현, 그리고 가까워지는 보안 등 이번 주 허깅페이스가 보여준 세 갈래의 길은 결국 한 곳을 가리킵니다. AI는 점점 더 우리 가까이로 내려오고 있다는 사실 말입니다.

※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.

정원훈 텐에이아이 대표는 한국인공지능진흥협회 이사와 한국디지털자산포럼(KODIA Forum) 정책기획실장을 맡고 있다. 법률AI 서울로봇과 블록ESG 프로젝트를 총괄하며 한국지식재산교육연구학회 이사 겸 기술가치평가위원장과 한국벤처창업학회 이사로도 활동한다. 아시아경제신문사 뉴미디어본부, 매일경제인터넷 금융센터 팀장을 거쳐, SNS 개발과 대안신용평가 시스템, AI 기반 법률 서비스 등 혁신 프로젝트를 주도해 온 IT·금융 전문가다.

IT조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

속보

﻿AI, 더 멀리 더 오래 더 가까이 ﻿[정원훈의 AI 트렌드]

AI, 더 멀리 더 오래 더 가까이 [정원훈의 AI 트렌드]