“1T클럽, AI 학습용 한국어 데이터 확보 총력”..업스테이지
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 스타트업 업스테이지가 거대언어모델(LLM) 학습에 필요한 한국어 데이터 확보에 나선다.
김성훈 업스테이지 대표는 "LLM은 오늘날 생성형 AI 핵심 기술로서 국내 다양한 업계 기업들도 고성능 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "1T클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI 발전 수혜를 볼 수 있도록 최선을 다할 것"이라고 말했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
데이터 원문 추출 불가 등 데이터 보안, 개인정보보호
[파이낸셜뉴스] 인공지능(AI) 스타트업 업스테이지가 거대언어모델(LLM) 학습에 필요한 한국어 데이터 확보에 나선다. 외국어 중심으로 학습된 빅테크 LLM은 한국어 역량은 물론 정서 및 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗한 LLM 발전에 걸림돌이 될 수 있다는 판단에서다.
업스테이지는 고성능 LLM 개발을 위한 ‘1T클럽’을 발족한다며 14일 이같이 밝혔다. 1T클럽은 ‘1조토큰클럽’을 줄인 말이다. 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상 한국어 데이터를 기여할 수 있는 파트너사들로 구성된다.
1T클럽은 한국어 데이터 부족 문제 해결은 물론 데이터 제공자와 모델 제작 기업이 상생하는 생태계를 확립한다는 목표다. 업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써, 한국문화 정서를 담아낼 수 있는 고품질 LLM을 개발할 계획이다.
업스테이지는 현재 20여개 언론사, 기업, 학계 등 데이터 제공자들과 파트너십을 위한 긴밀한 협의를 진행 중이다. 또 다양한 업계 리딩 기업들과 프라이빗 LLM 구축 협의는 물론 한국어 LLM 발전에 기여할 다양한 분야 파트너사들과 협력을 추진할 계획이다.
업스테이지는 제공된 데이터 보안과 개인정보보호에도 만전을 기할 방침이다. 즉 원문 추출은 불가능하도록 운용할 계획이다. 또 기타 용도로 사용하거나 외부로 유출하지 않는 것은 물론 자체 ‘탈옥방지(Jailbreak Check)’ 기술을 통해 원문 유출을 원천 차단할 계획이다.
김성훈 업스테이지 대표는 “LLM은 오늘날 생성형 AI 핵심 기술로서 국내 다양한 업계 기업들도 고성능 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다”며 “1T클럽을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI 발전 수혜를 볼 수 있도록 최선을 다할 것”이라고 말했다.
#인공지능 #업스테이지 #LLM
Copyright © 파이낸셜뉴스. 무단전재 및 재배포 금지.
- 남편상 사강, 4년만 안방 복귀…고현정 동생
- 최현욱, 장난감 자랑하다 전라노출…사진 빛삭
- "치마 야하다고"…엄지인, 얼마나 짧기에 MC 짤렸나
- 영주서 50대 경찰관 야산서 숨진채 발견…경찰 수사 착수
- "조카 소설, 타락의 극치" 한강의 목사 삼촌, 공개 편지
- "엄마하고 삼촌이랑 같이 침대에서 잤어" 위장이혼 요구한 아내, 알고보니...
- "딸이 너무 예뻐서 의심"…아내 불륜 확신한 남편
- "절친 부부 집들이 초대했다가…'성추행·불법촬영' 당했습니다"
- "마약 자수합니다"…김나정 前아나운서, 경찰에 고발당해
- 100억 자산가 80대女..SNS서 만난 50대 연인에 15억 뜯겼다