AI개발사들, 모델 훈련 데이터로 기업 자료까지 확대 안간힘

이규화 2025. 12. 18. 10:25
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

오픈AI를 비롯한 인공지능(AI) 개발사들이 AI모델 훈련을 위한 데이터 확보를 위해 기업이 보유한 자료를 확보하기 위한 움직임을 보이고 있다.

17일(현지시간) 미국 정보기술(IT) 전문매체 디인포메이션에 따르면 오픈AI는 최근 회계 소프트웨어 기업 제로를 포함해 생명공학·소프트웨어·금융 분야 업체들과 데이터 사용 계약을 놓고 논의했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 이미지. 로이터 연합뉴스


오픈AI를 비롯한 인공지능(AI) 개발사들이 AI모델 훈련을 위한 데이터 확보를 위해 기업이 보유한 자료를 확보하기 위한 움직임을 보이고 있다.

17일(현지시간) 미국 정보기술(IT) 전문매체 디인포메이션에 따르면 오픈AI는 최근 회계 소프트웨어 기업 제로를 포함해 생명공학·소프트웨어·금융 분야 업체들과 데이터 사용 계약을 놓고 논의했다. 앤스로픽과 구글 딥마인드, 구글의 신약 개발 자회사 아이소모픽 랩스 등도 바이오테크 스타트업들과 데이터 관련 파트너십을 타진한 것으로 나타났다.

아이소모픽 랩스 대변인은 논평 요청에 "새로운 치료제 설계에 활용하기 위한 목적 등으로 산업별 데이터에 관한 논의를 진행 중"이라고 밝혔다.

AI 개발사들의 이와 같은 움직임은 모델 훈련을 위해 인터넷상에서 긁어모은 공개 데이터를 사실상 모두 소진했기 때문이다.

대규모언어모델(LLM) AI의 성능이 충분한 데이터 훈련 양으로 평가된다는 점에서 추가적인 데이터 소진은 AI 성능 개선의 한계로까지 지적되고 있다. 이에 따라 AI개발사들은 AI가 과학실험을 설계하고 논문을 작성하는 '과학자 AI'를 통해 데이터를 확보하려는 움직임까지 보이고 있다. 이는 AI 훈련용 데이터 확보라는 측면에서 패러다임의 전환을 의미한다.

한때 언론사와의 관계를 단절하려는 태도까지 보인 메타를 비롯한 AI 개발사들이 최근 들어 주요 언론사와 콘텐츠 계약을 서두르는 것도 같은 이유에서다. 사실관계가 명확한 데다 정제된 문장으로 구성된 데이터가 끊임없이 제공되는 뉴스 기사는 AI 모델 훈련에 큰 도움이 되는 핵심 자원이기 때문이다.

여기에 AI 모델을 각종 전문 분야에서도 활용할 수 있도록 하려면 해당 분야의 전문 지식이 담긴 데이터도 필수적이다.

문제는 이처럼 '돈이 되는' 데이터는 대부분 해당 분야 기업들이 독점적으로 보유한 채 공개하지 않고 있다는 점이다. 이 때문에 오픈AI는 연구원들과 협력해 챗GPT에 부족한 지식 분야를 파악하는 '인간 데이터 팀'을 운영하고 있지만, 이와 별도로 외부 기업에서 데이터를 확보하는 '데이터 파트너십 팀'도 따로 두고 있다.

반면 기업들은 AI 개발사와의 전문 데이터 공유를 꺼리는 분위기다. AI에 데이터 곳간을 열어줬다가 고유한 사업 영역이 침해를 받거나 존립 자체가 위협받을 수 있다는 위기감이 있기 때문이다.

벤처캐피털 디멘션의 창립자 자베인 다르는 기업이 AI 기업과 데이터를 공유할 때 "어떤 데이터를 얼마나 오래 어떤 앱과 공유하는지 명확히 해야 한다"면서 "그렇지 않으면 결국 미래 경쟁사를 키우는 결과를 초래할 수 있다"고 지적했다.

실제로 제로는 오픈AI와 협력해 온라인 정보 검색 AI를 운영하고 있으면서도, 고객 데이터를 오픈AI에 넘기는 것은 거부했다.상황이 이렇다 보니 폐업 위기에 몰린 스타트업이 자신이 보유한 데이터를 통째로 판매하는 사례도 나오고 있다고 디인포메이션은 전했다.

데이터 라벨링 스타트업 튜링은 문을 닫는 기업 5∼10곳에 수만 달러를 주고 소프트웨어 코드를 통째로 사들인 다음, 이를 AI 기업들에 코딩 모델 훈련용 데이터로 판매하고 있다.

이규화 대기자 david@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.