저작권과 벡터화할 권리[IT 칼럼]
최초의 저작권(copyright)은 복제권이자 인쇄권이었다. 저자의 창작물을 기계의 힘을 빌려 복제할 수 있는 권리를 의미했다. 여기서 기계란 구텐베르크 발명 이후 보편화한 인쇄기를 지칭한다. 저자가 작성한 작품을 사들여 활자화한 뒤 인쇄기로 다량 복제하는 일련의 프로세스에 권리를 부여하는 개념이 바로 저작권이다. 1710년 영국 ‘앤 여왕법’으로 최초의 저작권이 제정된 당시, 저작권의 보유 주체는 대부분 비싼 인쇄 기계를 보유한 출판업자들이었다. 역사적으로 저작권을 기계의 역사와 떼어놓고 생각할 수 없는 이유다.
인쇄 기계를 보유한 출판업자가 인간의 창작물을 독점적으로 이용해 돈을 벌 권리로 저작권은 확장해갔다. 만약 인쇄기라는 대량 복제 기계의 도움이 없었다면 그들이 돈을 벌 기회는 제한적이었을 게다. 특히 이 과정에서 활자화는 가치 생산의 핵심 수단이었다. 원고지에 쓴 저자의 작품이 금속형 활자로 제작돼 복제가 쉬운 형태로 변환되면, 더 많은 수익을 만들어낼 수 있는 기반이 다져진다. 활자가 닳아 서체가 희미해질 때까지 출판업자는 수익을 얻고 또 얻을 수 있었다. 기계적 관점에서 보면, 사실 저작권은 ‘활자화할 권리’인 셈이다.
시대는 바뀌었고 인쇄 기계 시대는 저물고 있다. 단순 기계 복제 시대를 넘어 지금은 거대언어모델이 가치 생산을 지배하는 시대로 넘어가는 중이다. 간단한 질문만 던지면 저작권자들의 데이터에 기반해 탄탄한 답변을 얻을 수 있는 답변 엔진도 속속 등장하고 있다. 사용자들은 더 정교한 답변을 얻기 위해 월 구독료까지 지불한다. 광고 수익을 벌어들이기 위한 시도도 이어지고 있다. 반면 거대언어모델의 학습에 데이터를 보탠 저작자들은 제대로 된 보상조차 받지 못하는 실정이다. 인쇄 기계 시대에 정초된 저작권이 권리의 모호함을 해소해주지 못해서다. 심지어 거대언어모델 시대에 ‘복제할 권리’가 무엇인지조차 정리하지 못하고 있다. 권리 부여를 가능케 했던 핵심 기계와 가치 창출 메커니즘이 바뀌었지만, 저작권의 정의는 여전히 과거를 부유하고 있다.
복제권의 실체를 이해하기 위해서는 거대언어모델의 가치 창출 과정을 들여다봐야 한다. 거대언어모델의 가치 생산은 ‘벡터화’에서 시작된다. 벡터화는 디지털 공간에 게시된 언어를 계산 가능한 벡터로 변환하는 과정을 뜻한다. 이를 벡터 임베딩이라고 부른다. 벡터화되지 않은 언어는 거대언어모델에 의해 계산되지도 못하고 답변 생성에 동원되지도 못한다. AI 빅테크들은 인터넷 공간에 흩어진 문서들을 긁어온 뒤, 이를 모두 벡터화해서 데이터베이스에 쌓아둔다. 벡터화한 문서들은 학습 데이터로 활용되기도 하고, 검색의 출처로 인용되기도 한다. 거대언어모델이 돈을 버는 핵심 절차에 벡터화가 존재하는 것이다.
벡터화는 인쇄 기계 시대의 활자화에 대응한다. 원고지에 작성된 인간의 언어를 활자화하면서 가치 창출의 기회가 열렸듯, 웹에 누적된 문서들이 벡터화하면서 새로운 수익 모델이 작동하게 되는 것이다. 남은 과제는 거대언어모델 시대, 수익을 만들어낼 수 있는 핵심 기제로서 벡터화할 권리를 누구에게 부여할 것인가이다. 복제할 권리가 곧 활자화할 권리였던 시대를 연결하면 해답은 명확해진다. 저작권자다. 허락받지 않은 벡터화는 저작권자의 수익 창출 기회를 앗아간다. 저작권자가 벡터화 소프트웨어를 보유하고 있지 않다고 해서 활자화에 대응하는 벡터화의 권리까지 포기한 것으로 간주해서는 안 된다. 출판업자에게 착취당했던 저자들의 시대로 되돌아가는 것이다. 공정 이용은 보장하되, AI 빅테크들의 무분별한 벡터화 행위를 근절하기 위해서라도 벡터화할 권리에 대한 명확한 합의가 필요한 시점이 왔다. 거대언어모델 시대에 인간의 창작 행위가 이어지기 위해서라도 말이다.
이성규 미디어스피어 대표
Copyright © 주간경향. 무단전재 및 재배포 금지.