기계는 기계로부터 배울 수 있을까[IT 칼럼]

2024. 4. 19. 16:01
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

Photo by Mahdis Mousavi on Unsplash



챗GPT는 물론, 알아서 동영상까지 만들어 주는 소라(Sora)까지. 생성형 인공지능의 첨병이 된 오픈AI. 그 인공지능이 실은 유튜브로 학습했다는 풍문이 들린다. 유튜브의 영상은 대본도 딸려 오니 기계를 위한 인강(인터넷 강의)에도 효과적이었나 보다. 구글은 “필요한 법적 기술적 조치”를 강구하겠다고 반응했으나, 그들도 실은 자신들의 인공지능 학습을 위해 유튜브는 물론 검색을 위해 긁어온 인터넷 데이터로 학습했음을 아는 사람은 다 아니, 별로 목소리를 키우지 않는다.

승승장구하는 인공지능 업계의 고민이 드러나는 일화다. 인공지능의 품질은 점점 설계 기술보다는 재료에 의해 좌우되고 있다. 인공지능의 발전 자체가 워낙 개방된 논문에 의존하고 있어서이다. 지금의 인공지능이란 만드는 방법을 알아도 원자재에 해당하는 데이터와 그 학습 공장을 만들기 위한 반도체를 대량으로 확보하지 않으면 애초에 시작할 수 없는 규모의 사업이다.

반도체야 돈으로 살 수 있지만, 데이터는 돈으로 해결되지 않는다. 데이터를 사는 방법도 시장도 엄연히 존재하지만, 초대형 언어 모델, LLM의 먹성을 그런 식으로는 채울 수 없다. 결국 모두 인터넷에 의존한다. 정보의 바다 인터넷, 인터넷에서 사람이 볼 수 있는 정보라면, 기계도 좀 보고 배워도 괜찮으리라는 순진하고 낙관적인 대전제가 작금의 인공지능을 만들었다.

말이 학습이지 기계가 하는 학습은 사람과 달라 소화되지 않은 채 배설하는 일이 벌어지게 되고, 자신의 작품을 거의 그대로 뱉어내는 기계를 보면 누구라도 경악하고 만다. 원작자가 허락한 적도 없는 정보가 인터넷에는 범람하기 때문에 벌어지는 일이다. 인터넷에 나의 글이 공식적으로 올라갔더라도, 이를 기계 학습에 써도 좋다고 생각해본 적도 없는 것이 대부분의 창작자일 터니, 줄소송이 이어진 건 당연한 일이다. 그 후 데이터 문제는 인공지능 업계의 가장 약한 고리가 돼버려, 인공지능을 어떤 데이터로 학습했는지는 임직원의 입단속 대상이 돼버렸다.

새로운 회피법을 궁리하기 시작했는데, 많이 쓰이는 것으로 합성 데이터(Synthetic Data)가 있다. 기계가 만든 정보는 저작권이 인정될 수 없다는 판례를 받든 아이디어인데, 인공지능이 합성한 데이터로 학습하는 일을 말한다. 인공지능이 그럴듯한 정보를 만족할 만하게 합성해 낸다면 이를 다시 학습해 까탈스러운 작가들의 불평을 피해 갈 수 있으리라는 것. 아무리 봐도 일종의 ‘데이터 세탁’이다.

이 방식에는 쉽게 예측할 수 있는 한계가 있다. 모터와 발전기를 서로 돌리자는 영구기관의 망상과 흡사해서다. 그러지 않아도 헛소리가 많은 인공지능의 편향이 강화되며 폭주할 수밖에 없어 보인다. 다양성이 제한된 정보 안에서의 돌려막기가 어떤 결과로 이어지는지는 근친혼의 역사가 알려 준 바 있다. 푸바오가 중국으로 간 이유는 더 넓은 (유전) 정보를 만나기 위함이고, 지능의 진화 또한 다르지 않다. 학습은 새롭고 다른 것을 받아들이는 과정이다. 현재 그 정보의 다양성을 제공해줄 수 있는 역할은 전적으로 인간의 창작에 의존할 수밖에 없다. 제아무리 인공지능 시대가 와도 인간만이 할 수 있는 독특한 역할이 아직 있어 보인다.

김국현 IT 칼럼니스트

Copyright © 주간경향. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?