연설문 등 문서작성 전문가 뺨 치지만 사실 여부·실시간 업데이트에는 한계

최광남 KISTI 국가과학기술데이터본부장

최광남 KISTI 국가과학기술데이터본부장

오픈AI가 작년 11월 30일에 공개한 챗GPT가 공개된 지 두어 달 만에 전세계 학계 및 산업계에 큰 충격을 주고 있다.

구글이 어텐션 기반의 트랜스포머 모델을 2017년 공개한 이래 그간 많은 자연어처리 연구들은 이 트랜스포머 모델에 근간을 두고 이뤄졌다. 이 연구들은 크게 자연어이해(NLU)와 자연어생성(NLG)을 중심으로 이뤄졌으며, GPT 계열 연구들은 트랜스포머의 디코더 모듈에 기반을 둔 생성 모델이다. 기존 GPT3는 약 1750억 개의 파라미터를 가지고 600GB의 웹 문서와 서적들을 중심으로 학습이 됐고, 챗GPT는 GPT3를 기반으로 강화학습을 적용해 사용자 피드백을 통한 문장 교정까지 가능하게 했다.

챗GPT는 문장으로 구성된 질의에 마치 전문가가 답변하는 듯한 문장으로 답변을 해주며, 심지어 프로그램 코드까지 작성할 수 있다. 벌써 저자로 챗GPT를 기재한 논문들이 공개된 것처럼 전문 분야 문서 작성에도 활용 가능성을 보인다.

때문에 학계에서는 서둘러 AI가 논문 집필의 저자로 등재될 수 없다는 규정을 추가하고 학교에서 이를 활용한 보고서 작성을 금지하기도 했다. 이런 상황에서 오픈AI는 GPT3보다 크기를 500배 이상 키운 GPT4의 출시를 예고하고 있다.

챗GPT의 출현은 향후 검색 시장의 근간을 흔들 수 있을 것으로 예상된다. 즉 기존 키워드 중심 검색이 이제 자연스러운 문장으로의 검색과 검색 결과의 자연스러운 요약까지 가능한 Q&A 기반으로 넘어갈 수 있음을 시사한다. 또한 검색 대상이 문서, 이미지로 한정됐던 것에서 이제 수식, 도표까지 해석할 수 있게 되면서 다양한 정보 대상에 대한 검색과 해석, 분석이 모두 가능할 것으로 보인다.

사람이 작성했는지 기계가 작성했는지 구별이 곤란할 정도로 높은 수준의 문서 작성이 가능한 언어 생성 기술인 탓에 챗GPT의 활용도는 무궁무진하다. 거의 모든 분야의 문서 작성 작업에 활용될 수 있다. 연설문부터 연극 시나리오, 소설까지 모두 가능하다. 문서 작성을 주업으로 삼는 신문사나 로펌, 특허사무소들이 이 기술에 관심을 갖는 이유다. 기존 기업의 고객응대 방식 또한 완전히 챗봇으로 전환될 가능성이 높아졌다.

다만 이러한 챗GPT 같은 거대 AI 모델도 현재 한계가 있다. 가장 큰 한계는 제공하는 정보에 대한 사실 검증이 이뤄지지 않는다는 것이다. 확률 기반의 정보 제공과 잘못된 학습데이터 이용 등의 이유로 잘못되거나 편향된 정보를 제공할 수 있지만 검증이 이뤄지지 않는다. 페이스북을 운영하는 메타가 챗GPT보다 2주 앞서 야심차게 공개했던, 과학 분야를 위한 언어 모델인 Galactica가 공개 3일만에 데모 페이지를 닫은 것도 사실 검증을 중요시하는 학계에서 봤을 때 부정확하거나 왜곡된 정보를 제공한다는 비판 때문이다. 또한 제공하는 정보에 대한 참조(reference)를 제공하지 않는 것도 문제로 지적된다.

정보의 실시간성도 떨어진다. 챗GPT는 2021년까지의 데이터로 학습돼 현재 우리나라 대통령이 누군지에 대해 잘못된 정보를 제공한다. 실시간으로 쌓이는 많은 데이터가 있는데, 배치 단위의 모델 학습을 하다 보니 시간차에 의해 부정확한 정보를 제공하는 한계가 있는 것이다.

또한, 학습에 활용하는 많은 데이터에 대한 저작권 및 프라이버시 문제가 있다. 저작권이나 프라이버시가 보장돼야 할 많은 웹상의 데이터를 그대로 가져와 학습에 활용한다면, 작성된 문장은 저작권 문제에 얽혀들 소지가 있다. 공개된 저널의 논문을 이용해 학습된 정보를 제공하더라도 논문의 저작권을 저널 출판사가 보유한 경우도 이에 해당한다. 오픈 사이언스 활동을 통한 저작권 공동 활용 등의 노력이 필요한 이유이다.

개발비용도 문제다. 챗GPT의 전신인 GPT3의 경우 1회 학습비용은 약 1200만 달러로 추정된다. 현재는 하드웨어 기술의 발달로 비용이 더 낮아졌을 지라도 대규모 AI 모델을 학습시키는 장비를 갖추고, 1회 학습비용으로 최소 수십억 원을 지불할 수 있는 곳은 많지 않다.

당장 우리나라만 보더라도 현재까지 몇 개 대기업만 대규모 언어 모델을 공개할 수 있었던 이유이다. 이윤을 목적으로 하는 기업이 큰 비용을 들여 개발한 AI 모델을 무상으로 공개하지는 않을 것이다. 이미 오픈AI는 GPT3 API 활용을 유상으로 전환한 바 있다. 공적 기관이 챗GPT 같은 모델을 개발해 대중에게 무료로 공개할 이유다.

디지털타임스

IT

연설문 등 문서작성 전문가 뺨 치지만 사실 여부·실시간 업데이트에는 한계