[데이터링] 구글까지 넘보는 '챗GPT'…문제는 없나

박진영 2022. 12. 22. 16:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

구글 챗GPT에 '코드레드' 발령…편향성·저작권 문제 가능성

[아이뉴스24 박진영 기자] 챗GPT가 구글까지 넘볼 수 있다는 관측이 나오면서 IT업계에서 관심이 높아지고 있다. 다만 AI가 만든 저작물이 사람이 만든 것과 구별하기 힘들정도로 정교해지면서 저작권이나 표절 이슈, AI의 편향성 등 여러 문제점이 지적되고 있다.

기사와 무관한 사진 [사진=Pixabay]

챗GPT는 AI연구소 오픈AI가 최근 출시한 대화형 인공지능 서비스다. 질문에 대한 단순 답변은 물론,에세이나 노래 가사 등 창작물도 몇 초 만에 완성할 뿐더러 수학문제를 풀고 코드까지 짜주는 등 한 단계 진일보한 대화형 AI다. 일주일 만에 100만 명 이상 이용자를 모으면서 대화형 AI챗봇에 대한 기대감이 커지고 있는 상황이다.

지난 21일(현지시간) 뉴욕타임스(NYT)는 구글이 최근 챗GPT에 대해 심각한 위기 경고를 뜻하는 '코드 레드(code red)'를 발령했다고 보도했다.

특히 구글 모회사 알파벳의 순다르 피차이 최고경영자(CEO)는 최근 AI 전략 회의에 여러차례 참석해 챗GPT가 검색 엔진 사업에 줄 수 있는 위협을 해결하는 데 집중할 것을 지시한 것으로 알려졌다. 또 새로운 AI제품 개발에 주력함은 물론 오픈AI가 개발한 그림을 그려주는 AI달리(DALL-E)와 유사한 생성 AI제품도 구축할 것을 요구했다.

인간과 상당한 수준의 대화가 가능한 챗GPT가 구글 검색 엔진의 미래에 대한 우려를 불러일으켰기 때문이라고 NYT는 분석했다. 챗GPT가 대화체로 구성돼 이용자가 원하는 정보를 손쉽게 제공하는데다 그 답변이 상당히 논리적이고 구체적이어서 구글의 검색 서비스를 위협할 수 있다는 설명이다.

챗GPT는 1천750억개 이상의 매개 변수를 가진 초거대 언어모델 GPT-3의 개선판인 GPT-3.5를 기반으로 만들어졌으며 지도 학습과 강화 학습을 모두 사용해 파인튜닝 과정을 거쳤다. 초거대 언어모델은 인간의 뇌에서 정보를 학습·기억하는 신경망을 모사한 '셀프 어텐션(Self-Attention)' 모델을 기반으로 학습하고 추론한다. 매개변수와 데이터 양이 많을수록 AI의 지능은 높아지는 구조다.

다만 챗GPT가 어느 영역에서는 사람보다 뛰어난 역량을 갖췄지만 불완전성도 높은 만큼 여러가지 문제점도 제기되고 있다. AI가 만들어낸 결과물이 팩트에 기반했다고 보기도 어렵다. AI가 사실과 허위를 구분하지 못하는 경우도 많고 사실이 아닌 내용을 만들어내기도 하기 때문이다.

챗GPT 실행화면에는 부정확한 정보를 생성할 수 있고, 해가되는 지시나 편견있는 내용을 제공할 수 있다고 설명하고 있다. 또한 2021년 이후 이벤트의 경우 제한적인 지식을 가지고 있다고 명시했다.

챗GPT(ChatGPT) 첫 실행화면 [사진=챗GPT 캡처]

지난 21일 열린 개인정보 미래포럼에서 하정우 네이버 AI연구소장은 "현재는 구글의 'PaLM'이 가장 뛰어나다고 볼 수 있는데 평균적으로 사람보다 언어적으로 뛰어나다. 초거대AI의 글쓰기 능력은 사람의 글쓰기와 구분하기 불가능한 상황"이라면서 "다만 AI글쓰기가 팩트를 보장하지는 않는다. 문법적으로 글을 잘쓴다는 의미"라고 지적한 바 있다.

AI 편향성 문제도 꾸준히 지적돼 온 문제다. AI인식영역은 많은 양의 데이터를 학습시킴으로써 편향성을 어느정도 개선할 수 있지만 생성영역은 편향성 문제를 해결하는데 한계가 있다는 게 전문가들의 의견이다.

아울러 작가의 작품들이 AI학습에 활용되면 AI가 만들어낸 저작물이 저작권 침해나 표절 문제를 일으킬 수 있다는 문제도 지적됐다. 더욱이 인터넷 상에서 유통되는 불법물 등 정제되지 않은 데이터가 AI학습에 활용될 수 있다는 위험성도 제기됐다.

하정우 소장은 "AI의 인식모델과 생성모델을 구분할 필요가 있는데 인식모델의 경우 데이터 상에 어떤 물체가 있는지 구분하는 수준이기에 지적재산권 있는 데이터도 학습과정에서 활용될 수 있도록 어느정도 허용된다"면서 "생성모델의 경우 데이터를 기반으로 완전히 새로운 것을 만들어내는 영역이기에 이러한 학습데이터를 그대로 가져오면 문제가 될 수밖에 없다. 품질이 다소 떨어지더라도 문제되는 데이터를 최대한 배제하는 방향이 맞다"고 말했다.

이어 "다만 AI기술 고도화를 위해서는 굉장히 많은 데이터가 필요하고 그들이 융합돼야 혁신이 가능하다"면서 "데이터 제공자들에게도 혜택이 돌아갈 수 있도록, 다양한 데이터를 활용할 수 있는 생태계를 구축하고 이를 통해 혁신적 가치를 만들어 내기 위한 충분한 논의가 필요하다"고 강조했다.

/박진영 기자(sunlight@inews24.com)

▶네이버 채널에서 '아이뉴스24'를 구독해주세요.

▶재밌는 아이뉴스TV 영상보기▶아이뉴스24 바로가기

[ⓒ 아이뉴스24 무단전재 및 재배포 금지]

Copyright © 아이뉴스24. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?