[인공지능의 두 얼굴] 챗GPT는 기자를 대체할 수 있을까

[인공지능의 두 얼굴 (03)] 이준환 서울대 교수
"뉴스 완전 자동화 어렵고 기사 작성 중간단계서 역할"
"AI 환각정보 양산, 유튜브와 비교할 수 없는 혼란 올 것"

[미디어오늘 금준경, 박서연 기자]

“지금 유튜브 콘텐츠들이 만들어내는 혼란과는 비교할 수 없을 정도로 큰 혼란이 올 것 같아요.” 로봇 저널리즘 연구자인 이준환 서울대 언론정보학과 교수의 말이다. 그는 생성형 인공지능이 사실과 다른 정보를 만드는 '환각현상'이 나타난 문서들이 양산되면 사람들에게 잘못된 정보가 사실처럼 굳어질 수 있다고 우려했다.

이준환 교수는 “뉴스를 완전히 자동화하는 건 어렵다고 본다. 여전히 검증해야 할 것이 많다”고 했다. 대신 그는 생성형 인공지능을 기사 작성 과정에서 활용해 기사 초안을 생성하고, 문장 구조를 점검하는 등 도움을 받을 수 있다고 전망했다. 여기에 인공지능 기술을 활용해 기사 내용을 인식해 자동으로 이미지를 추천하거나, 자동화 팩트체크 기술을 연동할 수 있다.

그는 “우리 언론은 2차산업인 것 같다. 좋은 콘텐츠만 생산하면 잘 팔릴 거라는 생각을 하고 있기 때문”이라며 “언론은 3차산업, 서비스업이어야 한다”고 강조했다. “사람들이 돈을 내게 하는 '그것'이 무엇인지 생각해야 한다. 시간을 절약해준다든가, 효능감을 준다거나 하는 것 말이다. 이 고민을 위해 인공지능 기술을 적극 활용해야 한다.” 이준환 교수를 지난달 31일 서울시 관악구에 위치한 서울대에서 만났다.

- 과거 로봇 저널리즘 연구로 주목 받았다. 로봇 저널리즘은 어떤 개념인가.
“알고리즘이 정보를 수집해 특정한 의미를 찾아내고, 그것에 바탕을 두고 텍스트 기반의 기사나 동영상 등 정보를 자동으로 생성하는 것을 말한다. 로봇 저널리즘은 초기에 많이 썼던 표현이다. 기사를 자동으로 생성하는 서비스를 만든 업체들이 이런 표현을 썼는데 이후에는 '오토매틱 저널리즘', '알고리즘 저널리즘'이라는 말을 더 많이 쓴다.”

- 2015년 전후로 로봇 저널리즘이 주목받았는데 당시엔 생성형 인공지능을 활용하지는 않았던 것 같다.
“요즘 생각을 많이 고치고 있다. 로봇 저널리즘을 얘기하기 시작했을 때부터 초기 수준의 생성형 인공지능을 활용하긴 했다. 그런데 당시엔 생성형 인공지능을 활용하기 굉장히 어렵다는 판단을 했다. 기사는 데이터를 기반으로 진실을 말해야 하는데, 생성형 인공지능은 문장을 생성하면서 확률적으로 높은 이야기를 한다. 내일 날씨 뉴스를 맡겼을 때 내일 날씨를 말하는 게 아니라 학습한 데이터 중에서 맑고 쾌청한 날이 많았다면 '맑고 쾌청하겠습니다'라는 식으로 작성해버린다. 그래서 당시엔 생성형 인공지능 활용보다는 탬플릿을 활용한 자동화된 기사에 초점을 맞췄다.”

“하지만 최근 생성형 인공지능은 많이 달라졌다. 초기에는 증시, 야구, 선거보도 등 특화된 뉴스만 만들 수 있었고 일반적인 뉴스를 생성할 수 있는 인공지능은 만들지 못했다. 현재 챗GPT로 제너럴한 기사를 만드는 게 어느 정도는 가능해졌다. 프롬프터 엔지니어링 단계에서 '날씨 기사'를 작성한다면 날씨 기사에 들어갈 데이터는 '온도' '풍속' '미세먼지' 등이 있다고 정의해주고, 이 데이터의 범주는 만일 30도가 넘으면 '무덥다'고 한다는 식으로 자세하게 써주게 되면 이후 데이터를 넣었을 때 이걸 바탕으로 기사를 만들 수 있다.”

- GPT와 같은 생성형 인공지능에게 뉴스 작성을 맡길 수 있을까.
“그럼에도 데이터에 관해 언급하거나, 문장 사이를 연결할 때 환각작용(hallucination, 생성형 인공지능은 확률적으로 그럴 듯한 답변을 하는 데 특화돼 있어 종종 사실과 다른 정보를 전달한다), 쉽게 말해 '헛소리'가 들어갈 가능성이 커 여전히 생성형 인공지능을 활용하기에는 위험 요소가 있다. 예컨대 학생의 논문 실적, 이수 강의 내역과 학점 등 정보를 입력한 뒤 챗GPT가 추천서를 써줄 수 있는지 살펴봤다. 추천서를 만들긴 하는데 중간에 엉뚱한 내용이 들어간다. 서울대 학생인데 '카이스트에서 들었던 수업'이라는 문장을 포함하는 식이다. 그래서 기자가 인공지능을 활용해 처음 드래프트(초안)를 만드는 정도로 활용한다면 몰라도 완전히 자동화하는 건 어렵다고 본다. 최종 결과물을 만들기에는 여전히 검증해야 할 것이 많다.”

- 인공지능이 언론에 긍정적인 역할을 할 수 있는 분야는 무엇이 있을까.
“굉장히 많을 것 같다. 우선 기자들의 트레이닝 단계에서 도움이 될 것 같다. 글쓰기 측면에서 챗GPT가 추천해주는 문장의 구조는 참고할 만한 점이 많다. 뉴스 제작의 중간 단계, CMS에 탑재된다면 생성형 인공지능이 기사의 아웃라인을 어느 정도 잡아줄 수 있다. 인공지능이 만든 초고를 보면서 미처 생각하지 못했던 점을 파악할 수 있다. 인공지능 기술을 활용해 기사를 쓰면 자동으로 내용을 인식해 이미지를 추천해주거나, 문법 체크를 해주거나, 기사에 들어간 내용이 사실인지 자동화된 팩트체크를 해줄수도 있다.”

- 생성형 인공지능 확산이 언론에 미칠 부정적인 영향은 무엇이 있을까.
“검증이 상당히 중요해진다. 인터넷 기반 언론사 중 일부는 검증 절차 없이 기사를 마구 생산해낸다. 생성형 인공지능은 이런 매체가 활용할 수 있는 좋은 어뷰징 도구가 될 수 있다. 그래서 사실 여부를 파악하지 않는 기사들이 남발돼 문서의 양이 많아지면 지금 유튜브 콘텐츠들이 만들어내는 혼란과는 비교할 수 없을 정도의 큰 혼란이 올 것 같다.”

-어떤 식의 허위정보가 늘어날까.
“앨런 튜링이라는 인물이 있다. 이 분은 동성애자로서 당시 압박을 견디지 못해 청산가리가 든 사과를 베어 물고 자살한 것으로 알려졌다. 그런데 챗GPT로 앨런 튜링에 대한 에세이를 요청해보면 대체로 맞는 표현들이 나오다가 '애완용 토끼에게 독이 든 사과를 먹이는 실험을 했다'는 사실과 다른 내용이 나온다. 이런 식으로 그럴 듯한 내용들 속에서 말도 안 되는 표현이 나온다. 원래의 이야기를 모른다면 이 내용을 사실로 받아들일 가능성이 높다. 만약 이런 내용의 문서가 다수 생성되면? 사실로 굳어질 수 있다.”

- 최근 도널드 트럼프 전 대통령이 체포되는 모습의 인공지능 생성 이미지가 논란이 됐다. 패러디 목적으로 만들었지만 속는 사람들이 많아 언론이 검증에 나서기도 했다.
“일반적으로 유통되는 가짜 정보들은 문제가 심각하지만 그래도 어느 정도 검증이 되는 측면이 있다. 도널드 트럼프 전 대통령 가짜 정보는 오히려 덜 위험하다. 지하에서 유통되는 정보들이 훨씬 위험하다. 최근 인터넷에서 특정 가수와 똑같은 사진을 인공지능이 만들어 주목 받았다. 이런 사진이 지하에서 특정한 의도를 가지고 유포된다면 훨씬 위험할 것 같다. 앞으로는 가짜 정보를 걸러내기 위한 노력을 엄청나게 해야 한다.”

▲ 인공지능 이미지 생성 서비스 미드저니로 만든 사진. 패러디 목적으로 만들었지만 도널드 트럼프 전 대통령이 체포된 것처럼 오인돼 논란이 됐다.

- 실시간 팩트체크의 필요성이 제기되면서 자동화 팩트체크가 화두가 됐다. 관련 연구를 한 경험이 있는데, 자동화 팩트체크는 어느 정도의 의미가 있을까.
“저널리스트와 컴퓨터 엔지니어들이 보는 팩트체킹에 차이가 있다. 저널리스트들은 주장 속 숨은 맥락을 파악하는 데 초점을 맞춘다. 컴퓨터 엔지니어들은 특정한 주장이 어떤 근거에 의해 뒷받침되느냐에, 그러니까 검색해서 이 정보가 나오는지 여부에 초점을 맞춘다. 우리 연구는 알고리즘을 활용해 대상을 검증하기 위해 증거를 찾고, 팩트인지 아닌지 분류해 확률을 제시하는 식이다. 예를 들어 '허준의 집필서로 본초강목, 동의보감이 있다'는 주장이 있다면 '거짓'일 확률이 높다고 판단한다. 위키피디아 자료 가운데 '본초강목'과 '동의보감' 문서를 자동으로 찾아보고 '본초강목' 문서에 명나라 연구서라는 표현이 등장하기 때문에 거짓이라고 보는 것이다.”

- 자동화 팩트체크는 상용화할 수 있을까.
“언론사나 SNU팩트체크 같은 기관에서 당장 쓰기는 어렵다. 하지만 GPT와 같은 생성형 인공지능이 뱉어내는 문장들의 진실성 여부를 파악하는 데 어느 정도는 활용할 수 있을 것 같다. 지금 우리가 만든 방식은 정확도가 60% 정도로 현장에 활용하기는 어렵다. 데이터를 공개해 이후 여러 연구가 이뤄지면서 점점 정확도가 높아지고 있다. 향후 80~90%까지 정확도가 올라가면 활용할 수 있을 것 같다. 위키피디아 정보를 토대로 하고 있는데, 위키피디아의 신뢰도가 떨어지는 편이라 더 많은 정보를 학습할 필요성이 있다. 하지만 저작권 문제가 있다.”

-생성형 인공지능 시대에 언론은 어떤 준비를 해야 할까.
“언론에서 디지털 트랜스포메이션 관련 질문을 주면 줄기차게 '우리 언론은 2차산업인 것 같다'고 답했다. 좋은 콘텐츠만 생산하면 잘 팔릴 거라는 생각을 하고 있기 때문이다. 언론은 3차산업, 서비스업이어야 한다고 생각한다. 사용자가 필요한 정보가 무엇인지, 니즈에 초점을 맞춰야 한다. 인공지능도 그 일부라고 생각한다. 사람들이 게임에 돈을 내는 이유는 뭘까? 돈을 내지 않으면 시간을 투여해야 한다. 결국 돈으로 시간을 사는 거다. 지갑을 여는 목표가 명확하다. 게임과 언론을 동일선상에 놓고 비교하기는 어렵겠지만, 사람들이 돈을 내게 하는 '그것'이 무엇인지 생각해야 한다. 시간을 절약해준다든가, 효능감을 준다거나 하는 것 말이다. 이 고민을 위해 인공지능 기을 적극 활용해야 한다.”

- 한국엔 소수의 대형 언론사와 다수의 중소형 언론사가 있다. 기술 활용이 필요하다는 주장이 나올 때마다 중소형 언론사들엔 남의 얘기처럼 들리기도 한다.
“기술은 점점 더 값이 싸진다. 챗GPT와 같은 기술도 한 때는 연구실에 몇억짜리 컴퓨터를 들여놔야 사용할 수 있었지만 지금은 몇 달러만 내면 활용할 수 있게 됐다. 이런 기회는 더 많아질 거다. 디지털 사회가 도래하면서 디지털 기술을 소유한 사람들과 그렇지 않은 사람들의 간극이 더 벌어진다는 얘기가 있는데, 그런 것 같지 않다. 기술이 점점 더 싸지고 쉬워진다. 과거 돈 많은 사람들만 소유할 수 있던 기술이 가난한 계층도 소유하는 게 가능해진다. 그런 현상이 인공지능 분야에도 나타나는 것 같다.”

- 과거 로봇 저널리즘 연구를 하며 언론과 협업을 했는데, 성과와 한계는.
“초기에 언론과 제휴를 맺고 증권 시황 기사를 썼다. 당시 언론사 입장에선 가장 먼저 인공지능 기사를 쓴다는 '마케팅 측면'에서 활용하려는 측면이 있었다. 초기 시도는 마케팅 측면이 부각돼 아쉬움이 있다. 이후 SBS와 두 차례 선거 때 협업을 했다. 속보성 기사를 자동으로 생성했다. 2017년 대선 때 선거 관련 자동화 기사를 선보였고 21대 국회의원 선거에선 챗봇 형태의 '나리봇'을 도입했다. '지금 관악구 어떻게 되고 있어'라고 물어보면 누가 우세이고, 당선확률은 어떤지 답변하는 식이다. 선거 보도 특성상 개표가 이뤄질수록 관심사가 좁아진다. 그래서 모든 정보를 전달하기보단 필요한 정보를 알려주는 방식을 채택했다. 처음엔 자동화된 정보를 만드는 데 초점을 맞췄다면 이후엔 정보를 소비하는 사용자 행동을 고려하는 방식으로 변화했다.”

[미디어오늘 바로가기][미디어오늘 페이스북]
미디어오늘을 지지·격려하는 [가장 확실한 방법]

이 기사에 대해 어떻게 생각하시나요?

미디어오늘에서 직접 확인하세요. 해당 언론사로 이동합니다.

경제

[인공지능의 두 얼굴] 챗GPT는 기자를 대체할 수 있을까