빌 게이츠도 감탄한 최예진 교수 “생성형 AI 학습 데이터 공개해야”

최예진 워싱턴대 교수 인터뷰
“소수 빅테크 기업이 물자·기술 지배
대규모 투자 어려운 국가·기업들
의존할 수밖에 없어 위태로워”

지난 1월29일 자신의 연구실에서 한겨레와 만난 최예진 교수는 소수의 빅테크 기업이 주도하는 현재의 생성형 인공지능 산업 발전 모습에 큰 우려를 표시했다. 임지선 기자

“최예진보다 인공지능을 더 잘 설명하는 사람은 거의 없다.”

빌 게이츠 마이크로소프트(MS) 창업자는 지난해 11월 최예진 워싱턴대 교수와 대담을 나눈 뒤 자신의 유튜브 계정에 영상을 올리며 이렇게 말했다. 대담에서 빌 게이츠는 최 교수에게 “내부를 들여다볼 수 없는 현재의 인공지능은 ‘블랙박스’와 같아 걱정”이라고 말했고, 최 교수는 “지금의 거대언어모델(LLM) 학습 방식으로 불투명하고 믿을 수 없을 정도로 권력이 집중되고 있다”고 지적했다.

지난 1월29일 연구실에서 한겨레와 만난 최 교수는 소수의 빅테크 기업이 주도하는 현재의 생성형 인공지능 산업에 큰 우려를 표시했다. 미국 시애틀에 있는 워싱턴대의 컴퓨터과학 교수이자 지난해 타임지가 선정한 ‘인공지능 100대 인물’ 중 유일한 한국인인 그는 자연어 처리 분야의 전문가이자 ‘놀랍도록 똑똑하고 충격적이게 어리석은’ 생성형 인공지능에 대한 위험성을 경고해온 학자이기도 하다.

그는 우선 생성형 인공지능 열풍을 몰고 온 오픈에이아이(OpenAI) 챗지피티(ChatGPT)와 같은 거대 모델이 무차별적으로 학습한 ‘블랙박스’에 무엇이 들어 있는지 공개해야 한다고 지적했다. 그는 “학습한 데이터가 크면 클수록 좋다는 광기 속에 모두가 돈으로 더 많은 데이터를 사고, 그래픽카드(GPU)를 더 많이 사서 최대한 성능을 끌어올리는 것에 집중하고 있다”며 “여기에 전세계가 매달린다는 것은 매우 건강하지 못하다”고 말했다.

그는 “수십만개의 그래픽카드로 학습한 ‘거인’을 만드는 데는 수십억달러 규모의 자본이 들어가고, 이렇게 투자하기 어려운 기업과 국가들은 궁극적으로 오픈에이아이가 만든 챗지피티에 의존할 수밖에 없다”며 “데이터도 공개되지 않은 블랙박스에 의존한다는 것은 국가적인 차원에서도 문제”라고 말했다. 그는 이어 “그런데도 모든 사람들이 너무나 오픈에이아이에 열광하다 보니 다른 대안을 찾는 일은 시도조차 하지 않고 있다”며 “미국 안에서도 소수 기업이 이렇게 물자와 기술을 지배하는 것이 안전하지 않은데, 전세계로 보면 더욱 그렇다”고 지적했다.

현재의 인공지능 모델이 놀랍도록 똑똑하고 충격적일 정도로 어리석다는 평가를 받는 데 대해, 최 교수는 ‘생성형 인공지능의 역설’이라고 표현했다. “인간은 소설을 쓰고 위대한 그림을 그리는 것을 더 어려워하고 이를 감상하거나 이해하는 것은 누구나 할 수 있는 반면, 생성형 인공지능은 이해하는 것을 어려워하고 소설이나 그림을 생성하는 것은 쉬워한다”며 “인공지능에 인간의 상식을 불어넣는 일은, 그동안 많은 발전이 있었음에도 불구하고 매우 어렵다”고 말했다.

지난해 11월 빌 게이츠 마이크로소프트 창업자가 자신의 유튜브 계정에 올린 최예진 워싱턴대 교수와의 대담 이미지.

빌 게이츠는 그와 한 대담에서 “처음 지피티3(2020년 오픈에이아이가 내놓았던 인공지능 모델)을 봤을 때는 재밌는 장난감 정도로 생각했는데, 이제는 상황이 너무 빨리 진행돼 에이지아이(AGI·범용 인공지능)가 인간보다 더 낫다는 판단 아래 인공지능을 오용하게 되면 어쩌나 불안하다”고 말했다. 이에 최 교수 역시 “갑자기 에이지아이 시대가 도래하고, 우리가 인공지능보다 못하다면 우리는 늘 휴가를 갈까?”라고 물으며 “인공지능이 우리의 생활에 너무 많은 영향을 미칠까 봐 걱정되며, 이를 통제할 수 있는 기술과 정책을 개발하지 않는다면 매우 잘못된 상황이 벌어질 수 있다”고 경고했다.

그는 한겨레와 한 인터뷰에서 생성형 인공지능의 예상 밖 오작동을 자동차의 급발진에 비교하며 우려했다. 그는 “마치 자동차의 급발진처럼 뜻하지 않은 상식 밖의 실수와 오작동을 여기저기서 하는 생성형 인공지능에 대해 아직 인간이 모두 이해하지 못하고 있는 상태”라며 “이대로 범용 인공지능 시대가 도래해 인간보다 인공지능이 우월하다는 믿음 아래 모든 사람의 생활 속에 깊숙하게 응용하게 된다면 사고의 파장이 더 클 수밖에 없어 걱정”이라고 말했다.

그는 현재 초거대 데이터를 학습하는 방식의 생성형 인공지능이 아닌, 특화된 데이터나 고품질 데이터만을 학습해 ‘상식’의 영역 안에서 움직일 수 있는 인공지능을 연구하고 있다. 또 빅테크의 초거대 인공지능 모델 데이터가 블랙박스 상태로 누구도 모르게 발전하고 있는 것에 학계에서 누구보다 큰 목소리로 문제 제기를 하며 데이터 현황을 개방해야 한다는 분위기를 만들고 있다. 이렇게 블랙박스 문제를 지적하는 최 교수조차 “할리우드 창작자들이 제기하는 권리 침해 문제는 저작권법으로도 풀 수 없는 굉장히 어려운 과제로, 해법을 찾기 어려운 상태”라고 말했다.

그는 “역사적으로 획기적인 발전이 있을 때 제일 처음 개발된 것이 가장 최적인 경우는 거의 없었다”며 “현재의 생성형 인공지능이 거대한 데이터를 기반으로 하는 것이 해답은 아닐 것이며, 이를 베끼기에 혈안이 될 것이 아니라 대안을 찾고 통제를 위한 기술과 정책을 개발해야 한다”고 말했다. 그 대안을 찾아야 하는 과제가 2024년 인류의 앞에 있다.

시애틀/글·사진 임지선 기자 sun21@hani.co.kr

경제

빌 게이츠도 감탄한 최예진 교수 “생성형 AI 학습 데이터 공개해야”