[유레카] 인간이 평가할 수 없는 제품

지난 12일 열린 제3회 사람과디지털포럼의 하이라이트는 오후 맨 마지막 순서인 토론 무대였다. 기조연설자였던 테드 창 작가, 최예진 미국 워싱턴대 교수, 게리 마커스 미국 뉴욕대 교수, 아베바 비르하네 아일랜드 트리니티칼리지 교수 모두 자신의 순서가 끝나고도 한참 동안 ‘서로 간의 토론’을 기다렸다. 이 토론이 연설 수락의 조건이었던 이도 있었다. ‘인공지능과 인간의 가치’에 대한 토로가 이어져 흥미진진했다.

사회를 맡은 전치형 카이스트 교수가 질문을 던졌다. “인공지능이 확률적 앵무새든 아니든, 우리 중 많은 사람들이 업무에 인공지능 서비스를 이용하게 될 텐데 인간이 인공지능의 품질을 판단하고 평가하는 기준은 무엇이어야 할까?”

연사들이 공통적으로 던진 메시지는 ‘현재 평가 기준이 없고 앞으로는 더 세우기 어려울 것’이란 이야기였다. 테드 창 작가는 ‘생수’를 예로 들었다. “사람들이 슈퍼마켓에서 생수를 산다는 개념은 업계가 도입한 것이다. 많은 업계가 소비자가 원하는 것이 아니라 업계가 중점을 둔 것을 중심으로 소비를 진작시킨다. 기술의 발전 방향도 소비자 기준이 아닌 테크 기업들이 원하는 방향으로 주도되고 있다. 개인 시민으로서 내가 인공지능을 평가하는 품질 기준을 만들어 많은 사람들을 설득시켰다 하더라도 큰 변화를 일으킬 수 없다.”

아베바 비르하네 교수가 동조했다. “정확한 평가다. 빅테크 기업들은 생성형 인공지능을 시장에 출시하고 이것이 정상적인 규범이 될 때까지 우리에게 계속 압박(푸시)을 한다. 인공지능을 인간의 능력과 비교해 벤치마크(성능 점수)를 이야기하는 것도 굉장히 신중해야 한다.” 게리 마커스 교수는 ‘인공지능이 사람을 얼마나 속일 수 있느냐’를 기준으로 평가해야 하지만 인공지능 모델이 어떤 데이터를 학습했는지 알 수 없어 기준 수립이 어렵다고 봤다.

최예진 교수는 더 어두운 전망을 제시했다. “앞으로 평가 기준 마련이 더 어려워질 거다. 챗지피티(GhatGPT)와 같은 거대언어모델의 실수에 대해 지적해도 과학자들과 사회는 이미 ‘문제가 안 된다’고 결론을 내린 듯하다. 다음번 모델이 출시되면 더 인상적인 수준이 돼 평가 기준을 이야기하기가 더 어려워질 것이다. 사람들은 이미 이 도구를 너무 많이 믿고 있다.”

‘평가할 수 없는 물건’ 앞에 우리가 서 있다.

임지선 빅테크팀 기자 sun21@hani.co.kr

한겨레

사설칼럼

[유레카] 인간이 평가할 수 없는 제품