인간은 언어를 어떻게 배울까…AI에 아기처럼 말 가르쳤더니

헤드캠 카메라를 쓰고 있는 호주 아기 샘(가명). 사진=뉴욕대학교 AI 연구원 와이 킨 봉/네이처 캡처

AI에 학습에 사용된 아기 시선의 데이터. 사진=파퓰러 사이언스/뉴욕대학교 연구팀

6개월 난 어린 아기의 눈과 귀를 통해 들어오는 정보만으로 학습된 인공지능(AI) 모델이 나왔다. 이를 통해 인간 언어 학습의 비밀이 풀릴 지 기대감이 쏠린다.

브랜던 레이크 교수가 이끄는 미국 뉴욕대학교 연구팀은 호주에 사는 아기 '샘'(가명)의 머리에 카메라를 부착하고 약 1년 반 동안 수집한 영상 및 음성 데이터로 학습시킨 AI 시스템을 개발해 1일(현지시간) 국제학술지 '사이언스'에 발표했다.

인간은 두 살 때까지 약 300단어를 배우고, 3살이 넘어가면 자연스러운 의사소통이 가능해진다. 반면 GPT-4와 같은 거대 언어 모델(LLM)이 특정 언어를 배우기 위해서는 수백만개 이상의 대량의 데이터를 쏟아부어야 훈련이 가능하다. 300개 내외 단어로 학습이 가능한 인간에 비해 비효율적인 것이다.

이에 뉴욕대 연구팀은 사람의 아기가 실제 접하는 데이터를 통해 AI를 개발해 제한된 데이터로 효율적이게 언어를 학습할 방법을 모색하기로 했다.

연구팀은 샘이 생후 6개월 때부터 2살 생일때까지 헤드캠을 달고 매주 2차례 1시간씩(깨어 있는 시간의 1%에 해당) 영상과 음성 데이터 총 61시간 분량을 수집했다.

연구원들은 샘이 평소 말하고, 듣고, 보는 단어와 사물을 바탕으로 AI 신경망을 학습시켰다. 샘은 놀고, 읽고, 먹는 등 활동에서 총 25만개 이상의 단어와 이미지 데이터에 노출됐다.

연구팀은 이렇게 수집한 정보를 대조학습 기술을 활용해 AI 모델에 학습시켰다. 아기가 접하는 시각과 음성 정보를 연관시키는 방식이다. 대화에서 등장한 단어들이 실제 아기가 보거나 접하고 있는 사물과 관련 있을 가능성이 높기 때문이다.

해당 방식으로 학습시킨 AI에게 4개 단어를 제시하고 이와 연관된 이미지를 찾도록 한 결과, AI는 62%의 정확도로 단어와 이미지를 연결 지을 수 있었다. 연구팀이 예상한 25%의 정확도를 훨씬 뛰어넘는 결과다.

연구를 이끈 캘리포니아 대학교의 인지과학자 헤더 보르트펠드는 “언어 학습 과정이 이처럼 '특별한' 매커니즘이 필요하지 않음을 보여주는 가장 강력한 사례 중 하나”라고 말했다.

또한 실제 언어 학습이 AI가 경험한 것보다 훨씬 풍부하고 다양하다며, 실제 아기의 삶에서 상호 작용을 경험할 수 없기 때문에 학습에 한계가 있다고 봤다. 예를 들어 유아기 초기에 학습되는 '손'이라는 단어를, AI는 배우기 어려워했다는 것이다.

전자신문인터넷 서희원 기자 shw@etnews.com