AI도 두살 아기처럼 보고 듣는 경험으로 언어를 배울수 있다

황규락 기자 2024. 2. 8. 03:04
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

美서 ‘제한된 데이터’로 학습
미국 뉴욕대(NYU) 연구진이 어린 아기에게 카메라를 붙여 수집한 데이터로 인공지능(AI) 모델을 만들었다. 기사 내용과 무관한 사진./픽사베이

인공지능(AI)도 인간처럼 일상에서 보고 듣는 경험을 통해 언어를 학습할 수 있다는 연구 결과가 나왔다. AI에 언어 학습을 위한 대규모 데이터를 주지 않아도 제한된 데이터로 더 효율적으로 언어를 배울 길이 있다는 것이다.

미 뉴욕대 연구팀은 AI도 인간처럼 제한된 데이터로 언어를 학습할 수 있다고 국제 학술지 ‘사이언스’에 최근 밝혔다. 사람은 대개 두 살 때까지 약 300단어를 배우며, 세 살이 넘어가면 자연스럽게 의사소통이 가능해진다. 반면 GPT-4와 같은 거대 언어 모델(LLM)이 특정 언어를 배우기 위해서는 수백만개에서 많게는 조 단위의 단어가 포함된 데이터로 훈련받아야 한다. AI의 학습이 인간 학습에 비해 비효율적인 것이다.

연구팀은 인간이 언어를 배울 때 보고 듣는 정보만으로도 AI가 언어를 학습할 수 있는지 분석했다. 이를 위해 호주에 사는 생후 6개월 아기 ‘샘’에게 헬멧 카메라를 달아 데이터를 수집했다. 촬영은 두 살이 될 때까지 이어졌다. 매주 이틀, 하루 한 시간씩 촬영해 총 61시간의 장면을 영상에 담았다. 이렇게 수집한 영상에는 약 25만 단어가 담겼다. 또 식사나 놀이 시간, 독서 등 샘의 시선으로 보는 시각 정보도 저장됐다.

연구팀은 이렇게 수집한 텍스트와 음성, 이미지 등 데이터를 AI에 학습시켰다. AI는 시각과 음성 정보를 각각 연관지을 수 있도록 ‘대조 학습’이라 불리는 방식으로 훈련됐다. 대화에서 등장한 단어들은 샘이 실제로 보고 있는 사물일 가능성이 크기 때문이다. 이후 연구팀은 학습된 AI에 4개 단어를 제시하고 이와 연관된 이미지를 찾도록 했다. 그 결과 AI는 62% 정확도로 단어와 이미지를 연결지을 수 있는 것으로 나타났다. 연구팀이 예상했던 것보다 2배 이상 높은 수준으로 언어를 배운 것이다. 이는 약 4억개 데이터를 학습한 AI와 비슷한 수준이었다. 연구팀은 아이처럼 배울 수 있는 AI가 대화의 의미를 이해하고 새로운 상황에 대응하면서 인간 지능에 더 가까이 다가갈 수 있을 것으로 기대한다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?