LG, 이미지 이해하고 설명하는 AI 키운다

AI연구원 4월말까지 'AI 챌린지'
기존에 학습한 데이터 기반
처음 본 이미지도 글로 표현
검색·의학 영상 분석등에 활용
6월 최고권위 학회서 워크숍도

LG가 이미지를 이해하고 글로 설명하는 인공지능(AI) 기술을 키운다. LG는 최근 대화형 챗봇 '챗GPT'가 화제의 중심에 섰듯이 AI가 이미지를 이해하고 설명하는 '이미지 캡셔닝' 기술이 이미지 검색 분야를 획기적으로 바꿀 것으로 예상한다.

LG AI연구원은 2월 1일부터 4월 말까지 전 세계 AI 연구자를 대상으로'LG 글로벌 AI 챌린지'를 진행한다고 31일 밝혔다. 서울대 AI대학원과 이미지 캡셔닝 AI 상용화 서비스를 준비하는 셔터스톡과 함께 이번 대회를 주관한다. 대회 주제는 '제로샷 이미지 캡셔닝'이다. AI가 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지를 평가하는 것이다.

제로샷 이미지 캡셔닝은 AI가 처음 본 사물이나 동물, 풍경 등 다양한 이미지를 기존에 학습한 데이터를 기반으로 스스로 이해하고 유추한 결과를 글로 표현하는 기술이다.

예를 들어 토끼를 처음 본 사람이 토끼와 고양이가 함께 있는 장면을 보고 동물 생김새의 공통점과 차이점을 학습해 '토끼는 고양이처럼 털은 있지만, 고양이와 달리 귀는 길고 뒷다리가 발달했다'고 설명하는 것과 비슷하다.

제로샷 이미지 캡셔닝 기술이 발달하면 이미지를 인식하는 AI 기술의 정확성과 공정성이 향상된다. 예컨대 AI가 자동으로 온라인에 올라오는 방대한 분량의 이미지 데이터를 분석해 자동으로 캡션과 키워드를 만들 수 있다. 온라인 검색이 편리해지고 검색 정확도가 올라가는 것이다. 의학 전문 데이터를 학습한 AI는 의학 영상도 분석할 수 있다.

세계 최대 규모의 이미지를 보유한 플랫폼 기업 셔터스톡이 AI 윤리 검증을 끝낸 '이미지·글 데이터셋' 2만6000개를 대회 참여자에게 무료로 제공한다. 이미지와 함께 이미지에 대한 설명이 묶여 있는 데이터다. 데이터셋엔 사진뿐 아니라 삽화, 그래픽 등 다양한 형태의 이미지가 담겨 있다. 참가자들은 셔터스톡의 데이터셋을 활용해 저작권과 비용 등에 대한 고민 없이 AI 모델 최적화와 성능 평가를 진행할 수 있다.

LG는 챗GPT처럼 AI가 알아서 이미지를 이해·설명하고, 해시태그를 달 수 있는 이미지 캡셔닝 기술이 이미지 검색 분야를 바꿔놓을 수 있다고 보고 있다. LG 관계자는 "제로샷 이미지 캡셔닝이 이미지를 텍스트로 표현하고 텍스트를 이미지로 시각화하는 초거대 멀티모달 AI인 '엑사원' 기술 개발 생태계에 크게 기여할 것으로 기대한다"고 말했다. AI연구원은 또 오는 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 세계 최고 권위 학회인 'CVPR 2023'에서 '제로샷 이미지 캡셔닝 평가의 새로운 개척자들'이란 주제로 워크숍을 진행한다. 이경무 서울대 AI대학원 석좌교수는 "이미지 캡셔닝은 AI가 인간 지능에 얼마나 가까워졌는지를 보여주는 하나의 척도"라며 "이번 챌린지와 워크숍은 우리나라 AI 역량이 이미 세계적인 수준에 도달했다는 것을 의미한다"고 말했다.

[이새하 기자]

매일경제

IT

LG, 이미지 이해하고 설명하는 AI 키운다