무르익은 나노바나나 …'디테일 완벽' AI이미지 한번에 4장씩 척척

최근 출시된 구글 '나노바나나2' 직접 써보니
이미지 생성속도 2~3배 빨라
원본 이미지 수정 요청할땐
포즈만 자유롭게 변형 가능
눈코입·옷주름 등 왜곡없어
수십명 캐릭터 있어도 거뜬
한글·영어 깨지는 현상 없어

생성형 인공지능(AI)을 활용한 이미지 제작이 광고·마케팅·콘텐츠 산업 전반으로 빠르게 확산하고 있지만 실제 활용 과정에서는 여전히 불편함을 호소하는 사용자도 적지 않다. 이미지를 한 번 생성하는 데 시간이 오래 걸리고, 원하는 결과가 나오지 않을 경우 다시 프롬프트를 입력해 작업을 반복해야 하기 때문이다. 특히 여러 캐릭터나 복잡한 장면을 구현할 경우 이런 한계는 더욱 두드러진다.

구글은 지난달 26일(현지시간) 이러한 문제를 대폭 보완한 차세대 이미지 생성 모델 '나노바나나2'를 공개하며 또 한 번의 기술 진화를 이뤄냈다. 지난해 8월 처음 공개된 1세대 나노바나나는 10월 중순까지 50억건 이상의 이미지를 생성하며 폭발적인 흥행 기록을 세운 바 있다. 이어 11월 '나노바나나 프로'를 선보였고, 불과 3개월 만에 발전된 성능을 더 저렴하게 이용할 수 있는 후속 모델을 내놓았다.

기자가 직접 체험해본 나노바나나2의 가장 큰 차별점은 '빠른 동시 생성' 능력과 '원본 이미지 충실도'다. 구글은 AI 툴 '플로(Flow)'를 이용해 이미지를 만들 경우 최대 4장을 동시에 생성할 수 있도록 했다. 4장을 동시에 생성함에도 나노바나나2는 제미나이 3.1 플래시 경량 모델을 기반으로 구동돼 기존 프로 모델 대비 체감상 2~3배가량 빨라진 느낌이었다. 심지어는 4장을 생성하면서 동시에 또 다른 4장을 요청하는 것도 가능하다.

또한 나노바나나2는 업로드한 이미지의 핵심 요소를 거의 완벽하게 유지한 채 재치 있게 응용된 결과물을 만들어내는 데 매우 탁월하다. 구글은 나노바나나2를 출시하며 "단일 워크플로에서 최대 5명의 캐릭터 유사성과 최대 14개 사물의 사실성을 유지하면서 입력 요소의 형태를 훼손하지 않고 스토리보드와 내러티브를 구성할 수 있다"고 강조했다. 실제 사용해본 결과 5명을 넘어 10명에 달하는 복잡한 캐릭터를 동시에 활용해도 구현 완성도가 흔들리지 않았다.

나노바나나2는 원본 이미지의 이목구비는 물론 옷의 주름, 액세서리 등 세부 요소를 그대로 유지한 채 포즈만 자유롭게 변형했다. 여러 캐릭터를 한 화면에 배치해도 디테일이 무너지지 않았다. 마치 전문가가 오랜 시간 고민해 완성한 작품처럼 원본 사물을 위트 있게 응용한 결과물이 단 한순간에 완성됐다. 색감과 질감, 조명 표현도 이전 모델보다 한층 더 예술적으로 진화된 모습이었다.

텍스트 렌더링 능력도 대폭 개선됐다. 1세대 모델에서는 업로드한 이미지 속 간판이나 포스터의 글씨가 깨지거나 뭉개지는 현상이 빈번했다. 그러나 새 모델에 잡지·만화 등 고난도 이미지를 넣고 "내가 준 이미지의 영문 글씨를 한글로 바꿔 달라"고 입력하자 기존 디자인과 글씨체를 유지한 채 선명한 한글 텍스트가 그대로 출력됐다. 일본어·중국어·아랍어 등 다양한 언어 변환도 안정적으로 구현됐다.

더 주목할 부분은 '세계 이해 능력'이다. 구글은 "이 모델은 실제 세계 지식 기반을 활용하고, 웹 검색에서 얻은 실시간 정보와 이미지를 반영해 특정 주제를 보다 정확하게 표현한다"고 설명했다. 예를 들어 "뉴턴의 운동법칙을 설명해줘"라는 한 줄 명령어만 입력하면 모델은 실시간 웹 검색과 추론을 병행해 이해하기 쉬운 인포그래픽을 즉시 생성한다. 검색·추론·이미지 생성이 동시에 이뤄지는 구조다. 구글은 또한 사용자가 모델의 사고 깊이를 직접 조절할 수 있도록 해 복잡한 작업의 경우 더 많은 추론 과정을 거치도록 설정할 수 있는 기능도 도입했다.

이미지 생성의 유연성도 확대됐다. 반복 작업에 적합한 512픽셀 저해상도는 물론 4K 초고해상도 출력도 지원한다. 또한 다양한 화면 비율 조정이 가능해 창작 자유도가 크게 높아졌다.

다만 나노바나나의 성능을 극대화하려면 사용자의 구체적인 프롬프트 설계가 중요하다. 구글은 출시와 함께 프롬프트 가이드라인도 공개했다. '스타일' '피사체' '배경' '행동' '구도' 등 5가지 요소를 명확히 포함할 때 최상의 결과를 얻을 수 있다는 설명이다. 텍스트 삽입 시에는 따옴표로 묶으면 정확도가 더욱 높아진다.

업계에서는 이번 출시를 최근 급부상한 중국 모델에 대한 대응 카드로 해석한다. 바이트댄스가 최근 공개한 이미지 생성 모델 '시드림 5.0', 영상 모델 '시댄스 2.0' 등은 저렴한 가격과 획기적인 성능으로 '쇼크'를 일으키며 구글을 위협했다. 이에 구글은 빠른 주기로 새 모델을 내놓으며 또 한번 최강자임을 입증한 것이다. 업계 관계자는 "구글은 짧은 주기로 고도화된 모델을 연속 출시하며 기술 격차를 벌리고자 한다"며 "이 같은 속도라면 글로벌 생성형 AI 시장에서 주도권을 공고히 하게 될 것"이라고 말했다.

[안선제 기자]

매일경제

IT/과학

무르익은 나노바나나 …'디테일 완벽' AI이미지 한번에 4장씩 척척