[C컷] AI 사진, 얼굴이 왜 이래?

조인원 기자 2024. 1. 20. 07:16
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

- AI 이미지의 명령어(prompt)는 상세히 쓰자
MS빙 이미지크리에이터로 생성한 '1950년대 서울 사람들'의 모습. 얼굴이 자세히 보면 뭉개져 있는데 사람들에 대한 상세한 묘사가 없으면 이런 엉터리 이미지가 생성된다/ 조인원기자

지난 회에 이어 AI 사진을 더 알아보자. 이번엔 기자가 직접 AI 사진을 만들어 보았다. 지난해 오픈AI의 Dall.E 3로 기존 사진을 갖고 이미지를 바꿔보았다면, 이번엔 명령어만으로 사진을 만들었다.

이번에 사용한 AI는 마이크로소프트의 ‘빙(bing) 이미지 크리에이터’와 ‘스테이블 디퓨전(Stable Diffusion)’, 어도비(Adobe)의 ‘Firefly’였다. 스테이블 디퓨전은 이미지 생성 시간이 오래 걸리고, 어도비 AI는 사진보다 그래픽 작업에 더 적합해서 주로 빙 크리에이터를 활용했다.

결론부터 말하자면 AI 이미지가 정교해지려면 아직 시간이 더 필요할 것 같다. 그림이나 그래픽은 대부분 완성도가 있게 나오지만, 실사 같은 사진은 어디서 본 듯한 모습이거나 얼굴이 뭉개진 모습이 많았다.

MS 빙으로 생성한 AI사진, 1950년대 파리, 겉으로 보면 문제가 없어 보이지만 얼굴을 확대하면 뭉개져 있다/ 조인원 기자

AI 사진 사람들 얼굴이 왜 이래?

명령어에 ‘1950년대 서울의 모습’을 반복해서 넣어봤다. 영어로 문장을 구성했다. 하지만 AI는 똑같은 프롬프트를 써도 5분후에 다시 요청하면 전혀 다른 이미지가 나온다. AI는 학습한 빅데이터에서 이미지가 무작위로 추출되기 때문에 항상 다르게 나온다. 문제는 AI가 사람만큼 추상적이거나 애매한 단어를 인식하지 못하는 것이다.

AI에게 “1950년대 서울 사람들에 대한 다큐멘터리 스타일의 사진”을 추출하라고 지정했다. 얼핏 보면 제대로 된 것처럼 보이는 사진들이 확대해보면 얼굴이 모두 뭉개져 있었다.

MS 빙으로 생성한 AI사진, 1950년대 도쿄 사람들, 뒤에선 사람들을 자세히 보면 얼굴이 뭉개져 있다/ 조인원 기자

여러 번 반복해서 다시 해봤다. 같은 문장에 서울 대신 뉴욕, 파리, 도쿄, 베이징, 베를린 등으로도 각각 바꿔 봤다. 1950년대의 사례가 되는 사진들이 해외가 서울 보다 많으리라 예상했다. 결과는 도시마다 상징하는 랜드마크들을 배경으로 비교적 클로즈업된 얼굴은 그럴듯했지만 군중들이 보일수록 얼굴이 모두 뭉개져 있었다. 뭐가 문제였을까?

딥러닝 분야를 연구하는 KT 박성준 팀장은 기자의 명령어중 ‘사람들(people)’이라는 추상적이고 애매한 단어를 인공지능은 정확하게 인식하지 못하기 때문에 분명한 결과물을 내지 못할 수 있다고 했다.

MS 빙으로 생성한 AI사진, 1950년대 서울/ 조인원 기자

얼마나 디테일하게 묻느냐가 관건

한 전문가는 AI의 이미지를 생성을 다음과 같이 비유했다. 사람이 뭉쳐진 찰흙 덩어리로 대충 빚으면 원형의 모습만 나오지만 눈, 코, 입을 분명히 설정해놓고 제작하면 사람 얼굴에 가까운 형태가 만들어지는 원리와 같다. 챗GPT의 경우 질문을 반복해가면서 앞의 답변을 근거로 계속 상세한 데이터를 얻을 수 있다.

반면에 AI 이미지 생성은 단 한 번의 명령어에 결과가 나오기 때문에 결국 한번 지시하는 명령에 디테일을 얼마나 상세히 묘사하느냐가 관건이다.

MS 빙 이미지 크리에이터로 생성한 사진. 보다 상세한 설명을 통해 비교적 사진에 가깝게 뽑아낸 이미지, '서울 도심에 사는 의지의 중년 남녀 한국인' 모습을 불러냈더니 노년의 모습이 나타났다/ 조인원 기자

가령 1950년대의 서울이라면 50년대 초반인가 후반인가 아니면 정확한 연도와 시간 제시가 필요하다. 또 서울이라는 대도시에서도 종로나 광화문인지에 따라 혹은 뚝섬이나 개발도 안된 한강변이나 강남인지도 전혀 다른 분위기로 나올 수 있다. 사람의 경우도 남자인지 여잔지, 나이는 대략 어떤지, 사람들이라는 애매한 복수에 정확한 수와 사람들 얼굴의 세부묘사가 없으면 인식이 안 될 수 있다.

그래서 다시 설정을 “서울 도심에서 의지가 강한 중년의 한국인 남녀들(남자 7, 여자 5)을 35미리 다큐멘터리 흑백필름 사진 스타일로 촬영한 것”이라고 명령어를 넣어 보았더니 이전보다 사진에 가까운 이미지가 나왔다.

MS 빙 이미지 크리에이터로 생성한 사진. 보다 상세한 설명을 통해 비교적 사진에 가깝게 뽑아낸 이미지, 패셔너블한 파리의 중년 남녀 모습을 불러냈다/ 조인원 기자

결국 AI가 만드는 이미지는 학습을 더 할수록 정교해지고 사용자들이 더 쉽게 사용하도록 바뀔 것이다. 그러나 사용자가 어떻게 지시하는지에 따라 세부적이고 구체적인 명령에 따라 방대한 데이터에서 이미지를 만들 것이다. AI가 화두지만 결국 이를 활용하는 사람은 더 정교하고 숙련된 명령어 묘사의 기술이 필요한 것이다.

MS 빙으로 생성한 AI 그림, 1950년대 한국인을 마블 코믹스 스타일로 그려보라 했더니 나온 그림/ 조인원 기자
MS 빙으로 생성한 AI 그림, 1950년대 서울을 고흐 스타일로 만들어달라고 했더니 나온 그림/ 조인원 기자

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?