'글자가 어떻게 그림이 되지?'…경북대, 이미지 생성 AI 메커니즘 규명

(대구=뉴스1) 남승렬 기자 = 정희철 경북대 대학원 인공지능학과 교수팀이 인공지능(AI) 이미지 생성 모델 내에서 텍스트가 시각 정보로 변환되는 메커니즘을 규명했다고 27일 대학 측이 밝혔다.

경북대에 따르면 이 연구의 핵심은 이미지 생성 AI의 핵심 구조인 '교차 주의집중'(cross-attention) 내부 회로를 스펙트럼 성분 단위로 나눠 분석해 텍스트 의미가 이미지 개념으로 전달되는 내부 경로를 밝혀낸 데 있다.

'스테이블 디퓨전'(Stable Diffusion) 같은 텍스트-이미지 생성 모델은 교차 주의집중을 통해 텍스트 정보를 시각적 특징으로 변환하지만, 내부 작동 방식은 그동안 명확히 설명되지 않았다.

정 교수팀은 교차 주의집중을 '어디에 주목할지'를 결정하는 QK회로와 '무엇을 생성할지'를 결정하는 OV회로로 구분해 분석했다.

특히 이번 연구에선 AI 내부에서 하나의 처리 단위가 여러 개념을 동시에 담당하는 특성을 고려해 전체 구조가 아닌 내부의 '스펙트럼 성분' 단위로 분석 범위를 넓혔다.

그 결과, '반 고흐 화풍' '네온 조명' '누드' 같은 개념이 모델 전체에 흩어져 있는 것이 아니라, 특정 10~20%의 스펙트럼 성분에 집중적으로 인코딩돼 있음을 확인했다는 게 연구팀의 설명이다. 이는 특정 개념을 담당하는 '전용 경로'가 존재한다는 의미다.

정 교수팀은 이 원리를 활용해 '스펙트럼 무효화'(Spectral Nullification)라는 개념 제어 기법을 제안했다. 이 기법은 모델을 다시 학습하지 않고도 특정 개념과 관련된 스펙트럼 성분만 선택적으로 제거해 부적절한 콘텐츠 생성을 차단할 수 있다.

정 교수는 "기존 연구들이 '어디에' 개념이 나타나는지를 분석했다면 이 연구는 '어떻게' 텍스트가 시각 정보로 변환되는지 내부 메커니즘을 수학적으로 규명한 시도"라며 "신뢰할 수 있는 생성형 AI 개발의 중요한 기반이 될 것"이라고 말했다.

이번 연구 결과는 지난 20~26일 싱가포르에서 열린 인공지능 분야 국제학술대회 'AAAI 2026'에서 발표됐다.

pdnamsy@news1.kr

사회