'글자가 어떻게 그림이 되지?'…경북대, 이미지 생성 AI 메커니즘 규명

남승렬 기자 2026. 1. 27. 08:57
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

정희철 경북대 대학원 인공지능학과 교수팀이 인공지능(AI) 이미지 생성 모델 내에서 텍스트가 시각 정보로 변환되는 메커니즘을 규명했다고 27일 대학 측이 밝혔다.

경북대에 따르면 이 연구의 핵심은 이미지 생성 AI의 핵심 구조인 '교차 주의집중'(cross-attention) 내부 회로를 스펙트럼 성분 단위로 나눠 분석해 텍스트 의미가 이미지 개념으로 전달되는 내부 경로를 밝혀낸 데 있다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

경북대 본관. 뉴스1 ⓒ News1 공정식 기자

(대구=뉴스1) 남승렬 기자 = 정희철 경북대 대학원 인공지능학과 교수팀이 인공지능(AI) 이미지 생성 모델 내에서 텍스트가 시각 정보로 변환되는 메커니즘을 규명했다고 27일 대학 측이 밝혔다.

경북대에 따르면 이 연구의 핵심은 이미지 생성 AI의 핵심 구조인 '교차 주의집중'(cross-attention) 내부 회로를 스펙트럼 성분 단위로 나눠 분석해 텍스트 의미가 이미지 개념으로 전달되는 내부 경로를 밝혀낸 데 있다.

'스테이블 디퓨전'(Stable Diffusion) 같은 텍스트-이미지 생성 모델은 교차 주의집중을 통해 텍스트 정보를 시각적 특징으로 변환하지만, 내부 작동 방식은 그동안 명확히 설명되지 않았다.

정 교수팀은 교차 주의집중을 '어디에 주목할지'를 결정하는 QK회로와 '무엇을 생성할지'를 결정하는 OV회로로 구분해 분석했다.

특히 이번 연구에선 AI 내부에서 하나의 처리 단위가 여러 개념을 동시에 담당하는 특성을 고려해 전체 구조가 아닌 내부의 '스펙트럼 성분' 단위로 분석 범위를 넓혔다.

그 결과, '반 고흐 화풍' '네온 조명' '누드' 같은 개념이 모델 전체에 흩어져 있는 것이 아니라, 특정 10~20%의 스펙트럼 성분에 집중적으로 인코딩돼 있음을 확인했다는 게 연구팀의 설명이다. 이는 특정 개념을 담당하는 '전용 경로'가 존재한다는 의미다.

정 교수팀은 이 원리를 활용해 '스펙트럼 무효화'(Spectral Nullification)라는 개념 제어 기법을 제안했다. 이 기법은 모델을 다시 학습하지 않고도 특정 개념과 관련된 스펙트럼 성분만 선택적으로 제거해 부적절한 콘텐츠 생성을 차단할 수 있다.

정 교수는 "기존 연구들이 '어디에' 개념이 나타나는지를 분석했다면 이 연구는 '어떻게' 텍스트가 시각 정보로 변환되는지 내부 메커니즘을 수학적으로 규명한 시도"라며 "신뢰할 수 있는 생성형 AI 개발의 중요한 기반이 될 것"이라고 말했다.

이번 연구 결과는 지난 20~26일 싱가포르에서 열린 인공지능 분야 국제학술대회 'AAAI 2026'에서 발표됐다.

pdnamsy@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.