‘윤 대통령 말’ 어떻게 분석했나…형태소 추출, 연관도 계산[윤 대통령 2년 메시지 대해부]

황경상 기자 2024. 5. 8. 06:10
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

윤석열 대통령이 지난해 7월18일 서울 용산 대통령실 청사에서 열린 국무회의에서 발언하고 있다. 연합뉴스

윤석열 대통령의 2년 치 메시지 분석은 형태소 추출에서 출발했다. 한국언론진흥재단과 (주)바이칼에이아이가 뉴스 기사를 토대로 공동 개발한 형태소 분석기 ‘바른’을 사용했다. 분석에 사용한 형태소는 명사, 수사, 동사, 형용사 등 10개다. 명사 등이 뒤에 반복돼 복합명사를 이루는 경우는 별도로 반복 추가했다.

한 문장에 함께 등장하는 형태소들은 ‘공기어’로 설정했다. 그런 다음 각각의 형태소와 공기어 간의 연관도를 측정하기 위해 티스코어(t-score)를 산출했다. 두 형태소가 함께 나올 예상치를 계산한 뒤 그 예상치보다 더 자주 함께 등장할수록 높은 점수를 주는 계산 방법이다. 이렇게 하면 각 형태소는 공기어와 그 공기어와의 티스코어로 표현할 수 있다. 예를 들어 ‘자유’→{민주주의: 12.5, 평화: 8.7, …} 형식으로 표현된다. 형태소를 숫자의 나열인 벡터로 표현할 수 있는 셈이다.

최종적으로 특정 형태소의 연관어를 구하기 위해 그 형태소의 공기어와, 공기어의 공기어만을 대상으로 한정해 각 형태소 간 벡터의 코사인 유사도를 측정했다. 코사인 유사도는 각 벡터가 비슷한 방향을 향하고 있을수록 큰 값이 나온다. 형태소 간 벡터의 유사도가 높다는 것은 같은 공기어를 많이 가지고 있다는 의미로도 볼 수 있다. 같은 문장이나 맥락에서 자주 등장했다는 뜻으로 해석할 수 있으므로 이를 ‘연관어’, 코사인 유사도를 ‘연관도’라고 지칭했다.


☞ 대통령의 말
     https://www.khan.co.kr/kh_storytelling/2024/yoonsword/

황경상 기자 yellowpig@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?