한 번 생긴 습관, 좀처럼 고치기 어려운 이유는?

낯선 것엔 가치기반 도파민 신호, 익숙한 것엔 습관화 도파민 신호

여러 번 가게에 다시 가게 되면 더 이상 어떤 샌드위치를 고를지 고민하지 않고 기본적으로 마음에 드는 샌드위치를 선택하게 된다. [사진= 게티이미지뱅크]

뇌가 시행착오를 통한 학습을 할 때 이중 시스템을 사용한다는 것과 이를 통해 형성된 습관을 고치기 어려운 이유가 새롭게 밝혀졌다. 《네이처 의학(Nature)》에 발표된 영국 유니버시티칼리지런던대(UCL) 신경과학연구소 세인스버리웰컴센터(SWC) 연구진의 논문을 토대로 건강의학 웹진 '헬스 데이'가 보도한 내용이다.

논문의 주저자인 마커스 스티븐슨-존슨 SWC 그룹리더는 "본질적으로 우리는 습관의 원인이라고 생각되는 메커니즘을 발견했다"고 밝혔다. 그는 "특정 행동에 대한 선호도가 형성되면 가치 기반 시스템(value-based system)을 우회해 과거에 해왔던 기본 방침(default policy)에 의존하게 된다"며 "그러면 다른 것에 대한 가치 기반 결정을 내릴 수 있는 인지적 자원을 확보할 수 있다"고 설명했다.

연구진은 뇌에서 학습신호로 작용하는 도파민 신호가 두 종류라는 것을 발견했다. 하나는 기존에 알려진 '보상 예측 오류(RPE)' 신호다. 실제 결과가 예상보다 좋은지 나쁜지를 알려주는 신호다. 연구진이 추가로 발견한 다른 하나는 '행동 예측 오류(APE)' 신호다.

이 두 가지 학습신호는 두 가지 다른 방법의 선택지를 제공한다. 가장 가치 있는 선택지와 가장 빈번한 선택지다. 인간과 동물은 뭔가를 배울 때 두 가지 경로 중 하나를 선택하게 된다고 스티븐슨 존슨 박사는 설명했다.

"지역 샌드위치 가게에 간다고 상상해 보세요. 처음 방문할 때는 샌드위치를 고르는데 시간이 걸리고, 어떤 것을 고르냐에 따라 마음에 들 수도 있고 마음에 들지 않을 수도 있습니다. 하지만 여러 번 가게에 다시 가게 되면 더 이상 어떤 샌드위치를 고를지 고민하지 않고 기본적으로 마음에 드는 샌드위치를 선택하게 됩니다. 이 기본 방침을 저장할 수 있게 해주는 것이 뇌의 APE 도파민 신호라고 생각하면 됩니다."

새로 발견된 학습 시스템은 다양한 옵션의 가치를 직접 비교할 필요 없이 정보를 저장하는 훨씬 더 간단한 방법을 제공한다. APE 도파민 신호에 의존하면 뇌가 여러 가지 작업을 동시 수행할 수 있게 된다. 예를 들어, 운전법을 배우고 나면 자동차로 이동 중에도 누군가와 대화를 나눌 수도 있다. 기본 시스템(default system)이 자동차를 운전하기 위해 모든 반복적인 작업을 수행하는 동안 가치 기반 시스템(value-based system)은 무엇에 대해 대화를 나눌지 결정할 수 있다.

종전 연구에서는 학습에 필요한 도파민 신경세포가 중뇌의 세 가지 영역에 존재한다는 것을 발견했다. 복측피개영역(VTA), 흑질치밀부, 흑질측면부다. 어떤 연구들은 이들 부위의 도파민 신경세포가 보상을 위한 코딩에 관여함을 밝혀냈고, 어떤 연구들은 이들 도파민 신경세포의 절반이 운동 관련 코딩에 관여함을 밝혀졌지만 그 이유는 여전히 미스터리로 남아있었다.

RPE 신경세포는 중뇌 위에 위치한 대뇌기저핵의 일부인 선조체의 대부분 영역(선조체 꼬리 제외)으로 신호를 전달한다. 반면 운동 전문 신경세포는 역시 대뇌기저핵의 일부인 측좌핵을 제외한 전 영역으로 신호를 전달한다. 이를 뒤집어 말하면 측좌핵은 보상 관련 신호만을 받고, 선조체 꼬리는 운동 관련 신호만을 받는다는 것이다.

연구진은 선조체 꼬리를 조사해 운동 신경세포를 분리해 그 기능을 발견했다. 이를 검증하기 위해 연구진은 미국 콜드스프링 하버 연구소의 과학자들이 개발한 생쥐 대상의 청각 변별 과제를 이용했다.

스티븐슨-존스 박사는 "선조체의 꼬리 부분에 병변을 만들었을 때 매우 특징적인 패턴을 발견했다"고 설명했다. 병변군 생쥐와 대조군의 생쥐는 처음에는 같은 방식으로 학습하지만, 성능이 약 60~70%에 도달해 일종의 선호도가 생기면 대조군 생쥐는 빠르게 학습하면서 우수한 과제수행 능력을 보이는 반면 병변이 있는 생쥐는 선형적인 방식으로만 계속 학습하는 것이 관찰됐다. 스티븐슨 존슨 박사는 "이는 병변이 있는 생쥐는 RPE만 사용할 수 있는 반면 대조군 생쥐는 RPE와 APE 둘 다를 가지고 있기에 벌어진 것"이라고 말했다.

이를 더 자세히 살펴보기 위해 연구진은 과제수행 성과가 좋은 쥐의 선조체 꼬리를 침묵시킨 결과, 이것이 과제 수행에 치명적인 영향을 미친다는 것이 드러났다. 이는 초기 학습에서 RPE에 기반한 가치 기반 시스템을 사용해 선호도를 형성하지만 후기 학습에서는 이러한 안정적인 연관성을 저장하고 선택을 유도하기 위해 선조체의 꼬리 부분에만 APE를 사용하도록 전환한다는 것을 보여준다.

이러한 연구 결과는 나쁜 습관을 고치기 어려운 이유와 행동을 다른 것으로 대체하는 것이 왜 최선의 전략이 될 수 있는지에 대한 통찰을 제공한다. 담배 대신 니코틴 껌을 씹는 것과 같이 행동을 꾸준히 대체하면 APE 시스템이 그 위에 새로운 습관을 형성할 수 있다.

이번 연구는 파킨슨병 치료제 개발에도 영향을 미칠 수 있다. 파킨슨병은 중뇌에 존재하는 흑질이라는 부분의 도파민 신경세포 소실에 의해 발생하는 신경질환이다.

해당 논문은 다음 링크(https://www.nature.com/articles/s41586-025-09008-9)에서 확인할 수 있다.

한건필 기자 (hanguru@kormedi.com)

코메디닷컴

생활

한 번 생긴 습관, 좀처럼 고치기 어려운 이유는?