[김선진의 바이오 인사이트 ＜20＞] “성공? 실패?” 임상시험 결과 둘러싼 갑론을박의 진실

김선진플랫바이오 대표 서울대 의학 박사,전 텍사스 주립대 휴스턴 MD 앤더슨 암센터암생물학부 암전이 및임상이행연구센터 교수

바이오 분야, 특히 신약 개발의 임상시험에서 도출된 하나의 연구 결과를 놓고 성공이냐 실패냐에 대한 논쟁이 벌어지는 건 드문 일이 아니다. 임상 결과에 대해 완벽하지는 않지만, 임상시험의 목표를 충족시켰기 때문에 실패가 아닌 부분적인 성공으로 봐야 한다는 주장이 있는 반면, 향후 개발 계획을 놓고, 논리적 정의와 타당성에 대해 부정하는 갑론을박이 벌어지거나 심할 때는 첨예하고 날 선 충돌 끝에 서로 반대되는 해석을 내놓기도 한다.

결과물의 수치화(數値化)와 이에 대한 통계적인 분석에 의존하는 양의학(洋醫學)의 특성에 입각해서 보자면, 많은 사람이 이를 의아하게 생각하는 것은 당연하다. 이학(理學) 분야에서 수행되는 모든 실험의 결과는 목적에 부합하고 최적화된 통계학적 프로그램을 이용해 결과를 분석하고, 도출된 ‘p value(p값·표본의 결과치에서 유의한 의미가 있는 최소 수준)’에 따라 유의성이 있고 없음을 판정해 의미를 찾고 실험의 성패 여부를 판단한다. 그런데 이렇게 객관적이고 명백한 판단 근거가 있는데도 불구하고 한가지 결과에 대해 성공과 실패로 의견 혹은 주장이 갈리는 이유나 근거는 무엇일까.

데이터 질 관련 문제 제기

통계학적인 유의성이 확보됐는데도 결과에 의구심이 생기는 이유는 비교적 단순하다. 가장 이해하기 쉬운 예로 평균보다 표준편차가 매우 큰 경우처럼 데이터의 질(質)에 관련한 문제가 제기되는 경우다. 이런 경우 비교 환자군, 환자 수, 관찰 주기나 기간, 1차, 2차 지표 같은 임상 디자인 등에 문제가 있을 가능성이 있고, 임상 2상과 임상 3상의 환자 수의 차이로부터 나온 생물학적 다양성이 예측을 훨씬 넘는 수준일 때도 발생할 수 있다.

임상 디자인은 모든 가능성을 전제하고 고려해 만들어지고 규제 기관이 충분한 검토와 토의를 거친 후 임상시험을 승인했는데 왜 이런 일이 발생하는지 의문이 생길 수 있다. 임상 디자인은 물질의 장점이 최대한 발휘될 수 있도록 지속적으로 축적된 임상시험의 지식과 경험, 데이터를 기반으로 하며, 도출된 물질의 효능과 독성에 관한 정보와 통계학적인 수리를 바탕으로 수정되고, 개선되고, 만들어진다. 그 과정에서 성질이 다르고 편차치가 매우 넓은 생물학적 변수들의 데이터를 가상으로 설정한 고정된 분석 틀에 집어넣어 허용된 범위의 인위적인 가공, 즉 통계학적 분석을 통해 결과를 만들어낸다. 이때 분석 대상인 임상시험에서 수집된 데이터의 이질성(heterogeneity)이 예상했던 범위를 크게 초과하는 경우, 계산상으로는 통계학적 유의성이 인정되는 ‘p값’을 얻을 수 있어도 데이터 내용을 검토했을 때 분산의 정도가 심하고 통계학적인 신뢰 범위를 벗어나는 환자들이 많아서 신뢰도나 재현성이 낮을 것 같다는 의견이 제기될 수 있다.

다른 예로는 임상 지표가 환자들의 문화적 배경 등 주관적 판단과 심리적 상태에 과도하게 영향을 받는 경우다. 통증의 경우 통증을 느끼는 환자의 주관적 고통 지수와 각 환자의 일상생활 및 생계 활동을 비롯한 운동 자세 등에 영향을 받을 수밖에 없다. 또한 환자들의 문화, 교육, 심지어 종교적 배경까지 여러 복잡다단한 요인이 통증을 받아들이고 표현하고 평가하고 인내하는 정도에 많은 영향을 미친다. 이렇게 주관적인 요소가 많이 포함된 통증 지표를 객관적으로 평가하고 수치화하려고 하면 당연히 표준화가 매우 어렵고 오차와 편차는 클 수밖에 없다. 그렇기 때문에 이를 상쇄해 통계적 유의성을 판단할 수 있는 분석을 하기 위해서는 임상 규모가 점점 커질 수밖에 없다.

경향성 관찰 有無 중요

하지만 그럼에도 불구하고 이러한 노력이 임상시험에 참여하는 환자군의 유형에 따라 소용이 없어지고 데이터가 유효성을 상실하는 경우가 종종 발생한다. 그렇다면 반대로 유의성이 확보되지 못했는데도 실패가 아니라는 판단에 따라 임상시험을 확장하거나 반복하는 경우도 있을까. 가장 빈번한 예로서 지표를 만족시키지는 못했으나 ‘경향성’이 관찰되는 경우를 들 수 있다. 도출된 데이터 혹은 결과를 보면 대조군과 비교해 분명하거나 명확한 차이가 보이거나 방향성이 있는 것 같은데, 실제 통계학적 분석으로 나온 ‘p값’은 유의성이 없는 것으로 나올 수 있다. 심지어 그래프로 도식화된 막대나 선에서 차이가 있는 듯이 보이는데도 실망스러운 p값이 얻어지는 경우도 드물지 않다. 이는 ‘p값’이 유의성을 보이는 수치에 아주 근접한 경우와 그렇지 않은 경우 모두 해당한다. 이런 현상이 벌어지는 원인이나 이유는 여러 가지가 있고, 이를 분석해 임상시험을 계속할지를 결정하는 데 과학적 근거를 도출해 낼 수 있다면 큰 어려움이 없이 임상시험을 이어 나갈 수 있다.

직관과 경험에 기반한 승부수

하지만 과학적 근거를 확보하지 못한 때에도 임상시험을 중단하지 않고, 계속할 수 있다. 일종의 직관과 경험에 기반한 승부수를 띄우는 경우다. 문제는 설득력 있는 설명으로 이해를 구하는 것인데, 이는 쉬운 일이 아니다. 첫째 이유는 p값에 대한 대중의 신뢰와 의존도는 절대적이고 타협을 불허하기 때문이다. 이유를 막론하고 p값이 배제된 논의와 토론은 받아들여지기 어렵다. 둘째는 개발자가 해석하는 방법이나 설명하고자 하는 이유가 애초의 임상 디자인과 평가 지표의 설정 이유를 왜곡시키기 때문이다. 이는 과학적이고 객관적인 설명 대신 직관적이고 주관적인 해석의 한계 때문에 벌어지는 상황인데, 이를 극복하기 위해서는 쉽고 편리한 단순 왜곡이 아니라, 상황에 최적화된 새로운 설득으로 이해를 구해야 한다. 그러기 위해선 첫 째로 임상시험 계획에서 설정된 지표 중 목표가 달성된 것과 달성에 실패한 것을 명확하게 밝혀야 한다. 이때 주의할 점은 달성된 지표만을 뽑아내서 결과를 긍정적으로 유도하고 합리화하려는 것인데, 바로 이것이 임상 시험 자체를 왜곡시키고 대중의 동의를 얻지 못하는 이유다. 둘째, 통계학적 유의성을 확보하지 못했음에도 불구하고 경향성이나 방향성이 있는 것으로 판단한 이유에 대해 객관적으로 설명해야 한다. p값이 유의한 수치에 매우 근접해 있다거나 임상적으로 유효성이 확인됐음에도 불구하고 편차를 과도하게 벗어나는 ‘아웃라이어(outlier)’들의 수가 통계학적으로 허용되는 역치를 벗어나서 p값의 가치나 의미가 낮거나 없어졌다는 사실을 이해시켜야 한다.

단순히 ‘성공하는 데는 실패했지만 동시에 실패하는 데도 실패했으므로 넓은 의미에서는 성공으로 해석하자’라고 주장하는 것은 궤변이다. 언뜻 들으면 그럴싸하게 들릴 수도 있지만, ‘실패’라는 단어 자체가 함축한 부정적인 의미 때문에 상대방을 설득하기엔 부족할 수밖에 없다. 하지만 정확한 정보와 논리에 바탕을 둔 해석은 공감을 이끌어내 실패라는 속단을 내리기 전에 성공을 위한 재도전의 가치를 인정받을 수 있게 한다. 꾸준히 하면 성공할 수 있다는 초부득삼(初不得三)을 잊지 말자.

이 기사에 대해 어떻게 생각하시나요?

이코노미조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

사설칼럼

[김선진의 바이오 인사이트 ＜20＞] “성공? 실패?” 임상시험 결과 둘러싼 갑론을박의 진실