엑셀 썼다가 날짜로 오인돼 이름 강제로 바뀐 유전자들

조승한 기자 2020. 8. 7. 18:30
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

날짜 자동변환 기능 입력된 이름 날짜로 오인
인간 유전자 중 몇몇이 마이크로소프트의 스프레드시트 프로그램 '엑셀'로 인해 이름을 바꾸게 됐다. 게티이미지뱅크 제공

인간은 약 2만 개의 게놈 유전자를 갖고 있다. 인간의 정보를 담은 유전자의 비밀을 밝히는 연구자들은 발견한 유전자 하나하나마다 알파벳과 숫자의 조합으로 유전자의 특징을 담아낼 수 있는 이름을 붙인다. 이렇게 연구자들이 힘들게 붙인 이름이 강제로 개명을 당했다. 마이크로소프트의 스프레드시트 프로그램인 ‘엑셀’이 몇몇 유전자 이름을 날짜 자동변환 기능으로 바꿔버리면서다. 엑셀을 연구에 활용하는 연구자들이 불편함을 호소하면서 학계가 지난 1년간 이름을 바꾼 인간 유전자의 수만 27개에 달한다.

7일 미국 기술매체 ‘더버지’에 따르면 인간 유전자 이름 표준을 정하는 비영리기구인 ‘인간유전체기구(HUGO) 유전자 명명 위원회’(HGNC)는 특정 달과 같은 영어 철자를 쓰는 인간 유전자 이름을 바꾸는 내용을 담은 지침을 이달 3일 국제학술지 ‘네이처 유전학’에 발표했다.

엑셀은 날짜와 연관된 단어나 숫자를 입력하면 이를 날짜 정보로 인식하고 바로 수정해주는 기능이 있다. 2020-8-7을 입력하면 8월 7일로 이를 수정해준다. 월에 해당하는 영어와 숫자를 써도 이를 바로 반영해준다. Jan(1월)1을 입력하면 1월 1일로 이를 바로 바꿔주는 기능이다. 일반인들에게는 편한 기능이다.

하지만 유전학자들은 이로 인해 데이터를 정리하는 데 어려움을 겪어 왔다. 이 기능이 몇몇 인간 유전자 이름을 자동으로 바꿔버리기 때문이다. 예를 들어 ‘막 연관 고리CH형 핑거’ 유전자의 약어인 MARCH1을 입력하면 엑셀은 자동으로 이를 3월 1일(1-Mar)로 바꿔버린다. 엑셀이 유전자 이름을 3월(March)이라고 인식하고 바꿔버리는 것이다. 마찬가지로 세포 형성 단백질 ‘셉틴’과 연관된 SEPT9 유전자는 9월 9일(9-Sep)로 바꿔버린다. OCT4는 10월 4일(4-Oct), DE1은 12월 1일(1-Dec)로 바뀐다.

엑셀에 MARCH1을 입력하고 엔터를 치자 1-Mar로 자동으로 변환해준다. 엑셀 프로그램 캡처

이렇게 변환해버리면 엑셀의 정렬이나 숫자 계산과 같은 기능을 활용하기 어렵다는 문제가 있다. 이를 복원하기 위해선 개별 열의 데이터 형식에서 날짜를 해제해주는 수작업을 거쳐야 한다. 하지만 다른 연구자가 이 자료를 받아 열면 또다시 같은 문제가 생길 수 있다. 유전학 연구가 여러 유전자를 정리하고 분류하는 통계 작업이 많다는 점을 고려하면 엑셀을 이용하지 못하는 유전자 이름이 있다는 것은 연구에 어려움이 커진다는 뜻인 셈이다.

이는 학계의 오랜 문제였다. 영국 BBC에 따르면 엑셀의 자동변환 기능이 유전학 연구자들을 괴롭히고 있다는 사실은 2004년 처음 학계에 알려졌다. 아삼 엘 오스타 호주 모나쉬대 당뇨병학부 교수 연구팀은 2016년 국제학술지 ‘게놈 생물학’에 3597건 연구에서 공유한 유전자 데이터를 엑셀에 넣어 보니 약 5분의 1인 704개 논문 데이터가 날짜로 바뀌는 영향을 받는다는 연구결과를 공개하기도 했다.

학계는 결국 백기를 들었다. HGNC 지침에 따르면 MARCH1은 MARCHF1으로, SEPT1은 SEPTIN1로 바꾸는 등 엑셀에서 문제가 있던 유전자의 이름이 바뀐다. HGNC의 지침 자체는 강제성은 없다. 하지만 학계 대부분이 연구자들과 합의를 거쳐 HGNC가 결정하는 유전자 이름을 그대로 쓰는 만큼 엑셀에 입력될 수 없는 인간 유전자들의 이름도 바뀌어 쓰일 것으로 보인다. 엘스페스 브루포드 HGNC 코디네이터는 “변경에 대해 논의하기 위해 연구단체들과 상의했으며 변경 사항이 적용될 때 관련 유전자 연구를 발표한 연구원들에게도 이를 알렸다”고 말했다.

한번 정한 유전자 이름을 바꾸는 것은 드문 일이지만 다른 사례도 있다. 명사로 오해를 받을 수 있는 이름들이 바뀐 사례가 있다. 차(car)와 비슷한 CARS 유전자는 CARS1으로, 화성(Mars)와 비슷한 MARS 유전자는 MARS1으로 조정됐다. 하지만 이들은 다른 용어와 이름이 헷갈리는 문제로 바뀐 것이지 소프트웨어의 문제로 이름을 바꾼 것은 이번이 처음이라고 HGNC는 밝혔다.

일부 연구자들은 유전자 이름을 바꾸는 것에 거부감을 드러내기도 했다. 엑셀의 작동 방식을 바꾸는 것보다 왜 인간 유전자 이름을 바꾸는 게 쉬웠냐는 것이다. 마치 마이크로소프트에 유전학계가 물러선 모양이지 않냐는 것이다.

이에 대해 브루포드 코디네이터는 “이것은 엑셀 소프트웨어의 제한된 이용 사례로 대다수가 이용하는 기능을 바꾸려는 동기는 거의 없을 것”이라며 “엑셀은 잠깐 지나가는 소프트웨어일지 모르나 인간 유전자는 영원한 만큼 우리가 일하기 편한 이름을 부여하는 게 최선”이라고 말했다.

[조승한 기자 shinjsh@donga.com]

Copyright © 동아사이언스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?