연세대 유기준·황도식·강홍구 교수팀, 청각장애인을 위한 침묵형 음성인식 시스템 개발
연세대학교 유기준·황도식·강홍구 교수(전기전자공학과) 연구팀은 세계 최초로 단결정 실리콘 기반 고성능 피부 부착형 스트레인 게이지와 딥러닝 기반 스트레인-단어 변환 알고리즘을 결합해 전례 없이 많은 단어를 높은 정확도로 분류하는 침묵형 음성인식 시스템을 개발했다고 6일 밝혔다.
기존 금속 기반 소자에 비해 수십 배 높은 민감도를 가지는 p-타입 단결정 실리콘을 초박막 구조로 개량해 신축성을 부여한 스트레인 게이지는 특정 단어를 발음할 때의 얼굴 피부의 움직임을 효과적으로 매핑하며, 이를 통해 침묵형으로 발화된 100개의 단어를 최대 90%의 높은 정확도로 분류하는 데 성공했다.
또한 연세대 바이오일렉트로닉스·인공지능 합동 연구팀이 개발한 해당 스트레인 기반 침묵형 음성 인식 시스템은 기존 시스템에 비해 센서 사이즈가 수백 배 작다. 이는 추후 고집적 어레이로 발전할 수 있는 확장성을 의미하며, 최종적으로 음소 단위까지 구별해 특정 단어에 한정되지 않고 일상의 모든 문장을 인식할 수 있는 시스템으로의 발전을 기대할 수 있다.
2012년 WHO의 조사에 따르면 청각 및 언어소통 장애가 있는 농아인의 수는 3억6000만 명으로 전 세계 인구의 5%를 넘어선다. 언어소통의 부재는 수화와 같은 비언어소통의 의존성을 높이지만, 전달할 수 있는 표현의 양에 한계가 있으며 수화를 배우지 않은 대상과의 소통에 큰 지장이 발생하게 된다. 농아인의 의사소통 이외에도 음성에 의존하는 언어소통은 여러 상황에 제약받게 되는데 군경에서의 무전기 통신이 대표적인 예이다. 전시 및 작전 상황에서 주변의 큰 소음에 의해 음성 신호에 왜곡이 심하거나 통신의 보안이 중요한 경우 음성을 통한 언어소통은 제한될 수밖에 없다.
따라서 이러한 음성 기반 소통을 보조하기 위해 실제 음성 없이 입 모양만으로도 언어소통을 가능하게 하는 침묵형 음성인식에 관한 연구가 전 세계 과학자들에 의해 지속적으로 이뤄져 왔다. 대표적으로 가장 널리 알려진 방법은 카메라를 이용해 발화 시 얼굴의 움직임을 촬영하고, 이를 통해 구축되는 빅데이터를 이용하는 비전 인식 기술이다. 해당 기술은 최신 카메라 기기의 높은 해상도로 인해 가장 많은 정보량으로 분류할 수 있다는 장점이 있지만, 촬영 각도나 빛의 유무, 빛의 각도에 의해 분류 성능에 영향을 받기 때문에 일상의 동적인 상황에서 사용이 어렵다.
피부 부착형 스트레인 게이지는 발화 시 얼굴 피부가 늘어나는 정도에 따라 달라지는 저항의 변화를 측정한다. 하지만 현재까지 개발된 스트레인 게이지를 이용한 침묵형 음성인식 시스템은 a, o, u와 같은 단지 수 개의 발음을 식별하는 데 그쳤다.
이번 연구는 생체 내에서 발생하는 전기생리학 신호의 측정이 아닌 센서 자체의 물리적 특성 변화를 측정하는 방식을 채택했다. 센서 크기가 작아져도 노이즈의 영향을 받지 않아 센서의 소형화에 유리하다는 점에 착안해 초박막 초소형 스트레인 게이지를 개발했다. 이는 디스플레이의 픽셀과 마찬가지로 고집적 어레이로의 구현을 통해 한정된 얼굴 면적으로부터 정보량을 증가시킬 수 있는 잠재력을 의미한다. 또한 양면 인캡슐레이션이 가능해 체내로부터 피부로 배출되는 땀이나 피지와 같은 노폐물에 의해 센서의 특성이 저하되지 않는다.
또한 p-타입으로 도핑된 단결정 실리콘은 피에조 저항 효과에 의해 같은 구조의 금속 포일에 비해 수십 배 높은 민감도를 보임을 재차 규명했다. 나아가, 본 연구의 스트레인 센서는 각각 직교하는 방향으로 위치한 두 개의 게이지로 이뤄져 있다. 발화 시 2차원으로 인장 및 수축되는 얼굴 피부의 움직임을 매핑하기 위해 해당 구조를 설계했고, 직교하는 두 개의 게이지가 각각 직교하는 방향의 스트레인을 독립적으로 측정할 수 있음을 규명했다.
센서로부터 얻어진 스트레인 데이터를 학습 및 분류해 다시 단어로 변환하는 알고리즘을 설계하기 위해 인공지능 기술을 접목했다. 스트레인 게이지의 각 저항 변화가 부착한 위치의 면적 변화에 관련이 있다는 사실을 적용해 센서의 저항 변화량을 비전 영상의 각 픽셀값으로 모사해 인공지능 모델을 설계했다. 이처럼 설계했을 때 다른 모델 대비 본 연구의 모델 성능이 우수함을 입증했고, 이를 실시간으로 촬영해 데이터를 전송받았을 때 적절한 분류를 시행하는 것 또한 규명했다.
해당 기술은 그동안 난제로 여겨졌던 침묵형 음성인식 시스템의 상용화를 향한 잠재력 높은 발판을 마련했다는 점에서 주목받을 만한 가치가 있다. 침묵형 음성인식 시스템 연구는 전 세계 수많은 농아인의 언어소통을 가능하게 할 뿐만 아니라, 군경에서의 작전 상황 및 보안 시스템에도 적용될 수 있다는 점에서 사회 전반적인 파급력이 크다. 고민감도 및 고안정성의 단결정 실리콘 기반 스트레인 게이지를 이용해 피부의 움직임을 측정한 새로운 플랫폼은 침묵형 음성인식을 넘어 다양한 웨어러블 전자 소자에 대한 적용 가능성이 높아 학술적 가치 또한 크며, 향후 관련 연구 및 산업 발전에 큰 영향을 끼칠 것으로 예상된다.
유기준 연세대 교수는 "이번 연구는 농아 장애인들이 수화를 사용하지 않고 입 모양 움직임의 학습을 통해 의사소통을 할 수 있게 한 신개념 플랫폼"이라며 "우리나라 바이오전자시스템 산업의 발전과 장애인의 삶의 질 향상 및 관련 사회 문제 해결에 일조할 수 있을 것"이라고 말했다.
황도식 교수는 "향후 잠재력과 확장 가능성이 이 프로젝트의 가장 큰 키워드이기 때문에 앞으로의 후속 연구 방향이 무궁무진하다. 고집적 어레이를 통한 음소 단위 식별 시스템 등의 후속 연구 개발에 집중하고 있다"고 설명했다.
본 연구는 연세대 김태민 연구원, 신예지 연구원, 강교원 연구원, 김기호 연구원, 김관호 연구원, 변윤수 연구원이 제1저자로, 유기준 교수, 황도식 교수, 강홍구 교수가 교신저자로 참여한 바이오/인공지능 융합 연구다. 10월 3일 세계적 학술지 '네이처 커뮤니케이션즈(Nature Communications, IF 17.694)'에 게재됐으며, 삼성미래기술육성사업의 지원을 받아 수행됐다. 김대성기자 kdsung@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- 美 명문 퍼듀대 기숙사 살인사건…용의자는 서울출신 한인 유학생
- 전여옥, 김정숙 여사 ‘타지마할 관광’ 때렸다…“‘사람이 먼저다’급 대국민 사기”
- 바이든, 인사하다 `FXXX` 욕설…또 구설수
- 가정폭력 신고까지 한 아내...끝내 대낮 길거리서 남편에게 피살
- 2살 아기 마약 과다복음 사망…그 집 `마약 천국`
- 美 "한덕수 권한대행 역할 전적 지지…수주 내 韓美 고위급 대면외교"
- 거부권 행사 韓대행 탄핵 놓고 고민 깊어지는 민주당
- 정부, 2030년 경제안보품목 의존도 50% 이하로 낮춘다… "핵심광물 민·관 공동 투자·탐사 지원 강
- `전기먹는 하마` AI에 빅테크도 `원자력` `신재생` 영끌하는데… 에너지가 정치판 된 한국
- `ABC` 강조한 구광모… "`도전과 변화` DNA로 LG 미래 세우자"