음성인식에 의한 Remote Exploit

February 01, 2007

Vista의 음성인식 기능을 이용하여, 웹사이트에서 오디오를 출력함으로써 임의의 명령을 실행할 수 있다고 한다. (via Slashdot) 음성 인식을 이렇게 기발하게 이용하는 경우까지 생각하지 못했다는 이유로 MS를 비난할 순 없을 것이다. 하지만 MS가 제안한 “스피커, 마이크를 끄거나 미디어 플레이어를 닫고 컴퓨터를 리부트하는” 방식보다는 블로그 저자가 지적했듯이 자기 스피커로 출력하는 신호는 마이크 입력에서 제거하도록 하는 것이 옳은 방법이다 (물론 제대로 구현하기 위해 시간이 걸릴 것이므로 위의 방편을 먼저 내놓았겠지만). Acoustic echo canceler를 제대로 구현하면 이러한 보안 문제를 해결하는 것 외에 다른 장점이 있는데 바로 스피커폰으로 voip를 이용하는 경우이다. 현재 voip app 중에서도 acoustic echo canceler를 구현한 것이 있는지 모르겠으나 폴리콤의 스피커폰 같이 사용할 수 있는 app은 본적이 없다. Acoustic echo canceler 알고리즘이 대단히 어려울리도 없고 PC의 CPU가 전화기 안에 들어가는 DSP 정도의 성능을 못낼리도 없는데 그런 것이 안나오는 것은 특허가 걸려있거나 (그렇다고 해도 피해갈 수 있지 않을까) 아니면 echo cancelator의 특성상 hard realtime을 만족못하는 user app 레벨에선 구현하기 어려운 것 아닐까. OS 레벨에서 이것이 구현되면 PC에서의 voip가 한결 더 사용하기 좋아질 것 같다.