▣ 소리가 녹음된 것을 통하여 6가지 중 한 가지 감정을 81%의 정확성으로 감지

 
만약 가장 가까운 버스정류장이 춥다는 것을 감지하고, 사용자의 기분을 감지할 때까지 기다려주는 스마트폰이 만들어질 수 있을 것이다. Rochester대학의 엔지니어팀이 진행하고 있는 새로운 연구는 곧 실현가능해질 것이다. 12월 5일 열린 IEEE 구어기술 워크숍(IEEE Workshop on Spoken Language Technology)에서 연구원들은 언어를 통해서 사람들의 감정을 측정하는 새로운 컴퓨터 프로그램을 발표하게 될 것이다. 이것은 기존의 방법보다 더 높은 정확도를 보여주고 있다.


놀랍게도, 이 프로그램은 단어의 의미만을 보고 있지는 않다. “우리는 날짜를 읽는 배우들의 기록을 사용하였다. 실제로 우리는 그들이 말하는 것이 아니라 어떻게 말하는가에 우리는 관심을 가졌다”고 전기 및 컴퓨터공학과 Wendi Heinzelman 교수가 말했다.


Heinzelman은 이 프로그램이 목소리의 높낮이 및 볼륨과 같은 12개의 언어 특성을 분석했다고 설명했다. 그래서 소리가 녹음된 것을 통하여 6가지 중 한 가지 감정을 감지해냈다고 설명했다. 그리고 이것은 81%의 정확성을 가지게 되었다. 이전에 55% 정도의 정확성을 가졌던 이전 연구보다 상당히 개선된 결과이다.


이 연구는 이미 애플리케이션을 위한 프로토타입을 개발하고 있다. 애플리케이션은 기록한 뒤에 행복하거나 슬픈 얼굴을 디스플레이하고 사용자의 목소리를 해석하게 된다. 이것은 Heinzelman의 대학원생 중 한 명인 Na Yang이 MS연구소에서 여름방학 인턴십을 하면서 개발한 것이다. “이 연구는 여전히 초기단계이지만, 이 기술이 사용될 수 있는 더 복잡한 애플리케이션을 상상할 수 있다. 예를 들어, 모바일폰에 디스플레이된 색상을 조정하는 것에서부터 목소리를 기록한 뒤에 느끼는 것에 적합한 음악을 트는 것 등에 사용될 수 있다”고 그녀는 말했다.


Heinzelman과 그녀의 연구팀은 Rochester대학의 심리학자인 Melissa Sturge-Apple, Patrick Davies와 함께 공동으로 연구를 진행하고 있다. 그들은 현재 십대와 부모 사이의 상호작용에 대한 것을 연구하고 있다. “감정을 분류하는 신뢰할 수 있는 방법은 우리 연구에 매우 유용할 것이다. 이것은 연구원들이 대화를 주의깊게 듣지 말아야하며, 다른 상태에 있는 다른 사람들의 감정을 수동으로 입력해야 한다는 것을 의미한다.” 라고 Sturge-Apple이 말했다.


감정을 이해하도록 컴퓨터를 가르치는 것은 사람이 어떻게 이해하는지를 인식함으로써 시작되었다. “당신은 어떤 사람이 말하는 것을 들어야 하며, 매우 화가 났다고 생각하게 된다. 그러나 무엇이 그렇게 생각하도록 만드는 것일까?”라고 Sturge-Apple이 말했다. 사람이 말을 할 때 목소리, 음의 높이, 하모닉스( harmonics)가 변하기 때문에 감정에 영향을 미친다고 그녀가 설명했다. “우리는 개별적으로 이러한 특성들에 주의를 기울이지 않는다. 단지 우리가 알고 있는 사람들의 화난 목소리가 어떤 것인지를 배우려고 하는 것”이라고 그녀가 덧붙였다.


그러나 감정을 컴퓨터가 분류하기 위해서는 측정할 수 있는 분량들을 가지고 연구를 해야 한다. 그래서 연구원들은 단기간에 각 기록에서 측정되는 언어의 12가지 고유한 특성들을 만들었다. 그러고서 각 기록들을 분류하여 컴퓨터 프로그램에 슬픔, 행복, 두려움, 혐오 또는 감정을 자제하는 것이 어떤 것인지를 컴퓨터 프로그램에 가르치는데 사용하였다.

이 시스템은 새로운 기록을 분석하고, 기록의 목소리가 어떤 감정들을 나타내는지를 결정하였다. 만약 컴퓨터 프로그램이 두 가지 또는 그 이상의 감정들을 알아낼 수 없다면 미분류된 기록으로 남아있게 될 것이다.

“기록된 음성이 특별한 감정을 가지고 있다고 컴퓨터가 생각했을 때, 이러한 감정들을 나타내는 것이 가능하디고 우리는 확신하고 싶다”고 Heinzelman이 설명했다.


이전 연구에서 감정분류 시스템들은 말하는 사람에 대한 의존도가 높았다. 그것은 분석해야 될 같은 목소리에 의해서 시스템이 훈련된다면 훨씬더 잘 동작할 것이다. “부모와 십대 아이들과 같이 사람들 그룹이 말하고 상호작용하는 곳에서 실험을 하게 된다면 이것은 이상적이지 않다”고 Sturge-Apple이 설명했다.


이 새로운 연구결과는 언어기반 감정분류가 시스템을 훈련했던 사람과 다른 목소리를 사용하게 된다면 정확도가 81%에서 30% 정도 감소한다는 것을 확인하게 되었다. 현재 연구원들은 같은 연령대의 그룹과 같은 성별을 가진 그룹들로 시스템을 훈련시킴으로써 이러한 효과를 감소시킬 수 있는 방법을 찾고 있다. “우리가 실제 상황과 유사한 환경에서 이 시스템을 사용하기 원한다면 여전히 해결되어야 할 문제가 남아있다. 그러나 우리가 개발한 알고리즘이 이전의 연구보다 더 효율적이라는 것을 알고 있다”고 Heinzelman이 말했다.


URL : http://www.eurekalert.org/pub_releases/2012-12/uor-sms120312.php


<출처>KISTI 미리안 『글로벌동향브리핑(GTB)』, 2012.12.10

Posted by TopARA
,