Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

왜 그녀는 다리를 꼬았을까[NUI기반 감성인식 기술동향]

감성인식 워크샵 발표자료

  • Login to see the comments

왜 그녀는 다리를 꼬았을까[NUI기반 감성인식 기술동향]

  1. 1. [NUI 기술기반 감성인식 기술동향]왜 그녀는 다리를 꼬았을까 ? 이정헌 PM
  2. 2. 목차 NUI 기반 신체언어 분석  신체언어과 NUI  신체언어의 5가지 진실과 NUI의 종류 얼굴언어 이해 몸짓언어 이해 공간언어 이해 소리언어 이해 2 NUI기술기반 감성인식 기술동향
  3. 3. NUI 기술을 이용한 신체언어 분석
  4. 4. 신체언어와 NUI 기술 구술언어가 없던 시절부터 사람은 몸짓과 소리만으로 충분히 의사소통을 해왔다. 나라와 인종을 떠나 세계의 모든 사람들은 마음으로 의사소통을 할 수 있는데 그 이유는 ‘신체언어(Body Language)’ 라는 근원적인 언어를 공유하고 있기 때문이다. 신체언어는 표정과 손 모양새, 몸으로 취하는 자세, 여러가지 다양한 움직임과 몸에 배인 버릇, 음조와 음성으로 이루 어진다. 사실 말 그대로 신체언어는 상대에게 말하고자 하는 것을 나타내기 위해 몸으로 할 수 있는 모든 것을 포함한 다. 흥미롭게도, 때로는 당신이 말하지 않으려고 하는 것까지도 신체언어를 통해 전달되기도 한다. 대부분의 사람들은 다양하게 신체언어를 표현할 수 있는 능력을 가지고 태어난다. 사실은 이것은 우리가 말하는 법 을 배우기 이전, 아기였을 때 다른 사람과 소통하는 유일한 방법이기도 하다. 하지만, 언어만을 사용하면서 때로는 실 망하기도 하고, 거부당하기도 하고, 속기도 한다. 일부의 신체언어는 의식적으로 이루어진다. 어떤 경우에 자리에서 일어나 미소를 지어야 하는지, 또 어떤 경우에 포 옹을 해야 하는지, 그리고 언제 악수를 해야 하는지 알고 있다. 하지만, 누군가가 말로 표현하는 것이 실제로 그 사람 의 생각과 다르다는 것을 사람들은 직관적으로 느끼게 된다. 그것은 사람이 성장하면서 무의식적으로 사람의 신체언 어를 경험하기 때문이다. 물론, 이러한 직관력은 성장배경과 경험에 의해 차이를 보이게 된다. 신체언어라고 해도 사람은 스스로 통제할 수 있는 것과 통제가 조금 어려운 것, 더 나아가 전혀 통제할 수 없는 것들 이 있다. 이 3가지 유형에 속하는 신체언어를 이해하기 위해서는 신체언어가 어떻게 구성되어 있는지 그것을 어떻게 받아들여야 하는지 알아야 한다. 누군가를 처음으로 만날 때, 우리의 뇌는 그 사람에 대해 알아볼 수 있고, 그 사람이 도움이 될지 해가 될지를 파악할 수 있는 수 백 가지의 신호를 순식간에 스캔한다. 우리가 받아들이는 신호 가운데 몇가지는 부모에게서 물려받았거 나 문화적 특징을 지닌 것들로 이미 신경체계에 깊숙히 박혀있어 사람에 따라 여러가지 의미로 해석될 수 있다. 이러 한 문제를 해결하기 위해 신체언어에 대한 보편적 해석 방법에 대한 연구가 수세기 전부터 진행되어 왔다. 1872년 찰스 다윈의 저서 <인간과 동물의 감정표현>에서 그는 “영장류는 특별한 감정을 가지고 태어나고 이 감정은 몸과 얼굴을 통해 표출된다.”라는 신체언어는 선천적이라는 학설을 지그문트 프로이트를 거치면서 1960년대 중반에 폴에크만에 이르러 “신체언어는 성장과 문화의 결과다.”라는 학설을 입증하였다. 에크먼은 21개국의 학자들과 협력 하여 ‘감정이라는 것은 어느 지역에서나 보편적으로 나타나는 것 ‘이라는 것을 입증하였다. 최근에는 신체언어라는 것이 감성적인 측면을 강조하는 마케팅 분야 및 제품 개발을 위한 디자인 컨셉을 잡거나 IT 기기들의 UI/UX 적인 측면의 기술 개발을 위한 요구사항 도출을 위한 핵심 요소기술로 인식되면서 신체언어를 객관 적으로 이해하기 위한 영상/음성 분석기술을 포함한 NUI(Natural User Interface) 연구들이 진행되고 있으며, 일부 연 구들은 이미 상용화되어 실제 시장에 적용되고 있다. 4 NUI기술기반 감성인식 기술동향
  5. 5. 신체언어의 5가지 진실과 NUI 기술의 종류1. 언제 어디에서든 사람은 감성(혹은 감정)이 담겨있는 신체언어를 접한다.2. 신체언어의 의미는 사람들의 인터랙션이 포함된 전체적인 상황에 따라 결정된다.3. 절대로 하나의 신호와 한 순간의 상태만을 기준으로 신체 언어를 판단할 수 없다.4. 신체언어는 상대가 하는 말과 다른 진짜 속마음을 드러내 준다.5. 신체언어를 이해하면 속마음을 보여주는 순간의 표정이나 몸짓, 즉 ‘미세표정’ 이나 ‘미세움직임’을 포착할 수 있다. 5 NUI기술기반 감성인식 기술동향
  6. 6. 얼굴언어 이해
  7. 7. 감성, 감정, 정서 – 사전적 의미 감성  sensibility / 感性  이성(reason / 理性) 또는 오성(Verstand / 悟性)과 함께하는 인간의 인식능력으로 감각기간이 외부로부터 자극을 받아 감각 ㆍ지각을 생기게 하는 감수성(외부의 자극을 받아들이고 느끼는 성질)을 가리킨다.  감성은 수동성을 내포하고 있다. 감정  feeling / 感情  어떤 현상이나 사건을 접했을 때 마음에서 일어나는 느낌이나 기분을 가리킨다.  감각은 객관적인 정보라고 한다면 감정은 주관적인 정보라 할 수 있다.. 정서  emotion / 情緖  정서란, 비교적 강하게 단시간 동안 계속되는 감정(feeling / 感情)을 가리킨다.  정서는 마음이 움직이고 감동된다는 점에서 정동(情動)이라고도 한다. 7 NUI기술기반 감성인식 기술동향
  8. 8. 감정측정 필요성 “사람이 결정을 내릴 때는 두가지 이유가 존재한다. 합당한 이유와 진짜이유가 그것이다.” – J.P. 모건 3영역으로 구성된 두뇌에 담긴 구체적인 의미  감정은 생각보다 먼저 그것도 대단히 빠른 속도로 일어난다.  “감정과 이성의 본질적인 차이는 감정은 행동을 낳고 이성을 결론을 낳는다는 점이다.” – 도널드 칸(Donald Calne)  기억은 감정을 토대로 한다. “편도체가 어떤 자극을 받아서 두뇌내에 감정적 회로가 만들어지면 새로운 기억이 생성된 다.”-르두, 1994  “본능적 반응은 3초안에 일어난다.” – 마커스, 2002  의식적 사고가 정신활동에서 차지하는 비율은 매우 낮다.  “두뇌는 1초에 4천억바이트의 정보를 받아들이는데 그 가운데 의식적뇌가 처리하는 것은 2천바이트에 불 가하다.”-왓, 2004  시각적 이미지 및 여타의 비언어적 커뮤니케이션이 더 강력한 힘을 발휘한다.  “커뮤니케이션의 55%가 얼굴표정을 통해 35%가 목소 리톤에 의해 이루어지며, 단지 7%정도만이 언어적 표 현에 의해 이루어진다.”-마라비언,1981 “기업의 수익성은 타깃 시장의 고객이 해당기업과 관련하여 경험하는 것들에서 어떤 감정을 느끼느 냐에 따라 달라진다. 따라서, 기업의 장기적인 성 공여부는 어떻게 그들의 감정을 측정하고 변화시 키느냐, 어떻게 그들의 감정에 대응하느냐에 달려 있다.” – 댄 힐, 2011 8 NUI기술기반 감성인식 기술동향
  9. 9. 감정측정 방법 생리적 측정 방법  사람의 신체의 다양한 생리적인 신호를 측정하는 방법으로 다른 측정방법에 비해 객관적인 데이터를 얻을 수 있다.  기능성 자기공명영상(fMRI)를 이용한 측정방법  사람이 의사결정 과정에서 감정이 중대한 역할을 한다는 사실을 입증하는 강력한 증거를 제공해주었다(Helliker, 2006).  피부전기반응(EDA)을 이용한 측정방법  피부전도반응(SCR), 피부저항반응(SRR), 피부잠재반응 (SPR)등이 있다. 피부전기반응을 이용한 연구에서, 사람은 주로 부정적 인 감정상태에서 피부전기반응의 수치가 감소하는 것으로 밝혀졌다.  동공크기 측정법(Pupillometry)  동공의 크기는 즐거운 감성의 상태에서 확장되는 것으로 밝혀졌다 (Hess & Polt, 1960). 행위적 측정 방법  얼굴의 표정이나 몸짓 그리고 말과 같이 겉으로 드러나는 신체적 반응을 측정하는 방법  표정 부호화 시스템(Facial Action Coding System, FACS)  사람의 43개의 얼굴 근육의 움직임과 그 조합을 바탕으로, 두려움, 화남, 기쁨, 역겨움, 슬픔과 놀람 등의 6가지의 기본 감정을 분류 하는 방법이다 (Ekman, 1978).  근전도(Electromyography, EMG) 측정법  무의식적인 얼굴 근육의 움직임을 분석하는 얼굴표정 분석방법. 얼굴에 센서를 부착하여 미세한 근육의 움직임으로부터 전 류를 감지한다. 광대뼈근육의 움직임이 긍정적인 감정상태와 상관관계를 갖는 것으로 밝혀졌다 (Dimberg, 1990).  말의 특성 분석법  사람의 감성상태와 연관이 있음이 밝혀졌으며, 감성적 반응을 측정하는데 매우 유용한 것으로 나타났다(Banse, 1996). 9 NUI기술기반 감성인식 기술동향
  10. 10. 페이셜코딩 페이셜 코딩의 역사  사람의 표정은 타고나는 것이며, 얼굴이 감정을 타인에게 전달하는데 사용되 는 중요한 수단이라는 사실이 밝혀졌다.  찰스 다윈, 1872  7년동안 모은 얼굴 표정자료를 기초로 사람은 43개의 안면근육과 이러한 근 육들이 움직여 다양한 방식으로 조합되면 23개의 핵심 움직임 단위(Action Unit, AU)가 만들어지고, 이 움직임 단위들은 감정과 관련된 모든 표정의 가장 기본적인 요소가 된다는 것이 밝혀졌다.  캘리포니아 대학의 폴 에크먼과 의과대학의 윌리프리즌, 2003  에크먼의 FACS 시스템을 이용하여 기업의 행동에 대한 소비자와 직원들의 실 제 감정 반응을 파악해주고 기업이 그에 따라 계획을 수립할 수 있게 도와주 는 페이셜 코딩을 비즈니스 세계에 접목하기 시작했다.  센서리로직, 2007 페이셜 코딩의 신뢰성  “인간은 지구상의 어떤 동물보다도 많은 안면 근육을 가지고 있다. 이 사실만 으로도 얼굴은 수많은 데이터를 얻어 낼 수 있는 정보의 보고다.”  애크먼과 프리즌, 2003  “얼굴인 신체에서 근육이 직접 피부에 붙어있는 유일한 부분이다. 이 때문에 얼굴은 대단히 쉽게 움직이며, 피부는 두뇌에서 오는 자극에 빠르게 반응하여 자신의 모양을 바꾼다. 따라서, 얼굴은 감정을 무의식적으로 가장 잘 나타내는 창이다.”  맥닐(McNeill), 1998  “얼굴 근육의 풍부한 움직임은 페이셜 코딩의 기본 토대이자 근거다. 두뇌가 감정적인 자극을 발생시킬 때마다, 이 자극은 모든 안면 근육과 표정을 통제하 는 안면 신경을 통해 얼굴로 전달된다.” - 댄 힐(Dan Hill), 2011 10 NUI기술기반 감성인식 기술동향
  11. 11. 페이셜코딩 핵심감정 표정 패턴  표정은 그것이 형성되고 최고조에 이르렀다가 사라지는 형태로 존재한다. 일반적으로 표정이 지속되는 시간은 0.5초에서 4 초 사이이며, 근육 움직임의 지속시간 및 유형, 강도를 모두 종합하여 특정 감정의 강도를 측정하는 기준으로 삼는다.  감정은 하나의 패턴으로 유지되지 않으며, 어떠한 이벤트에도 복합적인 감정의 흐름이 단계적 변화와 혼재되어 나타난다. 7가지 핵심감정  행복(긍정적), 놀라움(중립적), 두려움, 분노, 슬픔, 협오감, 경멸감(부정적) 동영상기반 얼굴인식 및 추적기술 필요 놀라움 두려움 분노 슬픔 협오감 경멸감 행복(진짜미소) 행복(사회적미소) 눈이 커진다. 눈썹이 올라가고 눈썹 끝이 내려가 이마 중간에 주름 코끝이 올라가고 입의 한쪽끝이 올 눈 바깥쪽 피부에 입꼬리와 뺨의 근 눈썹이 올라간다. 미간이 좁아진다. 고 미간이 찌푸려 이 생긴다. 주름이 생긴다. 라가면서 비웃는 새발 모양의 주름 육이 올라가면서 입이 벌어진다. 눈이 커진다. 진다. 눈썹의 바깥쪽은 윗입술이 올라가 듯한 분위기와 함 이 생긴다. 얼굴이 전체적으 턱 주변 근육이 긴 눈이 가늘어진다. 처지고 안쪽은 약 고 떄로 거꾸로 된 께 얼굴의 반쪽만 눈꺼풀의 긴장이 로 동그래진다. 장된다. 입술을 힘주어 오 간 올라간다. 미소모양이 약간 표정이 바뀐다. 풀어지면서 약간 반면 눈가 근육은 입술이 가로 방향 므린다. 눈가에 주름이 생 나타난다. 윗입술이 올라간 처지고, 눈아래 피 움직이지 않고 눈 으로 당겨진다. 긴다. 아랫입술이 처진 다. 부가 위쪽으로 당 동자에도 밝은 기 턱이 벌어진다. 코와 윗입술 주변 다. 눈이 약간 감기거 겨진다. 운이 감돌지 않는 의 팔자 주름이 깊 나 시선을 돌리기 입꼬리가 크게 올 다. 어진다. 도 한다. 라가고 빰도 위쪽 입술 양끝이 처지 으로 당겨진다. 거나, 거꾸로 된 미 소모양이 나타난 다. 11 NUI기술기반 감성인식 기술동향
  12. 12. 페이셜코딩 감정의 다양성 7가지 핵심감정(기본감정)이 결합되면 24개의 2차 감정이 생성된다.  내향적 감정  해당 감정을 느끼는 사람에 의해서 유발되는 감정 또는 내면으로 향하는 감정을 말한다.  일반적으로 이러한 감정은 자존심과 관련되거나, 또는 우리가 갖는 기대치를 토대로 상황변화에 대한 우리의 감정을 내면화 하는 방식과 관련된다.  외향정 감정  외부 요인에 의해 유발되거나 또는 감정의 에너지나 그것이 일으키는 행동이 자신이 아닌 다른 누군가를 향한다.  자신의 상태 및 위치에 대한 관심, 다른 사람들의 상황이나 행운등(특히 그것이 우리의 목표실현과 관련되어 있는 경우)이 외향적인 감정을 일으키는 경향이 있다. 12 NUI기술기반 감성인식 기술동향
  13. 13. 페이셜코딩 분석 페이셜 코딩 데이터를 분석하는데 가장 중요한 데이터는 청 중이 주의를 기울이느냐의 여부이다. 그 이유는 상업적인 측 면에서 사용자들에게 감정적 반응을 유발함으로써 주의를 일깨우지 않는다면 소비자들을 설득할 수 없기 때문이다. 특정 자극에 반응할 때, ‘그리고/또는’ 질문에 답변할 때 최소 한 한가지 이상의 AU나 정확한 감정을 얼굴에 나타낸 참가 자들의 퍼센티지를 조사함으로써 감정적 반응도를 파악한 다. 사람들이 감정적으로 반응하는지 여부를 알아냈다면, 그 다 음엔 반응의 종류를 파악해야 한다. 페이셜 코딩을 이용해 기업은 긍정반응이 우세한지 부정 반응이 우세한지 판별할 수 있게 된다. 사람들이 자극에 대한 정확한 반응을 나타내지 못하는 경우 도 많기 때문에 페이셜 코딩과 함께 안구 운동 추적 방법을 병행 사용한다. 안구 운동 추적 방법은 사람들이 보고 있는 지점, 그들이 집중하는 지점을 알아내 기록하는 것을 말한다. 감정 반응과 시각적 집중을 동시에 파악하는 것은 사람들의 반응을 유발하는 요인을 이해하기 위해 효과적인 방법이다. 13 NUI기술기반 감성인식 기술동향
  14. 14. 얼굴검출 기술동향 얼굴 검출 기술은 얼굴인식 이전에 실행되 얼굴검출 어야 하는 과정으로 영상에서 얼굴이 있는 곳을 찾아내는 기술이다. 일반적으로 사람 의 얼굴은 조명, 사람의 얼굴이 응시하는 방 지식기반 특징기반 템플릿매칭기반 외형기반 향과 각도, 표정, 카메라와 사람 간 거리에 따 른 얼굴의 크기, 배경과 얼굴의 색상 차이 등 과 같이 환경적인 조건에 따라 민감한 반응 규칙기반 얼굴특징 사전정의 얼굴템플릿 을 하기 때문에, 영상으로부터의 얼굴 검출 Eigenface 및 얼굴 인식에 관한 연구는 실제 많은 어려 움을 포함하고 있다. 텍스쳐 변형하는 템플릿 분산기반 피부색 Neural Network SVM(Support Vector 다양한 얼굴특징 Machines) Naïve Bayes Classifier Hidden Markov Model Information- Theoretical Approach 14 NUI기술기반 감성인식 기술동향
  15. 15. 얼굴추적 및 특징추출 기술동향 얼굴영역이 검출되면 검출된 영역을 추적하면서 얼굴인식에 사용 할 특징값들을 추출하는 과정이 진행된다. 이과정에서 사용하는 알 고리즘에 따라 뒤에 얼굴인식 알고리즘에 영향을 미치게 되며, 특 징값을 선택하는 알고리즘의 종류들도 바뀌게 된다. 얼굴검출 및 추적 과정 특징값 추출 과정 15 NUI기술기반 감성인식 기술동향
  16. 16. 얼굴특징 추출 및 특징선택 기술 동향  얼굴인식에 사용되는 가장 작은 단위 의 분류에 오류를 일으킬 수 있는 영향 을 줄 수 있는 특징 값중에서 부분세트 를 선택하는 것이 목적으로 사용되는 것이 바로 특징값 선택과정이다. 특징값 선택 과정16 NUI기술기반 감성인식 기술동향
  17. 17. 얼굴인식 기술동향 얼굴인식 기술은 크게 3가지 유형으로 분류 할 수 있으며, 하이브리드 방법을 이용한 연구들이 많이 진행되고 있다. 하이브리드 방법에서는 위치 특성과 더불어 하나의 얼굴을 인식하기 위하여 얼굴 전체 영역을 사용하기 때문에 매우 복잡하지만 인식률은 전체론적인 매칭 방법과 특징 기반의 매칭 방법들에 비하여 월등히 우수하다. 얼굴인식 전체론적 방법 특징기반 방법 하이브리드 방법 Pure Geometry PCA(Eigenface) LFA Methods Dynamic Link LDA(Fisherface) Shape-Normalized Architecture PCA기반 얼굴학습 단계 Hidden Markov ICA Component-based Model Tensorfaces PDBNN PCA기반 얼굴인식 단계 17 NUI기술기반 감성인식 기술동향
  18. 18. 얼굴인식 기술동향 (주요기술) 기하학적 방법  특징 : 얼굴의 기하학적 특징점을 추출하여 일치여부를 판단하여 인식  성능 : 얼굴은 3차원이고 회전이 가능하기 때문에 적용에 한계가 있다. Eigenfaces  특징 : 특징점 추출로 PCA(Principal Component Analysis)를 적용하고 유사도 측정으로 Euclidean 거리 적용.  성능 : 조명이나 환경변화에 민감하게 반응하지만 널리 사용되고 있어 그 성능이 검증된 대표적인 얼굴인식 방법. Fisherfaces  특징 : FLD(Fisher Linear Discriminant) 분류 알고리즘으로 적용한 얼굴인식 방법.  성능 : 사람 개개인의 특성을 학습함으로써 보다 정확하고 환경변화에 둔감한 특성을 지니고 있어 on-line 상태에서 실시간 으로 적용 가능한 알고리즘. SVM( Support Vector Machine)에 기초한 방법  특징 : PCA와 SVM(Support Vector Machine)알고리즘을 사용한 알고리즘.  성능 : 비교적 높은 인식률을 높이지만 얼굴인식과 같은 멀티 클래스에 적용하기에는 시간과 메모리가 많이 소모되는 알고 리즘이지만 현재 연구되는 얼굴인식 알고리즘의 대표적인 알고리즘임 신경회로망  특징 : 흑백의 정지영상에서 슬라이딩 윈도우를 이용해 학습된 얼굴모양을 검색  성능 : 두 개 이상의 다수 얼굴의 추출도 가능하나 속도가 느리며 학습이 어려움. 퍼지 + 신경회로망  특징 : 신경회로망회로의 입력으로 픽셀의 밝기 값 대신 퍼지 소속함수를 사용  성능 : 신경회로망만을 이용한 방법보다 성능은 향상되나 처리속도는 떨어짐. Wavelet + Elastic Matching  특징 : 주파수 변환을 사용하며, 자세 및 표정의 변화를 처리하는데 효과적.  성능 : 인식률에 비해서 연산량이 많음. 18 NUI기술기반 감성인식 기술동향
  19. 19. 얼굴인식 성능평가 기준동향 성능평가 기준  성능평가에 사용하는 얼굴DB  Hit ratio  FERET Protocol  Error rate  XM2VTS Protocol  Computational speed.  Memory usage. 성능에 영향을 주는 중요요인  Illumination / occlusion / expression / pose invariability  Scalability.  Adaptability (to variable input image formats, sizes, etc.)  Automatism (unsupervised processes)  Portability. • 실제 응용에 있어서는 인식율을 좌우하는 측면에서 DB의 내용이 매우 중요하며 대부분의 상용솔루 션들의 자체 DB를 확보하고 있음 19 NUI기술기반 감성인식 기술동향
  20. 20. 얼굴인식 문제 및 해법연구 동향 문제 vs 해법연구 Illumination Pose Occlusion Optical technology Expression Multi-image based Heuristic approach approaches Single-model based Statistical approach approaches Light-modeling app Geometric roach approaches Model-based appro ach Multi-spectral imagi ng approach 조명의 차이로 인한 분류 클래스의 변위20 NUI기술기반 감성인식 기술동향
  21. 21. 페이셜코딩 응용 – 부주의 측정 요구사항  사용자의 집중도 측정 및 부주의 시에 주의를 상기시켜줄 수 있는 기능 적용분야  운전 부주의 알람 시스템  스마트러닝 교육 집중도 체크 시스템 적용기술  하이브리드 기반 단일 카메라 기반 3D 얼굴 특징 요소 인식 및 추적 기술 21 NUI기술기반 감성인식 기술동향
  22. 22. 몸짓언어 이해
  23. 23. 몸짓언어 언어와 몸짓은 둘 다 뇌의 브로카 영역에서 관장하는데, 이곳은 거울신경과 아주 가까지 위치해있다. 이러한 이유로 인해 사람들은 자신의 메세지를 정확하게 전달할 수 있는 보조적인 역할로 언어와 더불어 몸짓을 사용하게 된다. 대부분의 사람들은 몸짓언어를 애써 숨기려고 노력하지도 않거니와 몸으로 자신의 속마음을 내비치고 있다는 사실 마저 인식하지 못하므로, 몸짓은 사람의 속마음과 감정을 그대로 볼 수 있는 훌륭한 지표이다. 또한, 몸은 상대의 마음 을 이해하고 그 사람의 기분에 맞게 반응할 수 있게 도와주며 반대로 상대가 당신의 기분을 알아주고 그에 맞게 행동 할 수 있게 해준다. 몸짓은 크게 3가지 유형으로 볼 수 있다.  머리를 중심으로 나타나는 몸짓  몸통을 중심으로 나타나는 몸짓  팔과 다리를 중심으로 나타나는 몸짓 머리를 중심으로 나타나는 몸짓 몸통을 중심으로 나타나는 몸짓 23 NUI기술기반 감성인식 기술동향
  24. 24. 몸짓언어 팔과 다리를 중심으로 나타나는 몸짓24 NUI기술기반 감성인식 기술동향
  25. 25. 몸짓언어 인터랙션 몸짓언어도 얼굴언어와 같이 하나의 순간에서의 의 미를 가지기도 하지만 하나의 의미를 표현하기 위 해 다양한 동작이 연쇄적으로 일어나는 경우들이 일반적이다. 한 사람의 몸짓이 다른 사람의 몸짓과 인터랙티브 하게 일어나는 경우들이 발생하고 이런 경우 몸짓 은 다른 의미를 가지게 된다. 동영상기반 제스쳐인식 기술 필요 25 NUI기술기반 감성인식 기술동향
  26. 26. 제스처 인식 기술 - 키넥트 마이크로소프트사에서 나탈(Natal)이라는 프로젝트명으로 진행되어왔던 프로젝트가 2010년 말에 키넥트(Kinect)라 는 이름으로 발표된 NUI 기술중 제스처인식을 기반으로 한 대표적인 기술이다. 영상기반의 NUI 디바이스 중. 현재 가격대비 가장 높은 성능의 NUI 디바이스로 인정받고 있으며, 현재까지 가장 짧은 시기에 많은 수의 판매를 해 기네스북에 올라있으며 사람의 동작이 관련된 다양한 응용분야를 만들어내고 있다. 정식 PC용 SDK가 오픈되었으며, 그 이전에는 해커그룹들에 의해 다양한 드라이버와 응용 어플리케이션이 개발되어 공개되었다. 내년 상반기에는 MS의 Direct 3D의 UI의 핵심기능으로 탑재되어 다양한 분야에서 쉽게 활용할 수 있는 환경으로 나타날 것이 예측되고 있다. 구성요소 26 NUI기술기반 감성인식 기술동향
  27. 27. 키넥트 내부구조 4 채널 마이크로폰27 NUI기술기반 감성인식 기술동향
  28. 28. 키넥트 내부구조 키넥트는 적외선, RGB, 깊이(Depth) 등의 세 가지 센서를 통해서 사람을 정확하게 관절로 인식하고 마이크로폰을 이 용해서 음성인식이 가능하다. 키넥트는 부가적으로는 사람을 잘 인식하기 위해서 받침대와 목사이의 관절에 모터가 설치되어 있어서 사람을 찾아 서 시선을 조정하는 기능을 제공.한다. 추적을 위한 모토가 장착된 받침 구조 2개의 3D Depth 센서와 1개의 RGB 카메라 28 NUI기술기반 감성인식 기술동향
  29. 29. 키넥트 사양 센서 (Sensor)  색상과 동작의 깊이를 인식할 수 있는: 센서 렌즈 (Colour and depth-sensing lenses)  목소리 입력을 위한 마이크 어레이 (Voice microphone array)  센서 조정을 위한 기울기 모터 (Tilt motor for sensor adjustment) 센서렌즈의 시야 범위 (Field of View)좌우 시야각 57도 (Horizontal field of view: 57 degrees)  상하 시야각 43도 (Vertical field of view: 43 degrees)  물리적 기울기 각 ±27도 (Physical tilt range: ± 27 degrees)  동작의 깊이 인식 범위 1.2m - 3.5m (Depth sensor range: 1.2m - 3.5m) 데이터 전송 (Data Streams)  320x240 16-bit depth at 30FPS  640x480 32-bit colour at 30FPS  16-bit audio @ 16 kHz 관절 추적 시스템 (Skeletal Tracking System)  2명의 활동적인 플레이어를 포함하여 최대 6명 인식 (Tracks up to 6 people, including 2 active players)  한 플레이어 당 20개의 관절 인식 (Tracks 20 joints per active player)  X박스 라이브 아바타에 플레이어를 매핑하여 표시 (Ability to map active players to Xbox LIVE Avatars) 오디오 시스템 (Audio System)  게임 중 X박스 라이브 음성 채팅, 단 X박스 골드회원 만 지원 (Xbox LIVE party chat and in-game voice chat (requires Xbox LIVE Gold Membership))  음성 인식 향상을 위한 에코발생 제거 시스템 (Echo cancellation system enhances voice input)  다양한 언어의 음성 인식 (Speech recognition in multiple languages) 29 NUI기술기반 감성인식 기술동향
  30. 30. 키넥트 센서의 마이크로폰 어레이 1 3 4 cable connector enables the Xbox 360 to conduct acoustic source localization and ambient noise suppression, allowing for things such as headset-free party chat over Xbox Live. features four microphone capsules(left: 1, right:3), and operates with each channel processing 16-bit audio at a sampling rate of 16 kHz.※ echo cancellation 기능 지원 여부는 불명확한 상태이다.30 NUI기술기반 감성인식 기술동향
  31. 31. 키넥트 깊이정보 획득 원리 3개의 카메라 렌즈 중 하나가 적외선 조명기로 먼저 적외선 조명기에서 적외선을 방출합니다. 이 적외선카메라로 보 면 크레모아 터지듯이 무수히 많은 점들이 보이게 된다. 적외선 조명기에서 송출된 무수히 많은 점들이 물체에 반사되는 적외선을 다른 CMOS 카메라가 인식하고, 3D 심도 (Depth)를 인식해서 계산합니다. 적외선 카메라의 사용으로 조명이 약한 야간에도 어느 정도 인식이 되는 겁니다. 즉, 키넥트의 기본 원리는 액티브 레이더라고 할 수 있습니다. 계산량을 고려하여 320x240 크기로 입력 받는다. 나머지 컬러 이미지 카메라에서 인식된 색과 위의 정보를 모두 모아서 스켈레톤 형태로 동작을 처리하는 방식으로 사용된다. 31 NUI기술기반 감성인식 기술동향
  32. 32. 적외선 조명기의 적외선 패턴 http://www.ros.org/wiki/ 32 NUI기술기반 감성인식 기술동향
  33. 33. 깊이 정보 계산 http://nuit-blanche.blogspot.com/2010/11/unsing-kinect-for-compressive-sensing.html 33 NUI기술기반 감성인식 기술동향
  34. 34. 깊이 맵 http://www.insidekinect.com/ 34 NUI기술기반 감성인식 기술동향
  35. 35. 키넥트의 PrimeSense 솔루션35 NUI기술기반 감성인식 기술동향
  36. 36. 키넥트 깊이정보 획득 원리 카메라 센서들과 깊이계산을 위한 하드웨어 연결구조 36 NUI기술기반 감성인식 기술동향
  37. 37. 키넥트 SDK 키넥트 SDK에서 제공되고 있는 라이브러리에서 인체 구조를 인식하고 제스츄어를 분석하는 등의 기능을 하는 부분 이 NUI Library 이다. NUI Library는 키넥트에서 전송되어서 오는 이미지와 Depth 그리고 오디오 정보를 취합해서 애 플리케이션에서 활용할 수 있는 정보로 전환하는 기능을 가지고 있는 핵심 요소이다. 좀 더 세부적으로 들어가면 다 음과 같은 아키텍처로 정리되어 있다. 키넥트 하드웨어는 USB 기반의 기술로 PC와 연결되며 커널 모드 드라이버로 작성된 키넥트 드라이버가 하단에 자리 잡고 있다. 그 위에 카메라와 오디오 스텍이 있고 그 위에 최상위 추상화 레벨에서 NUI API와 오디오/비디오 컴퍼넌트 가 자리 잡고 있는 형태이다. 37 NUI기술기반 감성인식 기술동향
  38. 38. 키넥트 SDK NUI Skeleton Tracking  NUI Library에서 제공되는 API중에서 NUI Skeleton API가 있는데 이는 키넥트 앞에 있는 사람을 최대 2명까지 뼈대로 인식해 낸다. 단순히 인식한다고 하면 사람의 형체만 인식하는 것처럼 보일 수 있지만 다시 이야기 하면 사람의 각 부분을 정확하 게 인식해 낸다.  NUI Skeleton API는 사람의 주요 부위를 20개로 인식하고 각 부분별로 명칭이 정해져 있다. 여기서 나오는 정보를 기반으로 애 플 리 케 이 션 에 서 다 양 한 반 응 을 만 들 어 네 게 되 는 데 뼈 대 에 관 한 정 보 를 찾 아 내 기 위 해 서 는 C++ 에 서 는 NuiSkeletonGetNextFrame을 사용할 수 있고 C#등에서는 SkeletonEngine.GetNextFrame을 사용해서 각 부분의 상태를 확인 할 수 있다. 38 NUI기술기반 감성인식 기술동향
  39. 39. 키넥트 동작과정 카메라 센서 입력 사양  30 Hz frame rate  57 deg FOV(field-of-view) 8비트 VGA RGB 영상 11비트 모노크롬 영상 640x480 320x240 39 NUI기술기반 감성인식 기술동향
  40. 40. 키넥트 동작과정 키넥트 입력에서 인식까지의 과정 배경 기반으로 깊이맵 계산 각 사람분리 신체연결부위 (joint) 신체 각 부위 식별 골격 생성 인지 40 NUI기술기반 감성인식 기술동향
  41. 41. 키넥트 동작과정 확인된 모든 신체 부위의 3D 위치를 분석한다. 컬렉션((position, confidence) 을 생성한다. 각 신체 부분에 대한 다중 옵션을 생성한다. 작업은 CPU에 의해 수행한다 . 3모델을 기반으로 ‘ 골격(skeleton)’을 생성한다. 다음 과정으로 진행된다.  (신체 길이와 관련된…) 연결된 포인트의 거리를 계산한다.  신체의 뼈 구조 부분과 근접한 위치를 계산한다.  Smoothness를 적용하여 응용 가능한 표준형태를 만든다. 41 NUI기술기반 감성인식 기술동향
  42. 42. 공간언어 이해
  43. 43. 공간언어의 개념 누구나 자기를 중심으로 한 어느 정도의 공간을 자신의 영역으로 생각하는데 전문가들은 이 영역을 개인공간이라고 부른다. 팔 길이 정도의 공간을 개인 공간으로 여기는 사람도 있고, 그 반 정도의 공간에 만족하는 사람도 있다. 개인 공간에 대한 생각은 어디에서 나고 어디에서 자랐는지에 따라 각기 다르며, 심지어는 자랄 때 부모와 아이와 함께 얼 마나 놀아주었는지에 따라서도 사람마다 크게 다르다. 각 개인이 선호하는 개인 공간을 정의하기까지는 신체 접촉을 좋아하느냐 않느냐를 포함하여 많은 요소가 영향을 미 친다. 문제는 처음으로 만난 사람의 경우, 그들이 어느 정도의 개인공간을 선호하는지 알 수 없기 때문에 감성적인 측 면에서 CCTV를 이용한 개인공간에 대한 연구가 진행되고 있다. 여러 가지 신체언어 중에서도 공간과 접촉을 이용한 신체언어는 새로운 관계를 형성하고, 또 그 관계를 정의하는데 가장 큰 영향을 끼친다. 가장 가까운 측근은 누구이며, 그렇지 않은 사람은 누구인가, 또 가까이 다가와도 좋은 사람은 누구이고, 어느 정도 거리를 허락할 것인가를 결정짓는 것이 공간과 접촉의 신체언어이기 때문이다. 공간과 접촉의 규칙은 때와 장소, 그리고 상호 관계등 여러 가지 복잡한 요소에 따라 달라진다. 이 때문에 일정한 패 턴을 알기전까지는 정확히 어떤 것을 기준으로 규칙이 형성되는지 이해하기 힘들다. 공간과 접촉의 핵심적인 원칙은 인간은 자신의 영역을 지키려는 강한 욕구를 가지고 있으면서도 동시에 타인과의 신 체적 접촉에 굶주리는 존재라는 사실이다. 사람의 이런 모순적인 욕구 때문에 공간과 접촉은 땔 수 없는 관계로 하나 의 연속체를 이룬다. 사람은 이 연속체 속에서 밀고 당기기를 한다. 43 NUI기술기반 감성인식 기술동향
  44. 44. 공간언어에서 4가지 공간 4가지 공간의 정의  공적공간의 범위  홀은 가장 바깥쪽 공간을 공적거리라 한다. 이 영역은 360cm 또는 그 이상을 넘는 공간으로, 이 영역에서 이루어지는 사회적 관계의 대표적인 예로는 대규모 집회의 연설가와 청중 또는 콘서트에서의 연주가와의 관계를 들 수 있겠다. 일반적으로 정 치인과 유명인들은 몰려드는 다수의 대중들과 이 정도의 거리를 유지한다. 한 마디로 이 영역은 쌍방이 서로 바리 볼 수는 있 지만 서로를 만지거나 신체적 접촉을 할 수 는 없을 만큼의 거리로 유지된다.  사회적공간의 범위  사회적 영역의 범위는 다른 사람과의 사이에 유지되는 대략 120-360cm 정도의 거리이다. 해변가에 아무리 많은 사람들이 북 적인다 해도, 다른 사람이 자신의 영역 표시를 하기 위해 돗자리를 깔아 놓은 곳에 발을 들여 놓은 사람은 없다는 점에서 ‘해 변의 돗자리 영역’ 정도로 생각하면 되겠다. 사업상 회의를 하는 경우라면, 사업 파트너와 협상을 할 때 탁자를 가운데두고 이 정도의 거리를 유지하면 된다.  개인적 공간의 범위  개인적 공간이라고 하면 60-120cm의 거리를 말한다. 이 공간은 가족을 비롯하여 가장 가깝고 친근한 사람들에게만 허용하는 거리이기 때문에, 이것을 ‘우정의 영역’ 이라고 한다. 이 공간은 팔을 뻗어 닿을 수 있을 만큼 가까운 거리이며, ‘칵테일 파티 영역’이라고도 하는데, 파티 장소에서 음악이 너무 시끄러워 상대가 말하는 것을 듣기위해 바짝 다가가야 할 정도로 가깝다 는 의미에서 비롯된 말이다.  친밀공간의 범위  친밀공간은 신체접촉이 가능한 거리이다. 약 60cm 정도 거리인 이 공간에서는 상대와 신체적인 접촉이 쉽게 이루어진다. 그 러므로 이 공간은 가장 가깝고 친밀한 친구나 자녀, 배우자 등과 같이 중요한 의미를 갖는 몇몇 이들에게만 제한적으로 어용 되는 공간이다. 또한, 명확한 선을 긋거나 경계해야 할 필요가 없을 만큼 친밀하다고 느끼는 사람에게 신뢰감과 친밀감을 표 시하기 위해 이 공간을 의미하기도 한다. 간단히 말하면 이 공간은 당신의 내면을 보여줄 수 있는 사람들만을 위한 공간이라 고 할 수 있다. 44 NUI기술기반 감성인식 기술동향
  45. 45. 공간언어에서 사회적공간언어의 예 사회적공간의 범위의 예 협력을 위한 최적의 자리배치 경쟁 또는 대면을 위한 최적의 자리배치 대화와 설득, 유혹하기 최적의 자리배치 동등한 위치에서 협력할 때 가장 좋은 자리 코치스타일 지도자를 위한 눈에 뛰기 좋거나 숨기에 좋은 자리 권위있는 지도자를 위한 최적의 자리 최적의 자리 45 NUI기술기반 감성인식 기술동향
  46. 46. 공간언어의 응용 – 트래픽 측정 요구사항  매장에서 사람들이 주로 다니는 동선 측정 및 매대의 위치에 따른 트래픽 변화 측정 적용기술  전방향 카메라 기반 휴먼 추적 및 트래픽 측정 기술 46 NUI기술기반 감성인식 기술동향
  47. 47. 소리언어 이해
  48. 48. 소리언어의 개념 사람의 감정이 얼굴언어에서 7가지 기본감정 요소로 나타나는 것과 같이 소리언어에 있어서도 7가지 감정이 목소리 에서 그대로 드러난다. 사람의 목소리는 자신에 대한 정보를 놀라울 정도로 많이 담고 있다. 목소리의 톤과 크기, 말의 속도, 유창성, 언어 그 자체를 뺀 나머지 목소리 신호로 구성된 준언어는 전달되는 메시지의 약 40%를 차지한다. 다시 말하면, 상대가 말하 는 것을 듣기만해도, 우리는 상대의 성격, 학력, 지위등 상대에 대한 많은 것을 즉각 알 수 있다는 뜻이다. 심지어 목소 리만으로 상대의 체구까지도 알 수 있다. 목소리는 말하는 사람이 얼마나 많은 영향력을 가지고 있는지, 그리고 자신이 전하고자 하는 메시지를 얼마나 호소 력 있게 전달하는 지를 판단할 수 있는 중요한 단서가 된다. 이러한 이유로 인해 사람들은 상대의 말을 들을 때 단지 그가 말하는 내용뿐만이 아니라 그 내용의 진실성을 판단하기 위해 그의 목소리에도 주의를 기울인다. 실제 실험결 과에서도 목소리만으로 진실인지 거짓인지를 판단할 수 있다는 주장을 뒷받침해주고 있다. 실험에 따르면 범죄자의 자백이 담긴 녹음내용을 비디오를 보면서 듣는 것보다, 오디오만 들을 때 거짓말을 훨씬 쉽게 파악할 수 있다고 한다. 그 이유는 비디오를 함께 볼 경우는 차림새나 제스처, 다른 시각적 신체언어에 주의력이 흩어져 잘못된 판단을 할 수 있는 반면, 목소리는 스스로 조작하기가 어려워 진심을 누설하는 작용을 하기 때문에, 상대의 진심을 알아 낼 수 있는 중요한 단서가 된다고 한다. 비언어적 단서를 사용하는 또 다른 방식은 말을 할 때 전문가들이 ‘메타메시지(Metamessage)’라고 이름 붙인 방법을 활용하는 것이다. ‘메타메시지’란 언어속에 숨겨져 있는 메시지를 말한다. 사람은 어떤 말을 하면서 특정 단어만을 강 조함으로써 같은 말이라도 완전히 다른 내용을 전달할 수 있다. 마치 개그콘서트에 나오는 ‘불편한 진실’이라는 코너 와 같다고 볼 수 있다. 말을 제외하고도 웃음이나, 한숨, 투덜거림, 그리고 말이 아닌 다른 여러가지 소리등 상대의 감정을 나눌 수 있는 비언 어적 수단은 많다. 또한, 이러한 비언어적 표현은 거울 체계를 통해 의사소통의 한 수단으로서 작용하게 된다. 전문가 들은 다른 사람의 웃음소리를 들을 때 우리 뇌의 특정부분 즉, 얼굴표정과 관련된 부분이 활성화된다는 사실을 밝혀 냈다. 이것은 단지 소리만을 듣고도 거울 체계(다른 사람의 행동을 마치 자신이 한 것처럼 "거울처럼 반영한다 (mirror)" )가 반응한다는 사실을 보여준다. 48 NUI기술기반 감성인식 기술동향
  49. 49. 소리언어의 이해 7가지 감정에 따라 변하는 목소리 (소리로 느끼는 감정의 변화)  슬픔  목소리의 톤의 평소보다 낮아지고 말하는 속도 또한 느려진다.  놀람  목소리 톤과 목소리 크기도 높아지고 말의 속도도 빨라진다.  두려움  목소리의 크기는 낮아지지만 톤은 높아지고 말하는 속도도 빨라진다.  분노  톤이 높아지고 목소리의 크기가 커진다. 말의 속도 역시 빨라진다.  분노가 최고조로 달하는 순간에는 톤이 낮아지고 말하는 속도도 느려진다.  혐오  목소리의 톤, 크기는 낮아지고, 속도는 느려진다.  행복  목소리의 톤, 크기, 말하는 속도 모두 빨라진다.  경멸  목소리의 톤, 크기, 말의 속도가 모두 낮아진다. 음성 신호의 피치, 주파수, 볼륨 레벨 등을 이용하여 자동 측정 개발 가능 49 NUI기술기반 감성인식 기술동향
  50. 50. 목소리에 숨겨진 의미 높낮이  낮은 목소리가 나타내는 신호 : 우월함을 나타내거나 우울함이나 분노를 나타낸다.  높은 목소리가 나타내는 신호 : 불안하거나 기쁘다. 목소리 크기  작은 목소리가 나타내는 신호 : 불안하고 수줍어하며 권한이 별로 없다.  높은 목소리가 나타내는 신호 : 영향력이 대단하며 외향적인 성격이다. 발화의 속도  느린 말투가 나타내는 신호 : 내성적이고 불안정하며 의기소침하다.  빠른 말투가 나타내는 신호 : 외향적이며 설득력이 있다. 유창성  말을 더듬는 행동이 나타내는 신호 : 영향력 없고 불안정하며 설득력이 없다.  유창한 말솜씨가 나타내는 신호 : 외향적이고 능력이 있으며 설득력도 있다. 대화시간  말이 없는 사람들이 나타내는 신호 : 생각이 깊고 소심하며 불안정하다.  말이 많은 사람이 나타내는 신호 : 유쾌하고 자기중심적이며 자아도취적이다. 대화 주고받기  침묵으로 일관하는 사람이 나타내는 신호 : 내성적이며 불안정하고 사회성이 부족하다.  상대의 말에 빨리 반응하는 사람이 나타내는 신호 : 외향적이고 공격적이며 성급하다. 발음의 정확성  발음의 부정확성이 보내는 신호 : 지식수준이 낮고 신뢰할 수 없다.  정확한 발음이 보내는 신호 : 지적이고 사회적 지위가 있는 사람으로 달변가이다. 50 NUI기술기반 감성인식 기술동향
  51. 51. 감사합니다.51 NUI기술기반 감성인식 기술동향

×