비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례

11,744 views

Published on

빅데이터 시스템 구축에 기본적으로 필요한 비정형 데이터를 정형데이터로 정제하기 위한 기술에 대한 기술동향 및 사례

2 Comments
66 Likes
Statistics
Notes
No Downloads
Views
Total views
11,744
On SlideShare
0
From Embeds
0
Number of Embeds
216
Actions
Shares
0
Downloads
0
Comments
2
Likes
66
Embeds 0
No embeds

No notes for slide

비정형 데이터를 기반으로 한 빅데이터 필요기술 및 적용사례

  1. 1. 비정형 데이터를 기반으로 한빅데이터 시스템 필요기술 및 적용사례경희대학교 이정헌
  2. 2. 빅데이터 특성
  3. 3. 빅데이터를 보는 시각 IBM 조사 보기 중에서 응답자들이 생각하는 빅 데이터의 정의를 최대 두 가지씩 선택하도록 하였으며 나머지 보기는 생략됨. 응답 비율은 총 합이100%가 되도록 표준화. 총 응답자 수 = 1,144명.3
  4. 4. 빅 데이터의 4가지 차원 (정확성) 정확성 어떤 데이터들은 본질적으로 불확실함. 예를 들어 인간의 감정이나 진실성, 맨해튼의 고층 건물 사이에서 일어나는 GPS센서의 반사, 날씨, 경제 요인, 그리고 미래 등이 그렇다. 이런 종류의 데이터들을 처리할 때는 아무리 철저한 데이터 정제를실시해도 불확실성을 제거할 수 없음. 그러나 불확실성에도 불구하고 이런 데이터들은 가치 있는 정보를 포함하고 있으며,이런 불확실성을 인지하고 수용해야 하는 것이 바로 빅 데이터의 중요한 특징. 소셜 네트워크 같은 인간 환경에서 생산되는데이터는 신뢰하기가 어렵고, 미래는 예측하기가 어려우며, 사람과 자연, 보이지 않는 시장의 힘 등이 자신들을 둘러싼 가변적인 환경에 어떤 반응을 보일지도 전혀 모름. 이런 불확실성의 예가 바로 에너지 생산 문제. 날씨는 불확실한데 전력 회사는 에너지 생산량을 예측해야 함. 많은 국가의 규제 기관들이 일정 비율의 에너지를 재생 가능한 원천에서 생산하라고 요구함. 바람도 구름도 정확한 예측이 불가능한데, 어떻게 생산 계획을 세울 수 있을까? 불확실성을 관리하기 위하여 분석가들은데이터를 둘러싼 상황정보 (Context)를 만들어내야 함. 이를 위해 사용하는 방법 중 하나가 신뢰도가 낮은 다양한 소스를조합하여 보다 정확하고 유용한 데이터 포인트를 만들어내는 데이터 융합(data fusion)이라는 방법임. 소셜 미디어의 댓글에 특정 공간 정보를 추가하는 등의 방법이 그것. 불확실성을 관리하는 또 다른 방법은 최적화 기법이나 퍼지논리 기법과같은 고급 수학을 이용하는 것.4
  5. 5. 빅 데이터의 종류 IBM 조사 빅 데이터 활용을 위해 현재 수집 및 분석 중인 데이터 소스. 각 데이터 포인트는 독립적으로 수집됨. 각 데이터 포인트에대한 총 응답자 수는 557명부터 867명 사이.5
  6. 6. 비정형 데이터의 정형화
  7. 7. 비정형 데이터의 정형화▶ 기존의 정형 데이터도 시간 열과 관계성을 추가되게 되면 비정형화 되는 특징을 가짐.7
  8. 8. 비정형 데이터의 정형화 핵심 : 마이닝 숨겨진 정보를 채굴하는 기술 - 마이닝 현실 마이닝 : 2008년 미래 유망기술로 MIT MediaLab에서 발표한 개념임. [오디오 마이닝] 컴퓨터 음성파일에서 단어를 추출하여 색인을 만든 후, 특정 단어나 어구를 검색할 때 이를 사용하는 프로세스 [비디오 마이닝] 매장에 비디오 카메라를 설치해 놓고 방문객들의 행태를 분석하여 구매에 연결하는 마케팅 기법. 비디오카메라를 통해 고객들이 어떤 과정을 거쳐 물건을 구매하게 되는 지를 면밀히 모니터링해 이들의 성별, 나이에 따라 특성을분석,8
  9. 9. 마이닝에 필요한 기반 기술9
  10. 10. 마이닝에 필요한 기반 기술10
  11. 11. 빅 데이터 분석 역량 IBM 조사 빅 데이터를 활용 중인 기업들이 이용하는 분석 기능. 각 데이터 포인트는 독립적으로 수집됨. 각 데이터 포인트에 대한 총 응답자 수는 508명부터 870명 사이.11
  12. 12. 빅 데이터 처리 기본 프로세스12
  13. 13. 마이닝에서의 정형화
  14. 14. [텍스트 마이닝 ] 기본 과정 Process14
  15. 15. [텍스트 마이닝] Parsing15
  16. 16. [텍스트 마이닝] Weight16
  17. 17. [텍스트 마이닝] Weight17
  18. 18. [텍스트 마이닝] Weight18
  19. 19. [텍스트 마이닝] Weighted term-document frequency matrix19
  20. 20. [텍스트 마이닝] Transform20
  21. 21. [텍스트 마이닝] Transform21
  22. 22. [텍스트 마이닝] Transform22
  23. 23. [텍스트 마이닝] Transform23
  24. 24. [텍스트 마이닝] 군집분석24
  25. 25. [텍스트 마이닝] 군집분석25
  26. 26. [이미지 마이닝] 기초 기술26
  27. 27. [이미지 마이닝] 페이셜코딩27 페이셜 코딩의 역사 사람의 표정은 타고나는 것이며, 얼굴이 감정을 타인에게 전달하는데 사용되는 중요한 수단이라는 사실이 밝혀졌다. 찰스 다윈, 1872 7년동안 모은 얼굴 표정자료를 기초로 사람은 43개의 안면근육과 이러한 근육들이 움직여 다양한 방식으로 조합되면 23개의 핵심 움직임 단위(Action Unit, AU)가만들어지고, 이 움직임 단위들은 감정과 관련된 모든 표정의 가장 기본적인 요소가된다는 것이 밝혀졌다. 캘리포니아 대학의 폴 에크먼과 의과대학의 윌리프리즌, 2003 에크먼의 FACS 시스템을 이용하여 기업의 행동에 대한 소비자와 직원들의 실제감정 반응을 파악해주고 기업이 그에 따라 계획을 수립할 수 있게 도와주는 페이셜코딩을 비즈니스 세계에 접목하기 시작했다. 센서리로직, 2007 페이셜 코딩의 신뢰성 “인간은 지구상의 어떤 동물보다도 많은 안면 근육을 가지고 있다. 이 사실만으로도 얼굴은 수많은 데이터를 얻어 낼 수 있는 정보의 보고다.” 애크먼과 프리즌, 2003 “얼굴인 신체에서 근육이 직접 피부에 붙어있는 유일한 부분이다. 이 때문에 얼굴은 대단히 쉽게 움직이며, 피부는 두뇌에서 오는 자극에 빠르게 반응하여 자신의모양을 바꾼다. 따라서, 얼굴은 감정을 무의식적으로 가장 잘 나타내는 창이다.” 맥닐(McNeill), 1998 “얼굴 근육의 풍부한 움직임은 페이셜 코딩의 기본 토대이자 근거다. 두뇌가 감정적인 자극을 발생시킬 때마다, 이 자극은 모든 안면 근육과 표정을 통제하는 안면신경을 통해 얼굴로 전달된다.” - 댄 힐(Dan Hill), 2011
  28. 28. [이미지 마이닝] 페이셜코딩 핵심감정28 표정 패턴 표정은 그것이 형성되고 최고조에 이르렀다가 사라지는 형태로 존재한다. 일반적으로 표정이 지속되는 시간은 0.5초에서4초 사이이며, 근육 움직임의 지속시간 및 유형, 강도를 모두 종합하여 특정 감정의 강도를 측정하는 기준으로 삼는다. 감정은 하나의 패턴으로 유지되지 않으며, 어떠한 이벤트에도 복합적인 감정의 흐름이 단계적 변화와 혼재되어 나타난다. 7가지 핵심감정 행복(긍정적), 놀라움(중립적), 두려움, 분노, 슬픔, 협오감, 경멸감(부정적)놀라움 두려움 분노 슬픔 협오감 경멸감 행복(진짜미소) 행복(사회적미소)눈이 커진다.눈썹이 올라간다.입이 벌어진다.눈썹이 올라가고미간이 좁아진다.눈이 커진다.턱 주변 근육이 긴장된다.입술이 가로 방향으로 당겨진다.턱이 벌어진다.눈썹 끝이 내려가고 미간이 찌푸려진다.눈이 가늘어진다.입술을 힘주어 오므린다.이마 중간에 주름이 생긴다.눈썹의 바깥쪽은처지고 안쪽은 약간 올라간다.눈가에 주름이 생긴다.코와 윗입술 주변의 팔자 주름이 깊어진다.입술 양끝이 처지거나, 거꾸로 된 미소모양이 나타난다.코끝이 올라가고주름이 생긴다.윗입술이 올라가고 떄로 거꾸로 된미소모양이 약간나타난다.아랫입술이 처진다.입의 한쪽끝이 올라가면서 비웃는듯한 분위기와 함께 얼굴의 반쪽만표정이 바뀐다.윗입술이 올라간다.눈이 약간 감기거나 시선을 돌리기도 한다.눈 바깥쪽 피부에새발 모양의 주름이 생긴다.눈꺼풀의 긴장이풀어지면서 약간처지고, 눈아래 피부가 위쪽으로 당겨진다.입꼬리가 크게 올라가고 빰도 위쪽으로 당겨진다.입꼬리와 뺨의 근육이 올라가면서얼굴이 전체적으로 동그래진다.반면 눈가 근육은움직이지 않고 눈동자에도 밝은 기운이 감돌지 않는다.동영상기반 얼굴인식 및 추적기술 필요
  29. 29. [이미지 마이닝] 페이셜코딩 감정의 다양성29 7가지 핵심감정(기본감정)이 결합되면 24개의 2차 감정이 생성된다. 내향적 감정 해당 감정을 느끼는 사람에 의해서 유발되는 감정 또는 내면으로 향하는 감정을 말한다. 일반적으로 이러한 감정은 자존심과 관련되거나, 또는 우리가 갖는 기대치를 토대로 상황변화에 대한 우리의 감정을 내면화하는 방식과 관련된다. 외향정 감정 외부 요인에 의해 유발되거나 또는 감정의 에너지나 그것이 일으키는 행동이 자신이 아닌 다른 누군가를 향한다. 자신의 상태 및 위치에 대한 관심, 다른 사람들의 상황이나 행운등(특히 그것이 우리의 목표실현과 관련되어 있는 경우)이외향적인 감정을 일으키는 경향이 있다.
  30. 30. [이미지 마이닝] 페이셜코딩 분석30 페이셜 코딩 데이터를 분석하는데 가장 중요한 데이터는 청중이 주의를 기울이느냐의 여부이다. 그 이유는 상업적인 측면에서 사용자들에게 감정적 반응을유발함으로써 주의를 일깨우지 않는다면 소비자들을설득할 수 없기 때문이다. 특정 자극에 반응할 때, „그리고/또는‟ 질문에 답변할때 최소한 한가지 이상의 AU나 정확한 감정을 얼굴에나타낸 참가자들의 퍼센티지를 조사함으로써 감정적반응도를 파악한다. 사람들이 감정적으로 반응하는지 여부를 알아냈다면,그 다음엔 반응의 종류를 파악해야 한다. 페이셜 코딩을 이용해 기업은 긍정반응이 우세한지 부정 반응이우세한지 판별할 수 있게 된다. 사람들이 자극에 대한 정확한 반응을 나타내지 못하는 경우도 많기 때문에 페이셜 코딩과 함께 안구 운동추적 방법을 병행 사용한다. 안구 운동 추적 방법은사람들이 보고 있는 지점, 그들이 집중하는 지점을 알아내 기록하는 것을 말한다. 감정 반응과 시각적 집중을 동시에 파악하는 것은 사람들의 반응을 유발하는 요인을 이해하기 위해 효과적인 방법이다.
  31. 31. [이미지 마이닝] 얼굴검출 기술동향 얼굴 검출 기술은 얼굴인식 이전에 실행되어야 하는 과정으로 영상에서 얼굴이 있는곳을 찾아내는 기술이다. 일반적으로 사람의 얼굴은 조명, 사람의 얼굴이 응시하는 방향과 각도, 표정, 카메라와 사람 간 거리에따른 얼굴의 크기, 배경과 얼굴의 색상 차이등과 같이 환경적인 조건에 따라 민감한 반응을 하기 때문에, 영상으로부터의 얼굴 검출 및 얼굴 인식에 관한 연구는 실제 많은 어려움을 포함하고 있다.얼굴검출지식기반규칙기반특징기반얼굴특징텍스쳐피부색다양한 얼굴특징템플릿매칭기반사전정의 얼굴템플릿변형하는 템플릿외형기반Eigenface분산기반Neural NetworkSVM(Support VectorMachines)Naïve BayesClassifierHidden MarkovModelInformation-Theoretical Approach31
  32. 32. [이미지 마이닝] 얼굴추적 및 특징추출 기술동향 얼굴영역이 검출되면 검출된 영역을 추적하면서 얼굴인식에 사용할 특징값들을 추출하는 과정이 진행된다. 이과정에서 사용하는알고리즘에 따라 뒤에 얼굴인식 알고리즘에 영향을 미치게 되며,특징값을 선택하는 알고리즘의 종류들도 바뀌게 된다.특징값 추출 과정얼굴검출 및 추적 과정32
  33. 33. 이미지 마이닝 사례 : 얼굴특징 추출 및 특징선택 기술 동향 얼굴인식에 사용되는 가장 작은 단위의 분류에 오류를 일으킬 수 있는 영향을 줄 수 있는 특징 값중에서 부분세트를 선택하는 것이 목적으로 사용되는것이 바로 특징값 선택과정이다.특징값 선택 과정33
  34. 34. [이미지 마이닝] 얼굴인식 기술동향 얼굴인식 기술은 크게 3가지 유형으로 분류 할 수 있으며, 하이브리드 방법을 이용한 연구들이 많이 진행되고 있다.하이브리드 방법에서는 위치 특성과 더불어 하나의 얼굴을 인식하기 위하여 얼굴 전체 영역을 사용하기 때문에 매우복잡하지만 인식률은 전체론적인 매칭 방법과 특징 기반의 매칭 방법들에 비하여 월등히 우수하다.얼굴인식전체론적 방법PCA(Eigenface)LDA(Fisherface)ICATensorfacesPDBNN특징기반 방법Pure GeometryMethodsDynamic LinkArchitectureHidden MarkovModel하이브리드 방법LFAShape-NormalizedComponent-basedPCA기반 얼굴학습 단계PCA기반 얼굴인식 단계34
  35. 35. [이미지 마이닝] 얼굴인식 기술동향 (주요기술) 기하학적 방법 특징 : 얼굴의 기하학적 특징점을 추출하여 일치여부를 판단하여 인식 성능 : 얼굴은 3차원이고 회전이 가능하기 때문에 적용에 한계가 있다. Eigenfaces 특징 : 특징점 추출로 PCA(Principal Component Analysis)를 적용하고 유사도 측정으로 Euclidean 거리 적용. 성능 : 조명이나 환경변화에 민감하게 반응하지만 널리 사용되고 있어 그 성능이 검증된 대표적인 얼굴인식 방법. Fisherfaces 특징 : FLD(Fisher Linear Discriminant) 분류 알고리즘으로 적용한 얼굴인식 방법. 성능 : 사람 개개인의 특성을 학습함으로써 보다 정확하고 환경변화에 둔감한 특성을 지니고 있어 on-line 상태에서 실시간으로 적용 가능한 알고리즘. SVM( Support Vector Machine)에 기초한 방법 특징 : PCA와 SVM(Support Vector Machine)알고리즘을 사용한 알고리즘. 성능 : 비교적 높은 인식률을 높이지만 얼굴인식과 같은 멀티 클래스에 적용하기에는 시간과 메모리가 많이 소모되는 알고리즘이지만 현재 연구되는 얼굴인식 알고리즘의 대표적인 알고리즘임 신경회로망 특징 : 흑백의 정지영상에서 슬라이딩 윈도우를 이용해 학습된 얼굴모양을 검색 성능 : 두 개 이상의 다수 얼굴의 추출도 가능하나 속도가 느리며 학습이 어려움. 퍼지 + 신경회로망 특징 : 신경회로망회로의 입력으로 픽셀의 밝기 값 대신 퍼지 소속함수를 사용 성능 : 신경회로망만을 이용한 방법보다 성능은 향상되나 처리속도는 떨어짐. Wavelet + Elastic Matching 특징 : 주파수 변환을 사용하며, 자세 및 표정의 변화를 처리하는데 효과적. 성능 : 인식률에 비해서 연산량이 많음.35
  36. 36. [이미지 마이닝] 얼굴인식 성능평가 기준동향36 성능평가 기준 Hit ratio Error rate Computational speed. Memory usage. 성능에 영향을 주는 중요요인 Illumination / occlusion / expression /pose invariability Scalability. Adaptability (to variable input imageformats, sizes, etc.) ˆ Automatism (unsupervised processes) Portability. 성능평가에 사용하는 얼굴DB FERET Protocol XM2VTS Protocol• 실제 응용에 있어서는 인식율을좌우하는 측면에서 DB의 내용이매우 중요하며 대부분의 상용솔루션들의 자체 DB를 확보하고 있음
  37. 37. [이미지 마이닝] 얼굴인식 문제 및 해법연구 동향37조명의 차이로 인한 분류 클래스의 변위문제 vs 해법연구IlluminationHeuristic approachStatistical approachLight-modeling approachModel-based approachMulti-spectral imaging approachPoseMulti-image basedapproachesSingle-modelbased approachesGeometricapproachesOcclusion Optical technology Expression
  38. 38. [이미지 마이닝] 페이셜코딩 응용 – 부주의 측정38 요구사항 사용자의 집중도 측정 및 부주의 시에 주의를 상기시켜줄 수 있는 기능 적용분야 운전 부주의 알람 시스템 스마트러닝 교육 집중도 체크 시스템 적용기술 하이브리드 기반 단일 카메라 기반 3D 얼굴 특징 요소 인식 및 추적 기술
  39. 39. [이미지 마이닝] 시선 추적39
  40. 40. [이미지 마이닝] 시선 추적40
  41. 41. [이미지 마이닝] Visual Object Classes Challenge 2005-2012 To recognize objects from a number of visual objectclasses in realistic scenes Person : person Animal : bird, cat, cow, dog, horse, sheep Vehicle : aeroplane, bicycle, boat, bus, car,motorbike, train Indoor : bottle, chair, dining table, potted plant, sofa,tv/monitor Each person annotated has at least their head andone other body part visible. head hands feetMark Everingham (University of Leeds)Luc van Gool (ETHZ, Zurich)Chris Williams (University of Edinburgh)John Winn (Microsoft Research Cambridge)Andrew Zisserman (University of Oxford))41
  42. 42. [이미지 마이닝] Visual Object Classes Challenge 2005-2012 The images show the annotation available, consisting of bounding box and set of actions Jumping / Phoning / PlayingInstrument / Reading / RidingBike / RidingHorse / Running / TakingPhoto / UsingComputer /Walking(Visual Object Classes Challenge 2012)42
  43. 43. [오디오 마이닝] 기본 과정43
  44. 44. [오디오 마이닝] 스캔소프트 사례44
  45. 45. [비디오 마이닝] 지능형 영상 보안 기본 모델45
  46. 46. [비디오 마이닝] CCTV 영상의 종류46
  47. 47. [비디오 마이닝] 교통사고 사례 (1/2)47
  48. 48. [비디오 마이닝] 교통사고 사례 (2/2)48
  49. 49. [비디오 마이닝 ] 뉴스 사례 (1/2)49
  50. 50. [비디오 마이닝] 뉴스 사례 (2/2) “제2차 남북 정상회담” 관련 뉴스 기사의 패스파인더 네트워크 분석 결과50
  51. 51. [센서 마이닝] 매장 방문자 분석(SPA : Shopping Path Analyzer) 사례51
  52. 52. [센서 마이닝] SPA 빅데이타 분석 과정52
  53. 53. [센서 마이닝] SPA Phase #1 : RFID Data (1/2)53
  54. 54. [센서 마이닝] SPA Phase #1 : RFID Data (2/2)54
  55. 55. [센서 마이닝] SPA Phase #1 : Data preprocessing (1/2)55
  56. 56. [센서 마이닝] SPA Phase #1 : Data preprocessing (2/2)56
  57. 57. [센서 마이닝] SPA Phase #2 : Distance Indexing (1/2)57
  58. 58. [센서 마이닝] SPA Phase #2 : Distance Indexing (2/2)58
  59. 59. [센서 마이닝] SPA Phase #2 : Clustering59
  60. 60. [센서 마이닝] SPA Phase #2 : Validation (1/2)60
  61. 61. [센서 마이닝] SPA Phase #2 : Validation (2/2)61
  62. 62. [센서 마이닝] SPA Phase #3 : Path pattern Visualization (1/3)62
  63. 63. [센서 마이닝] SPA Phase #3 : Path pattern Visualization (2/3)63
  64. 64. [센서 마이닝] SPA Phase #3 : Path pattern Visualization (3/3)64
  65. 65. [센서 마이닝] SPA Phase #3 : Result Analysis (1/2)65
  66. 66. [센서 마이닝] SPA Phase #3 : Result Analysis (2/2)66
  67. 67. 감사합니다.67

×