JIGSAW: Interactive
Mobile Visual Search
with Multimodal Queries
+ MM 2011
- Yang Wang, Tao Mei, Jingdong
Wang, Houqiang L...
JIGSAW: Interactive Mobile Visual Search
with Multimodal Queries
by: Yang Wang, Tao Mei, Jingdong Wang, Houqiang Li, Shipe...
Yang Wang
Assistant Professor, Department of Computer Science of University of Manitoba
activity recognition, human pose e...
다양한 검색 방법..
Text (문자입력)
Voice (음성, 음악)
Image (바코드, 사진)
Thing (사물, 풍경)
Location (위치기반)
Background
정작 어디에 있는지조차 모르는 다양한 검색 방법...
그리고,
다양한 검색 방법..
Text (문자입력)
Voice (음성, 음악)
Image (바코드, 사진)
Thing (사물, 풍경)
Location (위치기반)
B...
PMS Persona 만드는 과정에서 부드럽고 온자한 30대 간호사 입력
대체 간호사는 어디..?
Background
정작 필요한 것은 안 보여준다..ㅠㅠ
PMS Persona 만드는 과정에서 부드럽고 온자한 30대 간호사 입력
대체 간호사는 어디..?
Background
정작 필요한 것은 안 보여준다..ㅠㅠ
원하는 그림을 쉽고 (재밌고)
무엇보다 잘
찾을 수는 없을까?
...
Mobile Visual Search
Introduction
Mobile Visual Search
Introduction
검색결과동작 Interface
JIGSAW
JIGSAW (이미지 검색어플)
Joint search ImaGe, Speech, And Words
JIGSAW
JIGSAW
Joint search ImaGe, Speech, And Words
1. 간단히 ‘동사+명사’로 이야기하면,
2. 이를 단어로 쪼개고 키워드를 추출하여,
3. DB 이미지 내 샘플 이미지 제시,...
JIGSAW
SR(Speech Recognition) 기반의
Hidden Markov Model(HMM)*을
사용해서 단어 추출
*	 HMM:	 모델링하는	 시스템이	 미지의	 모수라고	 가정하고	 관측된	 모수(출력치...
JIGSAW
Speech Recognition and Entity Extract
- 논리구조를 통해 키워드(복수 가능)를 추출하고 이를 기반으로 대표이미지 탐색
. 복합어 인식: ‘polar bear’, ‘Eiffel ...
JIGSAW
Generation of Exemplary Images &
Interactive Formulation of Composite Visual Query
- 단순 Keyword를 기반으로한 방식은 비효율적
. 장...
JIGSAW
JIGSAW
Context-aware Exemplar-based Image Search
- 지리학적인 유사성/ 시각적, 일시적 유사성
- 전반적인 유사성
Implementation & Evaluation
3가지 측면에서 실험수행 및 평가
- Device: Window Phone 7
- 100 queries + 기존 JIGSAW 중 Combination 가능성이 높은 52...
Implementation & Evaluation
1. Visual Search 평가
- 이미지 검색능력 비교
- 3가지 어플
. text 기반
. Concept Map*
. JIGSAW
- 6명의 평가자(Technic...
Implementation & Evaluation
* Concept Map
- 검색 쿼리를 캔버스 내 원하는 위치에 배열하면, 이를 고려해 이미지 검색
Implementation & Evaluation
Normalized Discounted Cumulative Gain(NDCG)
해당 검색엔진의 최적의 검색결과를 1로 보고 현재 검색결과를 비교해서 수치화 (0~1 사이...
Implementation & Evaluation
2. Subject Evaluation of Usability
2-1. Keyword 수에 따른 사용성 평가
- 12명 피실험자(여 2+ 남 10, 대학생 22~27세)...
Implementation & Evaluation
2. Subject Evaluation of Usability
2-2. 사용성 평가비교(Quantitive)
- 3가지 어플
. Google Image(Text)
. G...
Implementation & Evaluation
Google Image < Goggles < JIGSAW
참신하다! But,
아직은 살짝 생소한...?
흥미롭고,
Text 입력을 효율적으로 보완
Implementation & Evaluation
3. Complexity Analysis
- 100 개의 랜덤 query가 검색되는 시간 계산
키워드 수가 늘어날수록 체크하는 이미지가 많아져서 반응시간이 늘어남
(당연...
Conclusion
말하고, 키워드 뽑고, 자체 필터링 해서,
... 더 정확한 그림을 찾는다!
모바일 음성인식 기반의 Multi-modal, Multi-touch를 활용한 신선한 접근
효용성이 입증, 사용자의 Sear...
Discussion
실험에서 3~5분 안에 사용에 익숙해졌다는 점에서,(물론 대학생들이지만...)
실험군을 novice로 확대해서 실험 해보는 것도 직관성, 유용성 평가에 의미있지 않을까..?
어르신들을 위한 검색 등에...
FIN.
Upcoming SlideShare
Loading in …5
×

JIGSAW: Interactive Mobile Visual Search with Multimodal Queries


784 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
784
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
0
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

JIGSAW: Interactive Mobile Visual Search with Multimodal Queries


  1. 1. JIGSAW: Interactive Mobile Visual Search with Multimodal Queries + MM 2011 - Yang Wang, Tao Mei, Jingdong Wang, Houqiang Li, Shipeng Li /김수미 x 2013 summer
  2. 2. JIGSAW: Interactive Mobile Visual Search with Multimodal Queries by: Yang Wang, Tao Mei, Jingdong Wang, Houqiang Li, Shipeng Li 19th ACM international conference on Multimedia. ACM, 2011 Department of Digital Contents Convergence UX Lab. Kim, Sumi
  3. 3. Yang Wang Assistant Professor, Department of Computer Science of University of Manitoba activity recognition, human pose estimation, human behavior analysis, video analysis, object recognition, image parsing, scene understanding, probabilistic graphical models, structured prediction Tao Mei Researcher, Microsoft Research Asia, Beijing, China machine learning, pattern recognition, multimedia computing, and computer vision. In particular, I have worked on kernel methods, semi-supervised learning, data clustering, image segmentation, and image and video presentation, management and search Social multimedia analytics, Large-scale video search, Interactive mobile media search and recommendation, Online multimedia advertising, Large-scale multimedia understanding and indexing  Jingdong Wang Researcher, Microsoft Research Asia, Beijing, China Authors
  4. 4. 다양한 검색 방법.. Text (문자입력) Voice (음성, 음악) Image (바코드, 사진) Thing (사물, 풍경) Location (위치기반) Background
  5. 5. 정작 어디에 있는지조차 모르는 다양한 검색 방법... 그리고, 다양한 검색 방법.. Text (문자입력) Voice (음성, 음악) Image (바코드, 사진) Thing (사물, 풍경) Location (위치기반) Background
  6. 6. PMS Persona 만드는 과정에서 부드럽고 온자한 30대 간호사 입력 대체 간호사는 어디..? Background 정작 필요한 것은 안 보여준다..ㅠㅠ
  7. 7. PMS Persona 만드는 과정에서 부드럽고 온자한 30대 간호사 입력 대체 간호사는 어디..? Background 정작 필요한 것은 안 보여준다..ㅠㅠ 원하는 그림을 쉽고 (재밌고) 무엇보다 잘 찾을 수는 없을까? image, multimodal, photo, annotation, mobile, tag, Index, visual search, query ...
  8. 8. Mobile Visual Search Introduction
  9. 9. Mobile Visual Search Introduction
  10. 10. 검색결과동작 Interface JIGSAW JIGSAW (이미지 검색어플) Joint search ImaGe, Speech, And Words
  11. 11. JIGSAW JIGSAW Joint search ImaGe, Speech, And Words 1. 간단히 ‘동사+명사’로 이야기하면, 2. 이를 단어로 쪼개고 키워드를 추출하여, 3. DB 이미지 내 샘플 이미지 제시, 4. 제시된 이미지를 선택해서 쿼리화 5. 이 쿼리를 분석해 맥락을 고려한 이미지 검색!
  12. 12. JIGSAW SR(Speech Recognition) 기반의 Hidden Markov Model(HMM)*을 사용해서 단어 추출 * HMM: 모델링하는 시스템이 미지의 모수라고 가정하고 관측된 모수(출력치)로 이를 결정하는 통계모델 음성의 기본인 음소열의 생성과 프레임 단위의 음향학적인 표현을 확률로 나타냄 (Why? 어떤 말을 할지 모르니깐...) ** WordNet: 웹 쿼리 조사를 통해 인물, 상품명, 랜드마크 등의 Word 반영 WordNet**을 Keyword 도출에 활용 ImageNet의 이미지 DB내 이미지를 Keyword와 쿼리정보를 토대로 Search 제시된 이미지 중 원하는 것을 선택하면 Visual 쿼리화 ‘이렇게 생긴 이미지를 찾아줘!’
  13. 13. JIGSAW Speech Recognition and Entity Extract - 논리구조를 통해 키워드(복수 가능)를 추출하고 이를 기반으로 대표이미지 탐색 . 복합어 인식: ‘polar bear’, ‘Eiffel Tower’(Keyword) cf. Iron tower(‘tower’만 Keyword) “lake and tree under blue sky” lake, tree, sky
  14. 14. JIGSAW Generation of Exemplary Images & Interactive Formulation of Composite Visual Query - 단순 Keyword를 기반으로한 방식은 비효율적 . 장애요소: 다의어(Polysemy), 관점(View point), 위치(Position), 특성(Attribute) . Clustering-based 접근 활용 (시각적 요소, 유사성 비교평가 메트릭스) “lake and tree under blue sky” Visual Query
  15. 15. JIGSAW
  16. 16. JIGSAW Context-aware Exemplar-based Image Search - 지리학적인 유사성/ 시각적, 일시적 유사성 - 전반적인 유사성
  17. 17. Implementation & Evaluation 3가지 측면에서 실험수행 및 평가 - Device: Window Phone 7 - 100 queries + 기존 JIGSAW 중 Combination 가능성이 높은 52 queries 활용 1. Visual Search 평가 ... 이미지를 잘 찾아주니? 2. Subject Evaluation of Usability ... 사용하기 좋니? Keyword 수/ App 종류(Google Image, Goggles, JIGSAW) 3. Complexity Analysis ... Keyword 수에 따른 반응시간
  18. 18. Implementation & Evaluation 1. Visual Search 평가 - 이미지 검색능력 비교 - 3가지 어플 . text 기반 . Concept Map* . JIGSAW - 6명의 평가자(Technical background) . 점수: 0(not relevant), 1(relevant), 2(very relevant) ... 평균산출 - 검색능력 평가: Normalized Discounted Cumulative Gain(NDCG) - 검색결과 상위 20개 이미지를 대상으로 함
  19. 19. Implementation & Evaluation * Concept Map - 검색 쿼리를 캔버스 내 원하는 위치에 배열하면, 이를 고려해 이미지 검색
  20. 20. Implementation & Evaluation Normalized Discounted Cumulative Gain(NDCG) 해당 검색엔진의 최적의 검색결과를 1로 보고 현재 검색결과를 비교해서 수치화 (0~1 사이) Keyword 수가 적을 수록 더 뛰어난 검색결과 산출 Keyword 수가 많아질수록 Concept Map≒JIGSAW
  21. 21. Implementation & Evaluation 2. Subject Evaluation of Usability 2-1. Keyword 수에 따른 사용성 평가 - 12명 피실험자(여 2+ 남 10, 대학생 22~27세) - 3~5분 정도 Trial 을 통해 JIGSAW에 익숙해짐, 그 이후 실험 진행 - 방법 . 1000개의 주제 중 하나를 골라 Text 검색 . 검색 이미지 중 마음에 드는 것을 선택 . 그 이미지와 최대한 유사한 이미지를 JIGSAW로 찾기 (x 3번) 소요시간 % 대체적으로 짧은 시간안에 성공적으로 이미지 찾음 Keyword가 많아질수록 효율성이 증가
  22. 22. Implementation & Evaluation 2. Subject Evaluation of Usability 2-2. 사용성 평가비교(Quantitive) - 3가지 어플 . Google Image(Text) . Google’s Goggle*(Capture-to-Search) . JIGSAW * Google’s Goggles - 촬영을 통해 현실세계 검색 - 고글이 개체를 인식하고 관련성 높은 검색결과를 반환하는 영상인식 기술 사용 제품 바코드 잡지/ 인쇄물 명화 번역
  23. 23. Implementation & Evaluation Google Image < Goggles < JIGSAW 참신하다! But, 아직은 살짝 생소한...? 흥미롭고, Text 입력을 효율적으로 보완
  24. 24. Implementation & Evaluation 3. Complexity Analysis - 100 개의 랜덤 query가 검색되는 시간 계산 키워드 수가 늘어날수록 체크하는 이미지가 많아져서 반응시간이 늘어남 (당연한 결과! But, 거의 비례라는 것이 주목할만한 점)
  25. 25. Conclusion 말하고, 키워드 뽑고, 자체 필터링 해서, ... 더 정확한 그림을 찾는다! 모바일 음성인식 기반의 Multi-modal, Multi-touch를 활용한 신선한 접근 효용성이 입증, 사용자의 Search Experience를 향상 Mobile은 물론 Tablet system까지 확장 더 나은 사용자 경험을 위한 고민 더 많은 쿼리, 어휘풀 확보 필요 But,
  26. 26. Discussion 실험에서 3~5분 안에 사용에 익숙해졌다는 점에서,(물론 대학생들이지만...) 실험군을 novice로 확대해서 실험 해보는 것도 직관성, 유용성 평가에 의미있지 않을까..? 어르신들을 위한 검색 등에 응용..? Visual Query의 맥락(이미지 종류, 위치)을 고려한 이미지 서칭에서, 복잡한 알고리즘을 어디까지 끌고가야 하는가..? (어렵다 ㅠㅠ) 사용자 관점에서의 질적, 양적 방법론이 균형을 이루는, 재밌는 실험을 고민해봐야.. 현재 다양한 검색방법이 쏟아져나오고 있으니, 이를 패키지(?)해서 Universal 검색을 지원하는 Option 제공, 검색엔진 서비스 개선에 활용...하고 있겠지?
  27. 27. FIN.

×