JIGSAW: Interactive Mobile Visual Search with Multimodal Queries
1. JIGSAW: Interactive
Mobile Visual Search
with Multimodal Queries
+ MM 2011
- Yang Wang, Tao Mei, Jingdong
Wang, Houqiang Li, Shipeng Li
/김수미
x 2013 summer
2. JIGSAW: Interactive Mobile Visual Search
with Multimodal Queries
by: Yang Wang, Tao Mei, Jingdong Wang, Houqiang Li, Shipeng Li
19th ACM international conference on Multimedia. ACM, 2011
Department of Digital Contents Convergence
UX Lab.
Kim, Sumi
3. Yang Wang
Assistant Professor, Department of Computer Science of University of Manitoba
activity recognition, human pose estimation, human behavior analysis, video analysis, object
recognition, image parsing, scene understanding, probabilistic graphical models, structured
prediction
Tao Mei
Researcher, Microsoft Research Asia, Beijing, China
machine learning, pattern recognition, multimedia computing, and computer vision. In
particular, I have worked on kernel methods, semi-supervised learning, data clustering, image
segmentation, and image and video presentation, management and search
Social multimedia analytics, Large-scale video search, Interactive mobile media search and
recommendation, Online multimedia advertising, Large-scale multimedia understanding and
indexing
Jingdong Wang
Researcher, Microsoft Research Asia, Beijing, China
Authors
4. 다양한 검색 방법..
Text (문자입력)
Voice (음성, 음악)
Image (바코드, 사진)
Thing (사물, 풍경)
Location (위치기반)
Background
5. 정작 어디에 있는지조차 모르는 다양한 검색 방법...
그리고,
다양한 검색 방법..
Text (문자입력)
Voice (음성, 음악)
Image (바코드, 사진)
Thing (사물, 풍경)
Location (위치기반)
Background
6. PMS Persona 만드는 과정에서 부드럽고 온자한 30대 간호사 입력
대체 간호사는 어디..?
Background
정작 필요한 것은 안 보여준다..ㅠㅠ
7. PMS Persona 만드는 과정에서 부드럽고 온자한 30대 간호사 입력
대체 간호사는 어디..?
Background
정작 필요한 것은 안 보여준다..ㅠㅠ
원하는 그림을 쉽고 (재밌고)
무엇보다 잘
찾을 수는 없을까?
image, multimodal, photo, annotation, mobile, tag, Index, visual search, query ...
11. JIGSAW
JIGSAW
Joint search ImaGe, Speech, And Words
1. 간단히 ‘동사+명사’로 이야기하면,
2. 이를 단어로 쪼개고 키워드를 추출하여,
3. DB 이미지 내 샘플 이미지 제시,
4. 제시된 이미지를 선택해서 쿼리화
5. 이 쿼리를 분석해 맥락을 고려한 이미지 검색!
12. JIGSAW
SR(Speech Recognition) 기반의
Hidden Markov Model(HMM)*을
사용해서 단어 추출
* HMM: 모델링하는 시스템이 미지의 모수라고 가정하고 관측된 모수(출력치)로 이를 결정하는 통계모델
음성의 기본인 음소열의 생성과 프레임 단위의 음향학적인 표현을 확률로 나타냄
(Why? 어떤 말을 할지 모르니깐...)
** WordNet: 웹 쿼리 조사를 통해 인물, 상품명, 랜드마크 등의 Word 반영
WordNet**을
Keyword 도출에 활용
ImageNet의 이미지 DB내
이미지를 Keyword와 쿼리정보를
토대로 Search
제시된 이미지 중 원하는 것을
선택하면 Visual 쿼리화
‘이렇게 생긴 이미지를 찾아줘!’
13. JIGSAW
Speech Recognition and Entity Extract
- 논리구조를 통해 키워드(복수 가능)를 추출하고 이를 기반으로 대표이미지 탐색
. 복합어 인식: ‘polar bear’, ‘Eiffel Tower’(Keyword)
cf. Iron tower(‘tower’만 Keyword)
“lake and tree under blue sky” lake, tree, sky
14. JIGSAW
Generation of Exemplary Images &
Interactive Formulation of Composite Visual Query
- 단순 Keyword를 기반으로한 방식은 비효율적
. 장애요소: 다의어(Polysemy), 관점(View point), 위치(Position), 특성(Attribute)
. Clustering-based 접근 활용
(시각적 요소, 유사성 비교평가 메트릭스)
“lake and tree
under blue sky”
Visual Query
17. Implementation & Evaluation
3가지 측면에서 실험수행 및 평가
- Device: Window Phone 7
- 100 queries + 기존 JIGSAW 중 Combination 가능성이 높은 52 queries 활용
1. Visual Search 평가
... 이미지를 잘 찾아주니?
2. Subject Evaluation of Usability
... 사용하기 좋니?
Keyword 수/ App 종류(Google Image, Goggles, JIGSAW)
3. Complexity Analysis
... Keyword 수에 따른 반응시간
18. Implementation & Evaluation
1. Visual Search 평가
- 이미지 검색능력 비교
- 3가지 어플
. text 기반
. Concept Map*
. JIGSAW
- 6명의 평가자(Technical background)
. 점수: 0(not relevant), 1(relevant), 2(very relevant) ... 평균산출
- 검색능력 평가: Normalized Discounted Cumulative Gain(NDCG)
- 검색결과 상위 20개 이미지를 대상으로 함
20. Implementation & Evaluation
Normalized Discounted Cumulative Gain(NDCG)
해당 검색엔진의 최적의 검색결과를 1로 보고 현재 검색결과를 비교해서 수치화 (0~1 사이)
Keyword 수가 적을 수록
더 뛰어난 검색결과 산출
Keyword 수가 많아질수록
Concept Map≒JIGSAW
21. Implementation & Evaluation
2. Subject Evaluation of Usability
2-1. Keyword 수에 따른 사용성 평가
- 12명 피실험자(여 2+ 남 10, 대학생 22~27세)
- 3~5분 정도 Trial 을 통해 JIGSAW에 익숙해짐, 그 이후 실험 진행
- 방법
. 1000개의 주제 중 하나를 골라 Text 검색
. 검색 이미지 중 마음에 드는 것을 선택
. 그 이미지와 최대한 유사한 이미지를 JIGSAW로 찾기 (x 3번)
소요시간
%
대체적으로 짧은 시간안에 성공적으로 이미지 찾음
Keyword가 많아질수록 효율성이 증가
22. Implementation & Evaluation
2. Subject Evaluation of Usability
2-2. 사용성 평가비교(Quantitive)
- 3가지 어플
. Google Image(Text)
. Google’s Goggle*(Capture-to-Search)
. JIGSAW
* Google’s Goggles
- 촬영을 통해 현실세계 검색
- 고글이 개체를 인식하고 관련성 높은
검색결과를 반환하는 영상인식 기술 사용
제품 바코드 잡지/ 인쇄물 명화 번역
24. Implementation & Evaluation
3. Complexity Analysis
- 100 개의 랜덤 query가 검색되는 시간 계산
키워드 수가 늘어날수록 체크하는 이미지가 많아져서 반응시간이 늘어남
(당연한 결과! But, 거의 비례라는 것이 주목할만한 점)
25. Conclusion
말하고, 키워드 뽑고, 자체 필터링 해서,
... 더 정확한 그림을 찾는다!
모바일 음성인식 기반의 Multi-modal, Multi-touch를 활용한 신선한 접근
효용성이 입증, 사용자의 Search Experience를 향상
Mobile은 물론 Tablet system까지 확장
더 나은 사용자 경험을 위한 고민
더 많은 쿼리, 어휘풀 확보 필요
But,
26. Discussion
실험에서 3~5분 안에 사용에 익숙해졌다는 점에서,(물론 대학생들이지만...)
실험군을 novice로 확대해서 실험 해보는 것도 직관성, 유용성 평가에 의미있지 않을까..?
어르신들을 위한 검색 등에 응용..?
Visual Query의 맥락(이미지 종류, 위치)을 고려한 이미지 서칭에서,
복잡한 알고리즘을 어디까지 끌고가야 하는가..? (어렵다 ㅠㅠ)
사용자 관점에서의 질적, 양적 방법론이 균형을 이루는, 재밌는 실험을 고민해봐야..
현재 다양한 검색방법이 쏟아져나오고 있으니,
이를 패키지(?)해서 Universal 검색을 지원하는 Option 제공, 검색엔진 서비스 개선에
활용...하고 있겠지?