Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
우리는 지금 무엇을 하고있는지를 고민하나요? 아니면 무엇이 되어가고 있는지를 고민하나요? 네 맞습니다. 우리는 매년 무엇을 할지 고민합니다. 그런데 중요한것은 방향 즉 어디를 가고 있는지 입니다.
그래서 넷플릭스의 추천 시스템이 어디를 향해 가고 있는지를 살펴보고 추천시스템의 향해 가야할 Goal에 대하여 같이 이야기를 해보고자 합니다
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
서울시 챗봇팀이 개발한 ‘청년정책봇’은 시나리오 기반이 아닌 딥러닝 기반의 챗봇 서비스다. ETRI에서 개발한 KorBERT를 통해 언어 처리 모델을 대신하고, 형태소 분석 API를 통해 질문 문장에 대한 의도를 분석하였다. 카카오에서 배포한 khaii 형태소 분석기 적용을 통해 구문분석 정확도를 향상을 확인할 수 있었다. 또한, 위키 QA API를 통해 일반적인 질의응답을 위한 기능을 추가했다. 현재 상용화된 챗봇서비스의 대부분은 미리 구성된 시나리오(Flowchart)를 따라가는 방식을 활용하며, 자연어 처리 기술은 신뢰도가 낮아 사용되지 않고 있다. 그에 반해, ‘청년정책봇’은 cdQA 파이프라인을 접목해 유사도 높은 문서를 언어 처리 모델에 적용하는 방식으로 접근해 신뢰도를 높일 수 있었다. 기존 빌더를 통해, 상용화된 서비스 대비 두 가지 장점이 있다. 첫 번째 장점은 딥러닝 모델에 따른 발전 가능성으로써 ETRI KorBERT의 지속적인 개선에 따라 청년정책봇의 기계 독해 성능도 같이 개선된다는 것이다. 두 번째 장점은 서비스 지속 가능성으로써 cdQA 파이프라인에 기반해 주기적인 웹 크롤링을 통해 데이터 추가가 가능하기 때문에 소프트웨어 유지 보수에 필요한 자원을 최소화할 수 있다는 것이다. 청년정책 챗봇을 통해 cdQA 파이프라인과 ETRI BERT 모델을 활용해 기존의 데이터 인풋 제한을 극복하고 기계 독해에 대한 솔루션을 제시할 수 있었다.
우리는 지금 무엇을 하고있는지를 고민하나요? 아니면 무엇이 되어가고 있는지를 고민하나요? 네 맞습니다. 우리는 매년 무엇을 할지 고민합니다. 그런데 중요한것은 방향 즉 어디를 가고 있는지 입니다.
그래서 넷플릭스의 추천 시스템이 어디를 향해 가고 있는지를 살펴보고 추천시스템의 향해 가야할 Goal에 대하여 같이 이야기를 해보고자 합니다
28. 1.4 검색의도 BIG 6
단답 ( Know Simple)
장소 ( Visit in Person )
행위 ( Do )
사이트 ( Website )
정보 ( Know )
‘페이스북’, ‘세금 내는 사이트’
그 외 모든 것
방법 ( HowTo ) ‘수영 잘하는 법’
이것이 정답인가? Absolutely NOT
30. 1.4 검색의도 HowTo가 왜 중요한가?
단답 ( Know Simple)
장소 ( Visit in Person )
행위 ( Do )
사이트 ( Website )
정보 ( Know )
방법 ( HowTo ) ‘동영상’ 시대의 도래..
Developed by 박형애 박효균
31. 1.5 검색의도 좀더 자세히 질의 주제 추가
KnowSimple
Visit
Do
Navigation
Know
How To
인물 쇼핑 방송 식당 명소 기업 어학 여행 날씨
상단 질의 카테고리 88개
좌측 검색 의도 6개
총, 528개의 의도 관리.
점수는 비공개..
36. 1.7 우리가 만난 문제 여러가지 의도 2
여행-Visit
런던 테러!
이슈-Know
37. Data is always saying.
Through Associated Query
Through Documents
Through Scroll Behavior
Through Click Behavior
1.8 통합검색 감시 시스템
Developed by 민수진 최수진
40. Do Visit
Know
Simple
Site Howto
사용자 질의
Answering
Engine
의미검색
(Semantic Search)
데이터
의도파악
의도에 맞는 결과
1.8 의도 파악 그 다음 결과 만들기
Know
TOPIC
주제검색
(Search by Topic)
47. 2.2 중의성 Disambiguation
시멘틱 태깅
Semantic Tagging
Developed by 정유진
48. 2.2 중의성 시멘틱 태깅
Developed by 정유진
“수지, 전지현-아이유 압도하는 단발 변신, 승자는?”
수지가 트레이드마크인 긴 생머리를 싹뚝 잘랐다. 수지는 30일 자신의 인스타그
램에 한 장의 폴라로이드 사진을 공개했다. 흑백 사진 속 수지는 보이시한 단발머
리 스타일에 시크한 표정으로 한층 세련된 분위기다. 수지가 단발머리로 변신한
이유는 올해 방영을 앞둔 SBS 드라마 ‘당신이 잠든 사이에’ 때문인 것으로 전해졌
다. 수지는 불행한 사건 사고를 꿈으로 미리 볼 수 있는 여자 남홍주를 연기하며
이종석과 호흡을 맞춘다. 앞서 단발머리 변신으로 가장 큰 화제를 모은 인물은 배
우 전지현이다. 전지현은 데뷔 때부터 고수해 온 긴 생머리를 2015년 영화 ‘암살’
촬영 차 잘랐다. 가수 아이유도 데뷔 당시부터 트레이드마크였던 긴 생머리를 지
난해 자르고 한층 성숙된 분위기로 변신한 바 있다.
“고속 열차로 여행하기”
런던발 파리행 열차는 유로스타(Eurostar) 고속열차입니다. 이 편안한 열차는
영불해협 터널(Channel Tunnel)을 지나 유럽으로 들어갑니다. 여행 시간은 2시
간 16분입니다. 실제 여행시간은 유레일 시간표를 참조해 주세요. 이탈리아, 스
페인 등의 인접 국가와 프랑스를 함께 여행하실 수 있는 유레일 패스도 준비되어
있습니다. 프랑스에서 유효한 패스의 소지자는 유로스타를 이용하여 파리와 런
던 구간을 여행하실 수 있습니다.
전지현
PS_94939
아이유
PS_159229
이종석
PS_154644
당신이 잠든
사이에
BP_4576600
암살
MV_121048
파리
CITY_844
프랑스
NATION
475380
스페인
NATION
475541
런던
CITY_511
이탈리아
NATION
475401
수지
PS_123454