Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
Searching on Intent: Knowledge Graphs, Personalization, and Contextual Disamb...Trey Grainger
Search engines frequently miss the mark when it comes to understanding user intent. This talk will walk through some of the key building blocks necessary to turn a search engine into a dynamically-learning "intent engine", able to interpret and search on meaning, not just keywords. We will walk through CareerBuilder's semantic search architecture, including semantic autocomplete, query and document interpretation, probabilistic query parsing, automatic taxonomy discovery, keyword disambiguation, and personalization based upon user context/behavior. We will also see how to leverage an inverted index (Lucene/Solr) as a knowledge graph that can be used as a dynamic ontology to extract phrases, understand and weight the semantic relationships between those phrases and known entities, and expand the query to include those additional conceptual relationships.
As an example, most search engines completely miss the mark at parsing a query like (Senior Java Developer Portland, OR Hadoop). We will show how to dynamically understand that "senior" designates an experience level, that "java developer" is a job title related to "software engineering", that "portland, or" is a city with a specific geographical boundary (as opposed to a keyword followed by a boolean operator), and that "hadoop" is the skill "Apache Hadoop", which is also related to other terms like "hbase", "hive", and "map/reduce". We will discuss how to train the search engine to parse the query into this intended understanding and how to reflect this understanding to the end user to provide an insightful, augmented search experience.
Topics: Semantic Search, Apache Solr, Finite State Transducers, Probabilistic Query Parsing, Bayes Theorem, Augmented Search, Recommendations, Query Disambiguation, NLP, Knowledge Graphs
Fine-tuning BERT for Question AnsweringApache MXNet
This deck covers the problem of fine-tuning a pre-trained BERT model for the task of Question Answering. Check out the GluonNLP model zoo here for models and tutorials: http://gluon-nlp.mxnet.io/model_zoo/bert/index.html
Slides: Thomas Delteil
Efficient and effective passage search via contextualized late interaction ov...taeseon ryu
오늘 소개 드릴 논문은 ColBERT: Efficient and Effective Passage Search viaContextualized Late Interaction over BERT
model들은 Query와 Document에 임베딩 Vector를 이용해서 관련성을 구할 수 있고
최근에는 BERT와 같은 그런 프리트레인된 model을 파인튜닝 한 model들이 발표가 되기도 했습니다
BERT 기반의 model이 SOTA를 찍고 구글과 빙같은 검색엔진에서도 활용을 하고 있습니다
그런데 이제 프리트레인된 랭귀지 model은 Computation Cost가 큰 게 문제가 있습니다 이 그림에서 보시면
백업 기반에 그런 BM25 같은 경우에는 MRR도 낮긴 하지만 그래도 Query Latency가 많이 낮습니다 그에 대해서 BERT model인 경우에 Mrr이 높긴 하지만Latency 또한 매우 높은 것으로 나타나게 됩니다
최대 100~1000배 차이가 나기도 하는데요 이 논문에서 제안하는 ColBERT는 높은 mrr 를 획득을 하면서도 Latency가 BERT보다 훨씬 낮게 나타나게 됩니다 그래서 이 논문에서 제안한 ColBERT model은 Query와 Document간의 관련성을 예측하기 위해서
Late interaction paradigm을 도입했습니다 Query와 Document가 각각 따로 contextual vector로 인코딩이 된 후에
둘 사이에 relevance를 이제 빠르고 효율적으로 계산을 하도록 한 것입니다
논문에 대한 자세한 리뷰를 자연어 처리팀 김은희 님이 도와주셨습니다
오늘도 많은관심 미리 감사드립니다!
문의 : tfkeras@kakao.com
https://youtu.be/5mynfZA2t7U
Searching on Intent: Knowledge Graphs, Personalization, and Contextual Disamb...Trey Grainger
Search engines frequently miss the mark when it comes to understanding user intent. This talk will walk through some of the key building blocks necessary to turn a search engine into a dynamically-learning "intent engine", able to interpret and search on meaning, not just keywords. We will walk through CareerBuilder's semantic search architecture, including semantic autocomplete, query and document interpretation, probabilistic query parsing, automatic taxonomy discovery, keyword disambiguation, and personalization based upon user context/behavior. We will also see how to leverage an inverted index (Lucene/Solr) as a knowledge graph that can be used as a dynamic ontology to extract phrases, understand and weight the semantic relationships between those phrases and known entities, and expand the query to include those additional conceptual relationships.
As an example, most search engines completely miss the mark at parsing a query like (Senior Java Developer Portland, OR Hadoop). We will show how to dynamically understand that "senior" designates an experience level, that "java developer" is a job title related to "software engineering", that "portland, or" is a city with a specific geographical boundary (as opposed to a keyword followed by a boolean operator), and that "hadoop" is the skill "Apache Hadoop", which is also related to other terms like "hbase", "hive", and "map/reduce". We will discuss how to train the search engine to parse the query into this intended understanding and how to reflect this understanding to the end user to provide an insightful, augmented search experience.
Topics: Semantic Search, Apache Solr, Finite State Transducers, Probabilistic Query Parsing, Bayes Theorem, Augmented Search, Recommendations, Query Disambiguation, NLP, Knowledge Graphs
Fine-tuning BERT for Question AnsweringApache MXNet
This deck covers the problem of fine-tuning a pre-trained BERT model for the task of Question Answering. Check out the GluonNLP model zoo here for models and tutorials: http://gluon-nlp.mxnet.io/model_zoo/bert/index.html
Slides: Thomas Delteil
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Hansol Kang
* Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdfSease
f you want to expand your query/documents with synonyms in Apache Lucene, you need to have a predefined file containing the list of terms that share the same semantic. It’s not always easy to find a list of basic synonyms for a language and, even if you find it, this doesn’t necessarily match with your contextual domain.
The term “daemon” in the domain of operating system articles is not a synonym of “devil” but it’s closer to the term “process”.
Word2Vec is a two-layer neural network that takes as input a text and outputs a vector representation for each word in the dictionary. Two words with similar meanings are identified with two vectors close to each other.
데이터 시각화 프로젝트를 진행한 보아져 팀에서는 아래와 같은 프로젝트를 진행했습니다.
에듀테크 기업 바이브온과 함께한 세가지 프로젝트 모음집. 바이브온의 모든 데이터를 기반으로 한 인사이트 도출 과정이 나타난 [Marketing Analysis], 이용자들에게 효과적인 서비스를 제공하기 위한 시각화 서비스 기획안인 [타 생기부 분석 100% 활용하기], 시각화를 넘어 NLP를 통해 선생님의 생기부 작성을 돕는 [Vital-On] 세가지 프로젝트로 이루어져있다.
15기 박대희 이화여자대학교 통계학과
17기 김태현 이화여자대학교 경제학과
17시 박지운 이화여자대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스학과
17기 이한울 고려대학교 사회학과
17기 이준희 고려대학교 통계학과
Vectorland: Brief Notes from Using Text Embeddings for SearchBhaskar Mitra
(Invited talk at Search Solutions 2015)
A lot of recent work in neural models and “Deep Learning” is focused on learning vector representations for text, image, speech, entities, and other nuggets of information. From word analogies to automatically generating human level descriptions of images, the use of text embeddings has become a key ingredient in many natural language processing (NLP) and information retrieval (IR) tasks.
In this talk, I will present some personal learnings from working on (neural and non-neural) text embeddings for IR, as well as highlight a few key recent insights from the broader academic community. I will talk about the affinity of certain embeddings for certain kinds of tasks, and how the notion of relatedness in an embedding space depends on how the vector representations are trained. The goal of this talk is to encourage everyone to start thinking about text embeddings beyond just as an output of a “black box” machine learning model, and to highlight that the relationships between different embedding spaces are about as interesting as the relationships between items within an embedding space.
Automated Background Removal Using PyTorchDatabricks
Wehkamp is an online department store with more than 500,000 daily visitors. A wide variety of products presented on the Wehkamp website aims to meet the many customers’ needs.
An important aspect of any customer visit to the website is a qualitative and accurate visual experience of the products. To achieve this, thousands of product photos, especially of fashion garments, are processed in the local photo studio. Since these images’ backgrounds are highly varied, background removal is one of the steps in the processing pipeline.
If done manually, this is very tedious and time-consuming work and when it comes to millions of images, the time and resources needed to manually perform background removal are too high to sustain the dynamic flow of the newly arrived products.
In our presentation, we describe our automated end-to-end pipeline which uses machine learning models for removing the background in images.
Data preparation: In the early beginning, after the dataset cleaning, each image was resized to 320*320 pixels. Afterward, we made use of kmeans algorithm to split the data into 6 clusters. We applied various augmentation techniques for classes with a low amount of images.
Background removal model: Our model is built on an architecture inspired by the paper: “U^2 -Net: Going Deeper with Nested U-Structure for Salient Object Detection”.
Training process: We worked in a Databricks environment and used workers with graphical processing units. Horovod and Pytorch helped us to make the training process distributed. To avoid OOM errors, for each epoch it was used a batch training technique. The trained model is stored in S3 bucket.
In this speech, we want to share how to create an efficient pipeline for deep learning image processing within the Databricks environment.
RDF is a general method to decompose knowledge into small pieces, with some rules about the semantics or meaning of those pieces. The point is to have a method so simple that it can express any fact, and yet so structured that computer applications can do useful things with knowledge expressed in RDF.
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
안녕하세요 딥러닝 논문읽기 모임입니다 오늘 업로드된 논문 리뷰 영상은 올해 발표된, RoFormer: Enhanced Transformer with Rotary Position Embedding 라는 제목의 논문입니다.
해당 논문은 Rotary Position Embedding을 이용하여 Transformer를 개선 시킨 논문입니다. Position embedding은 Self attention의 포지션에 대한 위치를 기억 시키기 위해 사용이 되는 중요한 요소중 하나 인대요, Rotary Position Embedding은 선형대수학 시간때 배우는 회전행렬을 사용하여 위치에 대한 정보를 인코딩 하는 방식으로 대체하여 모델의 성능을 끌어 올렸습니다.
논문에 대한 백그라운드 부터, 수식에 대한 디테일한 리뷰까지,
논문 리뷰를 자연어 처리 진명훈님이 디테일한 논문 리뷰 도와주셨습니다!
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksHyeongmin Lee
제 PR12 첫번째 발표 논문은 FlowNet이라는 논문입니다.
Optical Flow는 비디오의 인접한 Frame에 대하여 각 Pixel이 첫 번째 Frame에서 두 번째 Frame으로 얼마나 이동했는지의 Vector를 모든 위치에 대하여 나타낸 Map입니다. Video에 Motion을 분석하는 일은 매우 중요하기 때문에, 이러한 Optical Flow 역시 굉장히 중요한 요소 중 하나인데요, 이번 영상에서는 고전적인 Computer Vision에서 쓰였던 다양한 Optical Flow 알고리즘들과, Deep Learning Based로 Optical Flow를 구하는 Neural Network인 FlowNet에 대하여 알아보겠습니다.
감사합니다!!
영상 링크: https://youtu.be/Z_t0shK98pM
논문 링크: http://openaccess.thecvf.com/content_iccv_2015/html/Dosovitskiy_FlowNet_Learning_Optical_ICCV_2015_paper.html
Conditional Random Fields - Vidya VenkiteswaranWithTheBest
We show you what CRFSuite, what it does, why we need it, examples and applications, alternatives to CRF, pros and cons, and implementation of CRFSuite.
Vidya Venkiteswaran
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Hansol Kang
* Ledig, Christian, et al. "Photo-realistic single image super-resolution using a generative adversarial network." Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdfSease
f you want to expand your query/documents with synonyms in Apache Lucene, you need to have a predefined file containing the list of terms that share the same semantic. It’s not always easy to find a list of basic synonyms for a language and, even if you find it, this doesn’t necessarily match with your contextual domain.
The term “daemon” in the domain of operating system articles is not a synonym of “devil” but it’s closer to the term “process”.
Word2Vec is a two-layer neural network that takes as input a text and outputs a vector representation for each word in the dictionary. Two words with similar meanings are identified with two vectors close to each other.
데이터 시각화 프로젝트를 진행한 보아져 팀에서는 아래와 같은 프로젝트를 진행했습니다.
에듀테크 기업 바이브온과 함께한 세가지 프로젝트 모음집. 바이브온의 모든 데이터를 기반으로 한 인사이트 도출 과정이 나타난 [Marketing Analysis], 이용자들에게 효과적인 서비스를 제공하기 위한 시각화 서비스 기획안인 [타 생기부 분석 100% 활용하기], 시각화를 넘어 NLP를 통해 선생님의 생기부 작성을 돕는 [Vital-On] 세가지 프로젝트로 이루어져있다.
15기 박대희 이화여자대학교 통계학과
17기 김태현 이화여자대학교 경제학과
17시 박지운 이화여자대학교 통계학과
17기 이수경 성균관대학교 데이터사이언스학과
17기 이한울 고려대학교 사회학과
17기 이준희 고려대학교 통계학과
Vectorland: Brief Notes from Using Text Embeddings for SearchBhaskar Mitra
(Invited talk at Search Solutions 2015)
A lot of recent work in neural models and “Deep Learning” is focused on learning vector representations for text, image, speech, entities, and other nuggets of information. From word analogies to automatically generating human level descriptions of images, the use of text embeddings has become a key ingredient in many natural language processing (NLP) and information retrieval (IR) tasks.
In this talk, I will present some personal learnings from working on (neural and non-neural) text embeddings for IR, as well as highlight a few key recent insights from the broader academic community. I will talk about the affinity of certain embeddings for certain kinds of tasks, and how the notion of relatedness in an embedding space depends on how the vector representations are trained. The goal of this talk is to encourage everyone to start thinking about text embeddings beyond just as an output of a “black box” machine learning model, and to highlight that the relationships between different embedding spaces are about as interesting as the relationships between items within an embedding space.
Automated Background Removal Using PyTorchDatabricks
Wehkamp is an online department store with more than 500,000 daily visitors. A wide variety of products presented on the Wehkamp website aims to meet the many customers’ needs.
An important aspect of any customer visit to the website is a qualitative and accurate visual experience of the products. To achieve this, thousands of product photos, especially of fashion garments, are processed in the local photo studio. Since these images’ backgrounds are highly varied, background removal is one of the steps in the processing pipeline.
If done manually, this is very tedious and time-consuming work and when it comes to millions of images, the time and resources needed to manually perform background removal are too high to sustain the dynamic flow of the newly arrived products.
In our presentation, we describe our automated end-to-end pipeline which uses machine learning models for removing the background in images.
Data preparation: In the early beginning, after the dataset cleaning, each image was resized to 320*320 pixels. Afterward, we made use of kmeans algorithm to split the data into 6 clusters. We applied various augmentation techniques for classes with a low amount of images.
Background removal model: Our model is built on an architecture inspired by the paper: “U^2 -Net: Going Deeper with Nested U-Structure for Salient Object Detection”.
Training process: We worked in a Databricks environment and used workers with graphical processing units. Horovod and Pytorch helped us to make the training process distributed. To avoid OOM errors, for each epoch it was used a batch training technique. The trained model is stored in S3 bucket.
In this speech, we want to share how to create an efficient pipeline for deep learning image processing within the Databricks environment.
RDF is a general method to decompose knowledge into small pieces, with some rules about the semantics or meaning of those pieces. The point is to have a method so simple that it can express any fact, and yet so structured that computer applications can do useful things with knowledge expressed in RDF.
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
안녕하세요 딥러닝 논문읽기 모임입니다 오늘 업로드된 논문 리뷰 영상은 올해 발표된, RoFormer: Enhanced Transformer with Rotary Position Embedding 라는 제목의 논문입니다.
해당 논문은 Rotary Position Embedding을 이용하여 Transformer를 개선 시킨 논문입니다. Position embedding은 Self attention의 포지션에 대한 위치를 기억 시키기 위해 사용이 되는 중요한 요소중 하나 인대요, Rotary Position Embedding은 선형대수학 시간때 배우는 회전행렬을 사용하여 위치에 대한 정보를 인코딩 하는 방식으로 대체하여 모델의 성능을 끌어 올렸습니다.
논문에 대한 백그라운드 부터, 수식에 대한 디테일한 리뷰까지,
논문 리뷰를 자연어 처리 진명훈님이 디테일한 논문 리뷰 도와주셨습니다!
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksHyeongmin Lee
제 PR12 첫번째 발표 논문은 FlowNet이라는 논문입니다.
Optical Flow는 비디오의 인접한 Frame에 대하여 각 Pixel이 첫 번째 Frame에서 두 번째 Frame으로 얼마나 이동했는지의 Vector를 모든 위치에 대하여 나타낸 Map입니다. Video에 Motion을 분석하는 일은 매우 중요하기 때문에, 이러한 Optical Flow 역시 굉장히 중요한 요소 중 하나인데요, 이번 영상에서는 고전적인 Computer Vision에서 쓰였던 다양한 Optical Flow 알고리즘들과, Deep Learning Based로 Optical Flow를 구하는 Neural Network인 FlowNet에 대하여 알아보겠습니다.
감사합니다!!
영상 링크: https://youtu.be/Z_t0shK98pM
논문 링크: http://openaccess.thecvf.com/content_iccv_2015/html/Dosovitskiy_FlowNet_Learning_Optical_ICCV_2015_paper.html
Conditional Random Fields - Vidya VenkiteswaranWithTheBest
We show you what CRFSuite, what it does, why we need it, examples and applications, alternatives to CRF, pros and cons, and implementation of CRFSuite.
Vidya Venkiteswaran
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
News Big Data analysis as Automated Discourse Analysis with BigKinds and Semantic Network Analyzer
https://www.kinds.or.kr/
- News Big Data
- Word Cloud
- BigKinds
- Semantic Network Analyzer
- Appendix: Cases
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
새로운 검색기술 방향을 제안하기 위해 수집한 자료와 그에 대한 개인적인 아이디어들을 정리한 자료입니다.
2008년에 제안을 했었는데 받아들여지지 않았습니다. 그렇지만 요즘의 검색 및 웹서비스의 트렌드와 비슷하게 맞아떨어지는 부분들이 있습니다. 결국 수만가지의 아이디어는 기본을 바탕으로 어떻게 조합하고 배치하느냐에 있고, 수많은 제안 중에 살아남는 어떤 하나가 주목받는 것임을 깨달았습니다. 과거의 것이라고 버리지 말고 요즘 트렌드와 비교 검토해서 보다 나은 아이디어를 내놓아야 합니다.
News Media Network Analysis: Comparing Media Systems MathematicallyDaemin Park
Comparing media systems mathematically by news sources
Defining news media network by similarity and uniqueness
news media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 정보원 인용 패턴의 유사성을 계산하여 매체 간 유사도를 계산
- 중복되지 않는 압도적으로 많은 정보원 존재
- 순위를 고려할 경우 각 신문는 매우 다름 (순위 고려 불필요)
- 이에 따라 유사도 계산에 단순 코사인 알고리즘을 활용할 수 있음
- 유사도 값을 합산하고 역산해준 뒤 표준화하여 언론매체의 독창성(media uniqueness)을 계산:
media uniqueness = 1 – (Σ(Cosine Similarity of quoted sources-1)) / (number of media-1)
- 4대강으로 검색한 8개 중앙지 기사 약 3000건 분석
- 모든 매체가 독창적인 가운데, 그 중 한겨레가 가장 독창적이며, 경향이 정보원이 가장 많고, 세계일보가 가장 덜 독창적, 한겨레 경향이 비교적 겹침, 보수지 간에도 편차도 큼
- 반론 활성화하는 한겨레는 독자적으로 정보원 발굴, 세계일보가 공식 정보원 의존 가장 높고 다른 신문을 참조했을 가능성이 큼, 세계일보의 인적 물적 자원이 열악하거나 4대강 보도를 과소평가했을 가능성이 있음
- indexing hypothesis는 기각된다고 할 수 있음
- 매체 ranking algorithm으로 응용 가능
1. 정보검색 제1장.
Introduction
INFORMATION RETRIEVAL
강의: 정창용 (timothy97@gmail.com)
http://www.facebook.com/hhuIR
Korea Maritime University
Navis Control Inc.
2. 강의소개
주교재 : 정보검색 이론과 실제 (노정순 著, 글누리)
부교재 : 최신 정보검색론 (안동언 외, 교보문고)
성적
중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5%
과제의 평가
기한 후 1주 내 제출 시: 0~30% 감점 (순차적)
기한 후 2주 내 제출 시: 40% 감점
그 후 제출 시: 60% 감점
강의 페이지 : http://www.facebook .com/hhuIR
3. 정보검색이란?
Goal
대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것
정보원 검색 / 결과 정보검색 이용자
4. 정보검색시스템과 DBMS의 비교
유사점
대용량
소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가
능함
차이점 (정보검색시스템의 특징)
확률론적
검색 결과가 사용자의 요구에 맞는지 확신할 수 없음
비정형 데이터(unstructured data)
구조화되어 있지 않음
동일한 크기, 일정한 크기 아님
SQL 같은 정규화된 쿼리를 사용할 수 없음
정형 데이터에 비해 검색속도 느림
색인을 위한 다량의 데이터 저장공간 필요
5. 정보검색을 위한 가능한 방법
1. 문자열 일치(string matching) 검색
모든 문헌의 문자열을 연속적으로 비교/검색
느림
성능향상의 어려움
Ex) 리룩스 명령어 grep
2. 색인(indexing) 검색
빠름
성능 개선에 유연함
7. 정보검색시스템 구성
구성
Crawler(수집기): 대상 데이터의 수집
Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화
Searcher(검색기): 요구에 적합한 정보 검색
고려사항
검색 대상
폭발적으로 증가하는 컨텐츠 수
검색 조건
사용자 질의에 대한 빠른 응답시간
8. 정보검색 과정
정보의 구조 분석
정보의 조직
파일의 조직
색인파일 문헌파일
탐 색 정 렬
분 류
질의처리
클러스터링
적합성 질의작성
요 약
평 가 정보요구분석
9. 정보검색 시스템의 종류
색인되는 자료의 물리적 특성에 따라
텍스트 정보검색
웹 정보검색
이미지 정보검색
소리 정보검색
동영상 정보검색
내용기반 정보검색 (Content-based IR)
그림의 색상, 형태
노래(소리), 악보 그림
텍스트 정보검색
텍스트 문헌
멀티미디어 데이터에 수동으로 입력된 데이터
제목, 주제, 비디오에서 추출된 자막, 오디오에서 변환된 문자 등
10. 정보검색 모델
용어의 상호의존성 여부에 따라 모델 구분
용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가?
완전 일치(exact matching)
완전하게 일치하는 데이터만 검색
불리언 모델
부분 일치(par tial matching)
질의와 조금이라도 일치하는 데이터 모두 검색
일치도(유사도) 계산을 위한 수학적 모델에 따라 나눠짐
대수이론: 벡터공간 모델, 잠재의 모델, 신경망 모델
확률이론: 이진 독립 모델, 언어 모델, 추론망 모델
11. 정보검색 모델 – CO NT.
용어 상호의존성
수학적 기반
without with
퍼지집합
집합이론 불리언모델
확장된
불리언
정규화된
벡터공간
대수이론 벡터공간
모델
잠재의미 신경망모델
2진독립 모델 언어 모델
확률이론
추론네트워크
12. Ad hoc 검색과 필터링
질의 문헌DB
Ad hoc 동적 정적
Routing (Filtering) 정적 동적
이용자1
이용자들의
라우팅 시스템 이용자1
요구
이용자1
신착문서
[라우팅 시스템]
13. 과제#1) Filtering (Routing) 검색 활용
N a v e r 와 DAU M 을 이 용 하 여 특 정 검 색 어 의 검 색 결 과 를 R S S 로 구 독 하 라 .
I T 와 관 련 된 서 로 다 른 4 개 의 검 색 어 를 두 개 는 N a v e r 를 이 용 하 고 , 나 머 지 2 개 는 DAU M 을
이용하여 검색하고 그 결과를 RSS로 구독한다.
단 , R S S Re a d er 는 G o o g l e re a d e r 를 사 용 하 고 , 검 색 어 중 1 개 는 I T 가 이 외 의 분 야 도 허 용
함.
제출내용
① g o o g l e re a d e r 상 에 해 당 R S S 가 등 록 되 어 있 는 화 면 을 캡 쳐 한 것 ( j p g o r p n g 파 일 )
② RSS feed 목록을 내보내기 한 opml 파일 (subscriptions.xml )
제출기한: 다음 수업시간 전 (점수는 기한 내에 제출하는 경우에만 부여함)
<참고>
* h t t p : / /w w w. co de o rd i e . o rg/ a ge n t / n e w s 2 r s s /
* N a ve r = > h t tp : // n e w s s e a rch . n a ve r. co m / s e a rc h . n a ve r? w h e re = r s s & q u e r y = { ke y w o rd}
* DAU M = > h t t p : / / www. da u m . n e t
* G o o g l e re a d e r = > h t t p : / / re a de r. go o g l e . c o m
* o p m l 파 일 은 g o o g l e re a d e r 의 설 정 화 면 에 서 가 져 오 기 / 내 보 내 기 메 뉴 를 이 용 하 면 됨 .
14. 정보검색의 발전 과정
1950년대
1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템
1964년 미국 국립의학도서관(NLM)서 대규모 도입
1960년대
Protosynthex (SDC 개발)
On-line 시스템.
Golden Book Encyclopedia 내용을 탐색.
1965년 ARPA의 지원으로 전국적인 검색 네트워크 시스템으로 실험
CONVERSE (Lockheed 개발)
자체 도서관 목록검색
전국 NASA 기관에 설치된 24개의 터미널에 연결
유럽 최초의 온라인 탐색서비스에 사용됨
현재 온라인 벤더시스템 Dialog로 발전
15. 정보검색의 발전 과정 – CO N T.
도서관에서의 정보 검색 활용 (1950년대)
ISBN: 0-201-12227-8
Author: Salton, Gerard
Title: Automatic text processing: the transformation,
analysis, and retrieval of information by computer
Editor: Addison-Wesley
Date: 1989
Content: <Text>
16. 정보검색의 발전 과정 – CO N T.
1970년대
일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환
1980년대
인접연산자를 사용한 본문 검색시스템으로의 전환
사용자(end-user) 인터페이스 등장
오프라인 검색 서비스 판매
상업용 서지 CD-ROM
1990년대
인터넷과 웹(World Wide Web) 등장
텍스트, 이미지, 오디오, 비디오 파일에 대한 내용기반 검색
2000년대
웹의 발전, 웹 검색이 가장 강력한 검색 시스템이 됨
17. 정보검색의 주요 관심
문헌과 질의 색인
최적의 색인 방법은 무엇인가?
질의 평가 (검색 실행)
문헌과 질의가 얼마나 유사한가?
시스템 평가
얼마나 좋은 시스템인가?
검색한 문헌이 적합(relevant)한가? (정확률; precision)
모든 적합 문헌을 검색했는가? (재현률; recall)
18. 무엇을 배우는가?
색인어 추출과 언어학적 처리
불리언 검색과 비불리언 검색
사전파일
인용색인
정보검색 성능평가
질의확장
문헌 클러스터링
텍스트 범주화
텍스트 요약
웹 문서 검색
내용기반 검색