SlideShare a Scribd company logo
정보검색                  제1장.
                                        Introduction
INFORMATION RETRIEVAL




   강의: 정창용 (timothy97@gmail.com)
     http://www.facebook.com/hhuIR
            Korea Maritime University
                   Navis Control Inc.
강의소개

 주교재 : 정보검색 이론과 실제 (노정순 著, 글누리)
 부교재 : 최신 정보검색론 (안동언 외, 교보문고)

 성적
   중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5%


 과제의 평가
   기한 후 1주 내 제출 시: 0~30% 감점 (순차적)
   기한 후 2주 내 제출 시: 40% 감점
   그 후 제출 시: 60% 감점


 강의 페이지 : http://www.facebook .com/hhuIR
정보검색이란?

 Goal
   대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것




         정보원       검색 / 결과    정보검색 이용자
정보검색시스템과 DBMS의 비교

 유사점
  대용량
  소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가
   능함


 차이점 (정보검색시스템의 특징)
  확률론적
  검색 결과가 사용자의 요구에 맞는지 확신할 수 없음
  비정형 데이터(unstructured data)
     구조화되어 있지 않음
     동일한 크기, 일정한 크기 아님
     SQL 같은 정규화된 쿼리를 사용할 수 없음
     정형 데이터에 비해 검색속도 느림
     색인을 위한 다량의 데이터 저장공간 필요
정보검색을 위한 가능한 방법

1. 문자열 일치(string matching) 검색
    모든 문헌의 문자열을 연속적으로 비교/검색
    느림
    성능향상의 어려움
    Ex) 리룩스 명령어 grep


2. 색인(indexing) 검색
    빠름
    성능 개선에 유연함
색인기반(Indexing-based) 검색
정보검색시스템 구성

 구성
  Crawler(수집기): 대상 데이터의 수집
  Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화
  Searcher(검색기): 요구에 적합한 정보 검색


 고려사항
  검색 대상
    폭발적으로 증가하는 컨텐츠 수
  검색 조건
    사용자 질의에 대한 빠른 응답시간
정보검색 과정

                정보의 구조 분석



                 정보의 조직



                 파일의 조직



      색인파일                  문헌파일



         탐 색                        정 렬

                                    분 류
        질의처리
                                   클러스터링
적합성     질의작성
                                    요 약

평 가    정보요구분석
정보검색 시스템의 종류

 색인되는 자료의 물리적 특성에 따라
    텍스트 정보검색
    웹 정보검색
    이미지 정보검색
    소리 정보검색
    동영상 정보검색
 내용기반 정보검색 (Content-based IR)
  그림의 색상, 형태
  노래(소리), 악보 그림
 텍스트 정보검색
  텍스트 문헌
  멀티미디어 데이터에 수동으로 입력된 데이터
      제목, 주제, 비디오에서 추출된 자막, 오디오에서 변환된 문자 등
정보검색 모델

 용어의 상호의존성 여부에 따라 모델 구분
   용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가?


 완전 일치(exact matching)
   완전하게 일치하는 데이터만 검색
   불리언 모델


 부분 일치(par tial matching)
     질의와 조금이라도 일치하는 데이터 모두 검색
     일치도(유사도) 계산을 위한 수학적 모델에 따라 나눠짐
     대수이론: 벡터공간 모델, 잠재의 모델, 신경망 모델
     확률이론: 이진 독립 모델, 언어 모델, 추론망 모델
정보검색 모델 –                 CO NT.


                           용어 상호의존성
수학적 기반
                without                      with


                                             퍼지집합
집합이론     불리언모델


                          확장된
                          불리언
                                    정규화된
                                    벡터공간
대수이론     벡터공간
          모델
                                    잠재의미            신경망모델


         2진독립 모델            언어 모델

확률이론
         추론네트워크
Ad hoc 검색과 필터링

                           질의     문헌DB
     Ad hoc                동적     정적
Routing (Filtering)        정적     동적


                                   이용자1



 이용자들의
                       라우팅 시스템     이용자1
   요구



                                   이용자1

                        신착문서


                      [라우팅 시스템]
과제#1)             Filtering (Routing) 검색 활용

N a v e r 와 DAU M 을 이 용 하 여 특 정 검 색 어 의 검 색 결 과 를 R S S 로 구 독 하 라 .
I T 와 관 련 된 서 로 다 른 4 개 의 검 색 어 를 두 개 는 N a v e r 를 이 용 하 고 , 나 머 지 2 개 는 DAU M 을
이용하여 검색하고 그 결과를 RSS로 구독한다.
단 , R S S Re a d er 는 G o o g l e re a d e r 를 사 용 하 고 , 검 색 어 중 1 개 는 I T 가 이 외 의 분 야 도 허 용
함.

제출내용
① g o o g l e re a d e r 상 에 해 당 R S S 가 등 록 되 어 있 는 화 면 을 캡 쳐 한 것 ( j p g o r p n g 파 일 )
② RSS feed 목록을 내보내기 한 opml 파일 (subscriptions.xml )

제출기한: 다음 수업시간 전 (점수는 기한 내에 제출하는 경우에만 부여함)

<참고>
* h t t p : / /w w w. co de o rd i e . o rg/ a ge n t / n e w s 2 r s s /
* N a ve r = > h t tp : // n e w s s e a rch . n a ve r. co m / s e a rc h . n a ve r? w h e re = r s s & q u e r y = { ke y w o rd}
* DAU M = > h t t p : / / www. da u m . n e t
* G o o g l e re a d e r = > h t t p : / / re a de r. go o g l e . c o m
* o p m l 파 일 은 g o o g l e re a d e r 의 설 정 화 면 에 서 가 져 오 기 / 내 보 내 기 메 뉴 를 이 용 하 면 됨 .
정보검색의 발전 과정

 1950년대
  1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템
  1964년 미국 국립의학도서관(NLM)서 대규모 도입


 1960년대
  Protosynthex (SDC 개발)
    On-line 시스템.
    Golden Book Encyclopedia 내용을 탐색.
    1965년 ARPA의 지원으로 전국적인 검색 네트워크 시스템으로 실험
  CONVERSE (Lockheed 개발)
      자체   도서관 목록검색
      전국   NASA 기관에 설치된 24개의 터미널에 연결
      유럽   최초의 온라인 탐색서비스에 사용됨
      현재   온라인 벤더시스템 Dialog로 발전
정보검색의 발전 과정                                      – CO N T.



 도서관에서의 정보 검색 활용 (1950년대)
 ISBN: 0-201-12227-8
 Author: Salton, Gerard
 Title: Automatic text processing: the transformation,
        analysis, and retrieval of information by computer
 Editor: Addison-Wesley
 Date: 1989
 Content: <Text>
정보검색의 발전 과정           – CO N T.



 1970년대
  일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환

 1980년대
  인접연산자를 사용한 본문 검색시스템으로의 전환
  사용자(end-user) 인터페이스 등장
  오프라인 검색 서비스 판매
    상업용 서지 CD-ROM

 1990년대
  인터넷과 웹(World Wide Web) 등장
  텍스트, 이미지, 오디오, 비디오 파일에 대한 내용기반 검색

 2000년대
  웹의 발전, 웹 검색이 가장 강력한 검색 시스템이 됨
정보검색의 주요 관심

 문헌과 질의 색인
  최적의 색인 방법은 무엇인가?


 질의 평가 (검색 실행)
  문헌과 질의가 얼마나 유사한가?


 시스템 평가
  얼마나 좋은 시스템인가?
  검색한 문헌이 적합(relevant)한가? (정확률; precision)
  모든 적합 문헌을 검색했는가? (재현률; recall)
무엇을 배우는가?

   색인어 추출과 언어학적 처리
   불리언 검색과 비불리언 검색
   사전파일
   인용색인
   정보검색 성능평가
   질의확장
   문헌 클러스터링
   텍스트 범주화
   텍스트 요약
   웹 문서 검색
   내용기반 검색

More Related Content

What's hot

Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Hansol Kang
 
좌충우돌 디지털트윈 구축기
좌충우돌 디지털트윈 구축기좌충우돌 디지털트윈 구축기
좌충우돌 디지털트윈 구축기
SANGHEE SHIN
 
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdf
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdfWord2Vec model to generate synonyms on the fly in Apache Lucene.pdf
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdf
Sease
 
SPARQL-DL - Theory & Practice
SPARQL-DL - Theory & PracticeSPARQL-DL - Theory & Practice
SPARQL-DL - Theory & Practice
Adriel Café
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
BOAZ Bigdata
 
Competition winning learning rates
Competition winning learning ratesCompetition winning learning rates
Competition winning learning rates
MLconf
 
위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등
DACON AI 데이콘
 
Vectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for SearchVectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for Search
Bhaskar Mitra
 
추천시스템 이제는 돈이 되어야 한다.
추천시스템 이제는 돈이 되어야 한다.추천시스템 이제는 돈이 되어야 한다.
추천시스템 이제는 돈이 되어야 한다.
choi kyumin
 
LiDAR-based Autonomous Driving III (by Deep Learning)
LiDAR-based Autonomous Driving III (by Deep Learning)LiDAR-based Autonomous Driving III (by Deep Learning)
LiDAR-based Autonomous Driving III (by Deep Learning)
Yu Huang
 
Automated Background Removal Using PyTorch
Automated Background Removal Using PyTorchAutomated Background Removal Using PyTorch
Automated Background Removal Using PyTorch
Databricks
 
Introduction To RDF and RDFS
Introduction To RDF and RDFSIntroduction To RDF and RDFS
Introduction To RDF and RDFS
Nilesh Wagmare
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embedding
taeseon ryu
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
NAVER D2
 
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksPR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
Hyeongmin Lee
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
LGCNSairesearch
 
KorQuAD v2.0 소개
KorQuAD v2.0 소개KorQuAD v2.0 소개
KorQuAD v2.0 소개
LGCNSairesearch
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
수보 김
 
Conditional Random Fields - Vidya Venkiteswaran
Conditional Random Fields - Vidya VenkiteswaranConditional Random Fields - Vidya Venkiteswaran
Conditional Random Fields - Vidya Venkiteswaran
WithTheBest
 
Text Data Mining
Text Data MiningText Data Mining
Text Data MiningKU Leuven
 

What's hot (20)

Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
Photo-realistic Single Image Super-resolution using a Generative Adversarial ...
 
좌충우돌 디지털트윈 구축기
좌충우돌 디지털트윈 구축기좌충우돌 디지털트윈 구축기
좌충우돌 디지털트윈 구축기
 
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdf
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdfWord2Vec model to generate synonyms on the fly in Apache Lucene.pdf
Word2Vec model to generate synonyms on the fly in Apache Lucene.pdf
 
SPARQL-DL - Theory & Practice
SPARQL-DL - Theory & PracticeSPARQL-DL - Theory & Practice
SPARQL-DL - Theory & Practice
 
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
제 16회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [보야져 팀] : 기업연계프로젝트 3종세트 [마케팅시각화/서비스기획/분석시스템 구축]
 
Competition winning learning rates
Competition winning learning ratesCompetition winning learning rates
Competition winning learning rates
 
위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등위성이미지 객체 검출 대회 - 1등
위성이미지 객체 검출 대회 - 1등
 
Vectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for SearchVectorland: Brief Notes from Using Text Embeddings for Search
Vectorland: Brief Notes from Using Text Embeddings for Search
 
추천시스템 이제는 돈이 되어야 한다.
추천시스템 이제는 돈이 되어야 한다.추천시스템 이제는 돈이 되어야 한다.
추천시스템 이제는 돈이 되어야 한다.
 
LiDAR-based Autonomous Driving III (by Deep Learning)
LiDAR-based Autonomous Driving III (by Deep Learning)LiDAR-based Autonomous Driving III (by Deep Learning)
LiDAR-based Autonomous Driving III (by Deep Learning)
 
Automated Background Removal Using PyTorch
Automated Background Removal Using PyTorchAutomated Background Removal Using PyTorch
Automated Background Removal Using PyTorch
 
Introduction To RDF and RDFS
Introduction To RDF and RDFSIntroduction To RDF and RDFS
Introduction To RDF and RDFS
 
RoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position EmbeddingRoFormer: Enhanced Transformer with Rotary Position Embedding
RoFormer: Enhanced Transformer with Rotary Position Embedding
 
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
[221] 딥러닝을 이용한 지역 컨텍스트 검색 김진호
 
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional NetworksPR-214: FlowNet: Learning Optical Flow with Convolutional Networks
PR-214: FlowNet: Learning Optical Flow with Convolutional Networks
 
NLU Tech Talk with KorBERT
NLU Tech Talk with KorBERTNLU Tech Talk with KorBERT
NLU Tech Talk with KorBERT
 
KorQuAD v2.0 소개
KorQuAD v2.0 소개KorQuAD v2.0 소개
KorQuAD v2.0 소개
 
빅데이터의 활용
빅데이터의 활용빅데이터의 활용
빅데이터의 활용
 
Conditional Random Fields - Vidya Venkiteswaran
Conditional Random Fields - Vidya VenkiteswaranConditional Random Fields - Vidya Venkiteswaran
Conditional Random Fields - Vidya Venkiteswaran
 
Text Data Mining
Text Data MiningText Data Mining
Text Data Mining
 

Similar to 제1장 정보검색소개

해시태그 검색의 전략에 관한 연구
해시태그 검색의 전략에 관한 연구해시태그 검색의 전략에 관한 연구
해시태그 검색의 전략에 관한 연구
Nuri Na
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
HELENA LEE
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1Han Woo PARK
 
[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조
SSePhi
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
김용범 | 무영인터내쇼날
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
datasciencekorea
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Daemin Park
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'
Daemin Park
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽
NAVER D2
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
Taekyung Han
 
[추천] 색인기법 김성현
[추천] 색인기법 김성현[추천] 색인기법 김성현
[추천] 색인기법 김성현Young-jun Jeong
 
도서관은 웹에 존재하는가
도서관은 웹에 존재하는가도서관은 웹에 존재하는가
도서관은 웹에 존재하는가
Hansung University
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
Myunggoon Choi
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
병국 민
 
[Swift] Data Structure Introduction
[Swift] Data Structure Introduction[Swift] Data Structure Introduction
[Swift] Data Structure Introduction
Bill Kim
 
News Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems MathematicallyNews Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems Mathematically
Daemin Park
 
InCites 20180918
InCites 20180918InCites 20180918
InCites 20180918
hswcau
 
자연어3 | 1차강의
자연어3 | 1차강의자연어3 | 1차강의
자연어3 | 1차강의
김용범 | 무영인터내쇼날
 
디지털인문학 5차시.pptx
디지털인문학 5차시.pptx디지털인문학 5차시.pptx
디지털인문학 5차시.pptx
ssuser2624f71
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
Hye-rim Jang
 

Similar to 제1장 정보검색소개 (20)

해시태그 검색의 전략에 관한 연구
해시태그 검색의 전략에 관한 연구해시태그 검색의 전략에 관한 연구
해시태그 검색의 전략에 관한 연구
 
응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈응용서비스에 따른 인공지능기술 연구이슈
응용서비스에 따른 인공지능기술 연구이슈
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1
 
[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조[정보검색론] 전문자료정보검색 준사서E 5조
[정보검색론] 전문자료정보검색 준사서E 5조
 
파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조파이썬과 자연어 3 | 문장구조
파이썬과 자연어 3 | 문장구조
 
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
빅데이터 기술을 활용한 뉴스 큐레이션 서비스 - 온병원
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'
 
[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽[214]베이지안토픽모형 강병엽
[214]베이지안토픽모형 강병엽
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
 
[추천] 색인기법 김성현
[추천] 색인기법 김성현[추천] 색인기법 김성현
[추천] 색인기법 김성현
 
도서관은 웹에 존재하는가
도서관은 웹에 존재하는가도서관은 웹에 존재하는가
도서관은 웹에 존재하는가
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)[2008] 민병국 - 주제검색과 오픈검색 (제안)
[2008] 민병국 - 주제검색과 오픈검색 (제안)
 
[Swift] Data Structure Introduction
[Swift] Data Structure Introduction[Swift] Data Structure Introduction
[Swift] Data Structure Introduction
 
News Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems MathematicallyNews Media Network Analysis: Comparing Media Systems Mathematically
News Media Network Analysis: Comparing Media Systems Mathematically
 
InCites 20180918
InCites 20180918InCites 20180918
InCites 20180918
 
자연어3 | 1차강의
자연어3 | 1차강의자연어3 | 1차강의
자연어3 | 1차강의
 
디지털인문학 5차시.pptx
디지털인문학 5차시.pptx디지털인문학 5차시.pptx
디지털인문학 5차시.pptx
 
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
20150331 msr outreach media_roundtable_deck_연세대강홍구교수_음성합성
 

More from Chang-yong Jung

NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제
Chang-yong Jung
 
제5장 NMEA Parser 구현
제5장 NMEA Parser 구현제5장 NMEA Parser 구현
제5장 NMEA Parser 구현
Chang-yong Jung
 
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
Chang-yong Jung
 
제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비
Chang-yong Jung
 
제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급
Chang-yong Jung
 
제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념
Chang-yong Jung
 
2013 1학기 과제#3
2013 1학기 과제#32013 1학기 과제#3
2013 1학기 과제#3
Chang-yong Jung
 
제7장 비불리언 모델
제7장 비불리언 모델제7장 비불리언 모델
제7장 비불리언 모델
Chang-yong Jung
 
과제#2 색인어 생성기 만들기
과제#2 색인어 생성기 만들기과제#2 색인어 생성기 만들기
과제#2 색인어 생성기 만들기Chang-yong Jung
 
제4장 불리언 검색
제4장 불리언 검색제4장 불리언 검색
제4장 불리언 검색Chang-yong Jung
 
제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리Chang-yong Jung
 
제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일Chang-yong Jung
 

More from Chang-yong Jung (13)

NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제NMEA0183 Parser 실습과제
NMEA0183 Parser 실습과제
 
제5장 NMEA Parser 구현
제5장 NMEA Parser 구현제5장 NMEA Parser 구현
제5장 NMEA Parser 구현
 
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
제4장 선박용 장비의 통신규약 / 시리얼통신 / NMEA0183
 
제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비제3장 GMDSS 및 항해보조장비
제3장 GMDSS 및 항해보조장비
 
제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급
 
제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념
 
2013 1학기 과제#3
2013 1학기 과제#32013 1학기 과제#3
2013 1학기 과제#3
 
제7장 비불리언 모델
제7장 비불리언 모델제7장 비불리언 모델
제7장 비불리언 모델
 
과제#2 색인어 생성기 만들기
과제#2 색인어 생성기 만들기과제#2 색인어 생성기 만들기
과제#2 색인어 생성기 만들기
 
제5장 사전파일
제5장 사전파일제5장 사전파일
제5장 사전파일
 
제4장 불리언 검색
제4장 불리언 검색제4장 불리언 검색
제4장 불리언 검색
 
제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리
 
제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일
 

제1장 정보검색소개

  • 1. 정보검색 제1장. Introduction INFORMATION RETRIEVAL 강의: 정창용 (timothy97@gmail.com) http://www.facebook.com/hhuIR Korea Maritime University Navis Control Inc.
  • 2. 강의소개  주교재 : 정보검색 이론과 실제 (노정순 著, 글누리)  부교재 : 최신 정보검색론 (안동언 외, 교보문고)  성적  중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5%  과제의 평가  기한 후 1주 내 제출 시: 0~30% 감점 (순차적)  기한 후 2주 내 제출 시: 40% 감점  그 후 제출 시: 60% 감점  강의 페이지 : http://www.facebook .com/hhuIR
  • 3. 정보검색이란?  Goal  대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것 정보원 검색 / 결과 정보검색 이용자
  • 4. 정보검색시스템과 DBMS의 비교  유사점  대용량  소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가 능함  차이점 (정보검색시스템의 특징)  확률론적  검색 결과가 사용자의 요구에 맞는지 확신할 수 없음  비정형 데이터(unstructured data)  구조화되어 있지 않음  동일한 크기, 일정한 크기 아님  SQL 같은 정규화된 쿼리를 사용할 수 없음  정형 데이터에 비해 검색속도 느림  색인을 위한 다량의 데이터 저장공간 필요
  • 5. 정보검색을 위한 가능한 방법 1. 문자열 일치(string matching) 검색  모든 문헌의 문자열을 연속적으로 비교/검색  느림  성능향상의 어려움  Ex) 리룩스 명령어 grep 2. 색인(indexing) 검색  빠름  성능 개선에 유연함
  • 7. 정보검색시스템 구성  구성  Crawler(수집기): 대상 데이터의 수집  Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화  Searcher(검색기): 요구에 적합한 정보 검색  고려사항  검색 대상  폭발적으로 증가하는 컨텐츠 수  검색 조건  사용자 질의에 대한 빠른 응답시간
  • 8. 정보검색 과정 정보의 구조 분석 정보의 조직 파일의 조직 색인파일 문헌파일 탐 색 정 렬 분 류 질의처리 클러스터링 적합성 질의작성 요 약 평 가 정보요구분석
  • 9. 정보검색 시스템의 종류  색인되는 자료의 물리적 특성에 따라  텍스트 정보검색  웹 정보검색  이미지 정보검색  소리 정보검색  동영상 정보검색  내용기반 정보검색 (Content-based IR)  그림의 색상, 형태  노래(소리), 악보 그림  텍스트 정보검색  텍스트 문헌  멀티미디어 데이터에 수동으로 입력된 데이터  제목, 주제, 비디오에서 추출된 자막, 오디오에서 변환된 문자 등
  • 10. 정보검색 모델  용어의 상호의존성 여부에 따라 모델 구분  용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가?  완전 일치(exact matching)  완전하게 일치하는 데이터만 검색  불리언 모델  부분 일치(par tial matching)  질의와 조금이라도 일치하는 데이터 모두 검색  일치도(유사도) 계산을 위한 수학적 모델에 따라 나눠짐  대수이론: 벡터공간 모델, 잠재의 모델, 신경망 모델  확률이론: 이진 독립 모델, 언어 모델, 추론망 모델
  • 11. 정보검색 모델 – CO NT. 용어 상호의존성 수학적 기반 without with 퍼지집합 집합이론 불리언모델 확장된 불리언 정규화된 벡터공간 대수이론 벡터공간 모델 잠재의미 신경망모델 2진독립 모델 언어 모델 확률이론 추론네트워크
  • 12. Ad hoc 검색과 필터링 질의 문헌DB Ad hoc 동적 정적 Routing (Filtering) 정적 동적 이용자1 이용자들의 라우팅 시스템 이용자1 요구 이용자1 신착문서 [라우팅 시스템]
  • 13. 과제#1) Filtering (Routing) 검색 활용 N a v e r 와 DAU M 을 이 용 하 여 특 정 검 색 어 의 검 색 결 과 를 R S S 로 구 독 하 라 . I T 와 관 련 된 서 로 다 른 4 개 의 검 색 어 를 두 개 는 N a v e r 를 이 용 하 고 , 나 머 지 2 개 는 DAU M 을 이용하여 검색하고 그 결과를 RSS로 구독한다. 단 , R S S Re a d er 는 G o o g l e re a d e r 를 사 용 하 고 , 검 색 어 중 1 개 는 I T 가 이 외 의 분 야 도 허 용 함. 제출내용 ① g o o g l e re a d e r 상 에 해 당 R S S 가 등 록 되 어 있 는 화 면 을 캡 쳐 한 것 ( j p g o r p n g 파 일 ) ② RSS feed 목록을 내보내기 한 opml 파일 (subscriptions.xml ) 제출기한: 다음 수업시간 전 (점수는 기한 내에 제출하는 경우에만 부여함) <참고> * h t t p : / /w w w. co de o rd i e . o rg/ a ge n t / n e w s 2 r s s / * N a ve r = > h t tp : // n e w s s e a rch . n a ve r. co m / s e a rc h . n a ve r? w h e re = r s s & q u e r y = { ke y w o rd} * DAU M = > h t t p : / / www. da u m . n e t * G o o g l e re a d e r = > h t t p : / / re a de r. go o g l e . c o m * o p m l 파 일 은 g o o g l e re a d e r 의 설 정 화 면 에 서 가 져 오 기 / 내 보 내 기 메 뉴 를 이 용 하 면 됨 .
  • 14. 정보검색의 발전 과정  1950년대  1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템  1964년 미국 국립의학도서관(NLM)서 대규모 도입  1960년대  Protosynthex (SDC 개발)  On-line 시스템.  Golden Book Encyclopedia 내용을 탐색.  1965년 ARPA의 지원으로 전국적인 검색 네트워크 시스템으로 실험  CONVERSE (Lockheed 개발)  자체 도서관 목록검색  전국 NASA 기관에 설치된 24개의 터미널에 연결  유럽 최초의 온라인 탐색서비스에 사용됨  현재 온라인 벤더시스템 Dialog로 발전
  • 15. 정보검색의 발전 과정 – CO N T.  도서관에서의 정보 검색 활용 (1950년대) ISBN: 0-201-12227-8 Author: Salton, Gerard Title: Automatic text processing: the transformation, analysis, and retrieval of information by computer Editor: Addison-Wesley Date: 1989 Content: <Text>
  • 16. 정보검색의 발전 과정 – CO N T.  1970년대  일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환  1980년대  인접연산자를 사용한 본문 검색시스템으로의 전환  사용자(end-user) 인터페이스 등장  오프라인 검색 서비스 판매  상업용 서지 CD-ROM  1990년대  인터넷과 웹(World Wide Web) 등장  텍스트, 이미지, 오디오, 비디오 파일에 대한 내용기반 검색  2000년대  웹의 발전, 웹 검색이 가장 강력한 검색 시스템이 됨
  • 17. 정보검색의 주요 관심  문헌과 질의 색인  최적의 색인 방법은 무엇인가?  질의 평가 (검색 실행)  문헌과 질의가 얼마나 유사한가?  시스템 평가  얼마나 좋은 시스템인가?  검색한 문헌이 적합(relevant)한가? (정확률; precision)  모든 적합 문헌을 검색했는가? (재현률; recall)
  • 18. 무엇을 배우는가?  색인어 추출과 언어학적 처리  불리언 검색과 비불리언 검색  사전파일  인용색인  정보검색 성능평가  질의확장  문헌 클러스터링  텍스트 범주화  텍스트 요약  웹 문서 검색  내용기반 검색