제1장 정보검색소개

정보검색 제1장.
Introduction
INFORMATION RETRIEVAL

강의: 정창용 (timothy97@gmail.com)
http://www.facebook.com/hhuIR
Korea Maritime University
Navis Control Inc.

강의소개

 주교재 : 정보검색 이론과 실제 (노정순 著, 글누리)
 부교재 : 최신 정보검색론 (안동언 외, 교보문고)

 성적
 중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5%

 과제의 평가
 기한 후 1주 내 제출 시: 0~30% 감점 (순차적)
 기한 후 2주 내 제출 시: 40% 감점
 그 후 제출 시: 60% 감점

 강의 페이지 : http://www.facebook .com/hhuIR

정보검색이란?

 Goal
 대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것

정보원 검색 / 결과 정보검색 이용자

정보검색시스템과 DBMS의 비교

 유사점
 대용량
 소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가
능함

 차이점 (정보검색시스템의 특징)
 확률론적
 검색 결과가 사용자의 요구에 맞는지 확신할 수 없음
 비정형 데이터(unstructured data)
 구조화되어 있지 않음
 동일한 크기, 일정한 크기 아님
 SQL 같은 정규화된 쿼리를 사용할 수 없음
 정형 데이터에 비해 검색속도 느림
 색인을 위한 다량의 데이터 저장공간 필요

정보검색을 위한 가능한 방법

1. 문자열 일치(string matching) 검색
 모든 문헌의 문자열을 연속적으로 비교/검색
 느림
 성능향상의 어려움
 Ex) 리룩스 명령어 grep

2. 색인(indexing) 검색
 빠름
 성능 개선에 유연함

색인기반(Indexing-based) 검색

정보검색시스템 구성

 구성
 Crawler(수집기): 대상 데이터의 수집
 Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화
 Searcher(검색기): 요구에 적합한 정보 검색

 고려사항
 검색 대상
 폭발적으로 증가하는 컨텐츠 수
 검색 조건
 사용자 질의에 대한 빠른 응답시간

정보검색 과정

정보의 구조 분석

정보의 조직

파일의 조직

색인파일 문헌파일

탐 색 정 렬

분 류
질의처리
클러스터링
적합성 질의작성
요 약

평 가 정보요구분석

정보검색 시스템의 종류

 색인되는 자료의 물리적 특성에 따라
 텍스트 정보검색
 웹 정보검색
 이미지 정보검색
 소리 정보검색
 동영상 정보검색
 내용기반 정보검색 (Content-based IR)
 그림의 색상, 형태
 노래(소리), 악보 그림
 텍스트 정보검색
 텍스트 문헌
 멀티미디어 데이터에 수동으로 입력된 데이터
 제목, 주제, 비디오에서 추출된 자막, 오디오에서 변환된 문자 등

정보검색 모델

 용어의 상호의존성 여부에 따라 모델 구분
 용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가?

 완전 일치(exact matching)
 완전하게 일치하는 데이터만 검색
 불리언 모델

 부분 일치(par tial matching)
 질의와 조금이라도 일치하는 데이터 모두 검색
 일치도(유사도) 계산을 위한 수학적 모델에 따라 나눠짐
 대수이론: 벡터공간 모델, 잠재의 모델, 신경망 모델
 확률이론: 이진 독립 모델, 언어 모델, 추론망 모델

정보검색 모델 – CO NT.

용어 상호의존성
수학적 기반
without with

퍼지집합
집합이론 불리언모델

확장된
불리언
정규화된
벡터공간
대수이론 벡터공간
모델
잠재의미 신경망모델

2진독립 모델 언어 모델

확률이론
추론네트워크

Ad hoc 검색과 필터링

질의 문헌DB
Ad hoc 동적 정적
Routing (Filtering) 정적 동적

이용자1

이용자들의
라우팅 시스템 이용자1
요구

이용자1

신착문서

[라우팅 시스템]

과제#1) Filtering (Routing) 검색 활용

N a v e r 와 DAU M 을 이 용 하 여 특 정 검 색 어 의 검 색 결 과 를 R S S 로 구 독 하 라 .
I T 와 관 련 된 서 로 다 른 4 개 의 검 색 어 를 두 개 는 N a v e r 를 이 용 하 고 , 나 머 지 2 개 는 DAU M 을
이용하여 검색하고 그 결과를 RSS로 구독한다.
단 , R S S Re a d er 는 G o o g l e re a d e r 를 사 용 하 고 , 검 색 어 중 1 개 는 I T 가 이 외 의 분 야 도 허 용
함.

제출내용
① g o o g l e re a d e r 상 에 해 당 R S S 가 등 록 되 어 있 는 화 면 을 캡 쳐 한 것 ( j p g o r p n g 파 일 )
② RSS feed 목록을 내보내기 한 opml 파일 (subscriptions.xml )

제출기한: 다음 수업시간 전 (점수는 기한 내에 제출하는 경우에만 부여함)

<참고>
* h t t p : / /w w w. co de o rd i e . o rg/ a ge n t / n e w s 2 r s s /
* N a ve r = > h t tp : // n e w s s e a rch . n a ve r. co m / s e a rc h . n a ve r? w h e re = r s s & q u e r y = { ke y w o rd}
* DAU M = > h t t p : / / www. da u m . n e t
* G o o g l e re a d e r = > h t t p : / / re a de r. go o g l e . c o m
* o p m l 파 일 은 g o o g l e re a d e r 의 설 정 화 면 에 서 가 져 오 기 / 내 보 내 기 메 뉴 를 이 용 하 면 됨 .

정보검색의 발전 과정

 1950년대
 1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템
 1964년 미국 국립의학도서관(NLM)서 대규모 도입

 1960년대
 Protosynthex (SDC 개발)
 On-line 시스템.
 Golden Book Encyclopedia 내용을 탐색.
 1965년 ARPA의 지원으로 전국적인 검색 네트워크 시스템으로 실험
 CONVERSE (Lockheed 개발)
 자체 도서관 목록검색
 전국 NASA 기관에 설치된 24개의 터미널에 연결
 유럽 최초의 온라인 탐색서비스에 사용됨
 현재 온라인 벤더시스템 Dialog로 발전

정보검색의 발전 과정 – CO N T.

 도서관에서의 정보 검색 활용 (1950년대)
ISBN: 0-201-12227-8
Author: Salton, Gerard
Title: Automatic text processing: the transformation,
analysis, and retrieval of information by computer
Editor: Addison-Wesley
Date: 1989
Content: <Text>

정보검색의 발전 과정 – CO N T.

 1970년대
 일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환

 1980년대
 인접연산자를 사용한 본문 검색시스템으로의 전환
 사용자(end-user) 인터페이스 등장
 오프라인 검색 서비스 판매
 상업용 서지 CD-ROM

 1990년대
 인터넷과 웹(World Wide Web) 등장
 텍스트, 이미지, 오디오, 비디오 파일에 대한 내용기반 검색

 2000년대
 웹의 발전, 웹 검색이 가장 강력한 검색 시스템이 됨

정보검색의 주요 관심

 문헌과 질의 색인
 최적의 색인 방법은 무엇인가?

 질의 평가 (검색 실행)
 문헌과 질의가 얼마나 유사한가?

 시스템 평가
 얼마나 좋은 시스템인가?
 검색한 문헌이 적합(relevant)한가? (정확률; precision)
 모든 적합 문헌을 검색했는가? (재현률; recall)

무엇을 배우는가?

 색인어 추출과 언어학적 처리
 불리언 검색과 비불리언 검색
 사전파일
 인용색인
 정보검색 성능평가
 질의확장
 문헌 클러스터링
 텍스트 범주화
 텍스트 요약
 웹 문서 검색
 내용기반 검색

제1장 정보검색소개

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 제1장 정보검색소개

Similar to 제1장 정보검색소개 (20)

More from Chang-yong Jung

More from Chang-yong Jung (13)

제1장 정보검색소개