Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
정보검색                  제1장.                                        IntroductionINFORMATION RETRIEVAL   강의: 정창용 (timothy97@g...
강의소개 주교재 : 정보검색 이론과 실제 (노정순 著, 글누리) 부교재 : 최신 정보검색론 (안동언 외, 교보문고) 성적   중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5% 과제의 평가  ...
정보검색이란? Goal   대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것         정보원       검색 / 결과    정보검색 이용자
정보검색시스템과 DBMS의 비교 유사점  대용량  소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가   능함 차이점 (정보검색시스템의 특징)  확률론적  검색 결과가 사용자의 요...
정보검색을 위한 가능한 방법1. 문자열 일치(string matching) 검색    모든 문헌의 문자열을 연속적으로 비교/검색    느림    성능향상의 어려움    Ex) 리룩스 명령어 grep2. 색인(in...
색인기반(Indexing-based) 검색
정보검색시스템 구성 구성  Crawler(수집기): 대상 데이터의 수집  Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화  Searcher(검색기): 요구에 적합한 정보 검색 고려사항  ...
정보검색 과정                정보의 구조 분석                 정보의 조직                 파일의 조직      색인파일                  문헌파일         탐 색...
정보검색 시스템의 종류 색인되는 자료의 물리적 특성에 따라    텍스트 정보검색    웹 정보검색    이미지 정보검색    소리 정보검색    동영상 정보검색 내용기반 정보검색 (Content-based ...
정보검색 모델 용어의 상호의존성 여부에 따라 모델 구분   용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가? 완전 일치(exact matching)   완전하게 일치하는 데이터만 검색   불리...
정보검색 모델 –                 CO NT.                           용어 상호의존성수학적 기반                without                      with...
Ad hoc 검색과 필터링                           질의     문헌DB     Ad hoc                동적     정적Routing (Filtering)        정적     ...
과제#1)             Filtering (Routing) 검색 활용N a v e r 와 DAU M 을 이 용 하 여 특 정 검 색 어 의 검 색 결 과 를 R S S 로 구 독 하 라 .I T 와 관 련 된 ...
정보검색의 발전 과정 1950년대  1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템  1964년 미국 국립의학도서관(NLM)서 대규모 도입 1960년대  Protosynthex (SDC 개...
정보검색의 발전 과정                                      – CO N T. 도서관에서의 정보 검색 활용 (1950년대) ISBN: 0-201-12227-8 Author: Salton, G...
정보검색의 발전 과정           – CO N T. 1970년대  일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환 1980년대  인접연산자를 사용한 본문 검색시스템으로의 전환  사용자(end-use...
정보검색의 주요 관심 문헌과 질의 색인  최적의 색인 방법은 무엇인가? 질의 평가 (검색 실행)  문헌과 질의가 얼마나 유사한가? 시스템 평가  얼마나 좋은 시스템인가?  검색한 문헌이 적합(relevant...
무엇을 배우는가?   색인어 추출과 언어학적 처리   불리언 검색과 비불리언 검색   사전파일   인용색인   정보검색 성능평가   질의확장   문헌 클러스터링   텍스트 범주화   텍스트 요약   웹...
Upcoming SlideShare
Loading in …5
×

제1장 정보검색소개

2,129 views

Published on

Published in: Education
  • Be the first to comment

제1장 정보검색소개

  1. 1. 정보검색 제1장. IntroductionINFORMATION RETRIEVAL 강의: 정창용 (timothy97@gmail.com) http://www.facebook.com/hhuIR Korea Maritime University Navis Control Inc.
  2. 2. 강의소개 주교재 : 정보검색 이론과 실제 (노정순 著, 글누리) 부교재 : 최신 정보검색론 (안동언 외, 교보문고) 성적  중간고사: 30%, 기말고사: 35%, 과제: 30%, 출석: 5% 과제의 평가  기한 후 1주 내 제출 시: 0~30% 감점 (순차적)  기한 후 2주 내 제출 시: 40% 감점  그 후 제출 시: 60% 감점 강의 페이지 : http://www.facebook .com/hhuIR
  3. 3. 정보검색이란? Goal  대규모 문헌 집합으로부터 정보 요구에 적합한 문헌을 찾는 것 정보원 검색 / 결과 정보검색 이용자
  4. 4. 정보검색시스템과 DBMS의 비교 유사점  대용량  소멸성(volatility): 변경가능성. 계속적인 데이타의 삽입/수정/삭제 가 능함 차이점 (정보검색시스템의 특징)  확률론적  검색 결과가 사용자의 요구에 맞는지 확신할 수 없음  비정형 데이터(unstructured data)  구조화되어 있지 않음  동일한 크기, 일정한 크기 아님  SQL 같은 정규화된 쿼리를 사용할 수 없음  정형 데이터에 비해 검색속도 느림  색인을 위한 다량의 데이터 저장공간 필요
  5. 5. 정보검색을 위한 가능한 방법1. 문자열 일치(string matching) 검색  모든 문헌의 문자열을 연속적으로 비교/검색  느림  성능향상의 어려움  Ex) 리룩스 명령어 grep2. 색인(indexing) 검색  빠름  성능 개선에 유연함
  6. 6. 색인기반(Indexing-based) 검색
  7. 7. 정보검색시스템 구성 구성  Crawler(수집기): 대상 데이터의 수집  Indexer(색인기): 수집된 데이터를 빨리 찾을 수 있도록 구조화  Searcher(검색기): 요구에 적합한 정보 검색 고려사항  검색 대상  폭발적으로 증가하는 컨텐츠 수  검색 조건  사용자 질의에 대한 빠른 응답시간
  8. 8. 정보검색 과정 정보의 구조 분석 정보의 조직 파일의 조직 색인파일 문헌파일 탐 색 정 렬 분 류 질의처리 클러스터링적합성 질의작성 요 약평 가 정보요구분석
  9. 9. 정보검색 시스템의 종류 색인되는 자료의 물리적 특성에 따라  텍스트 정보검색  웹 정보검색  이미지 정보검색  소리 정보검색  동영상 정보검색 내용기반 정보검색 (Content-based IR)  그림의 색상, 형태  노래(소리), 악보 그림 텍스트 정보검색  텍스트 문헌  멀티미디어 데이터에 수동으로 입력된 데이터  제목, 주제, 비디오에서 추출된 자막, 오디오에서 변환된 문자 등
  10. 10. 정보검색 모델 용어의 상호의존성 여부에 따라 모델 구분  용어의 중요도(가중치)가 서로 다른 용어의 가중치에 영향을 받는가? 완전 일치(exact matching)  완전하게 일치하는 데이터만 검색  불리언 모델 부분 일치(par tial matching)  질의와 조금이라도 일치하는 데이터 모두 검색  일치도(유사도) 계산을 위한 수학적 모델에 따라 나눠짐  대수이론: 벡터공간 모델, 잠재의 모델, 신경망 모델  확률이론: 이진 독립 모델, 언어 모델, 추론망 모델
  11. 11. 정보검색 모델 – CO NT. 용어 상호의존성수학적 기반 without with 퍼지집합집합이론 불리언모델 확장된 불리언 정규화된 벡터공간대수이론 벡터공간 모델 잠재의미 신경망모델 2진독립 모델 언어 모델확률이론 추론네트워크
  12. 12. Ad hoc 검색과 필터링 질의 문헌DB Ad hoc 동적 정적Routing (Filtering) 정적 동적 이용자1 이용자들의 라우팅 시스템 이용자1 요구 이용자1 신착문서 [라우팅 시스템]
  13. 13. 과제#1) Filtering (Routing) 검색 활용N a v e r 와 DAU M 을 이 용 하 여 특 정 검 색 어 의 검 색 결 과 를 R S S 로 구 독 하 라 .I T 와 관 련 된 서 로 다 른 4 개 의 검 색 어 를 두 개 는 N a v e r 를 이 용 하 고 , 나 머 지 2 개 는 DAU M 을이용하여 검색하고 그 결과를 RSS로 구독한다.단 , R S S Re a d er 는 G o o g l e re a d e r 를 사 용 하 고 , 검 색 어 중 1 개 는 I T 가 이 외 의 분 야 도 허 용함.제출내용① g o o g l e re a d e r 상 에 해 당 R S S 가 등 록 되 어 있 는 화 면 을 캡 쳐 한 것 ( j p g o r p n g 파 일 )② RSS feed 목록을 내보내기 한 opml 파일 (subscriptions.xml )제출기한: 다음 수업시간 전 (점수는 기한 내에 제출하는 경우에만 부여함)<참고>* h t t p : / /w w w. co de o rd i e . o rg/ a ge n t / n e w s 2 r s s /* N a ve r = > h t tp : // n e w s s e a rch . n a ve r. co m / s e a rc h . n a ve r? w h e re = r s s & q u e r y = { ke y w o rd}* DAU M = > h t t p : / / www. da u m . n e t* G o o g l e re a d e r = > h t t p : / / re a de r. go o g l e . c o m* o p m l 파 일 은 g o o g l e re a d e r 의 설 정 화 면 에 서 가 져 오 기 / 내 보 내 기 메 뉴 를 이 용 하 면 됨 .
  14. 14. 정보검색의 발전 과정 1950년대  1954년 : 컴퓨터가 정보검색에 처음 사용. Batch 탐색 시스템  1964년 미국 국립의학도서관(NLM)서 대규모 도입 1960년대  Protosynthex (SDC 개발)  On-line 시스템.  Golden Book Encyclopedia 내용을 탐색.  1965년 ARPA의 지원으로 전국적인 검색 네트워크 시스템으로 실험  CONVERSE (Lockheed 개발)  자체 도서관 목록검색  전국 NASA 기관에 설치된 24개의 터미널에 연결  유럽 최초의 온라인 탐색서비스에 사용됨  현재 온라인 벤더시스템 Dialog로 발전
  15. 15. 정보검색의 발전 과정 – CO N T. 도서관에서의 정보 검색 활용 (1950년대) ISBN: 0-201-12227-8 Author: Salton, Gerard Title: Automatic text processing: the transformation, analysis, and retrieval of information by computer Editor: Addison-Wesley Date: 1989 Content: <Text>
  16. 16. 정보검색의 발전 과정 – CO N T. 1970년대  일반인 누구나 사용 가능한 전국 규모의 시스템으로 변환 1980년대  인접연산자를 사용한 본문 검색시스템으로의 전환  사용자(end-user) 인터페이스 등장  오프라인 검색 서비스 판매  상업용 서지 CD-ROM 1990년대  인터넷과 웹(World Wide Web) 등장  텍스트, 이미지, 오디오, 비디오 파일에 대한 내용기반 검색 2000년대  웹의 발전, 웹 검색이 가장 강력한 검색 시스템이 됨
  17. 17. 정보검색의 주요 관심 문헌과 질의 색인  최적의 색인 방법은 무엇인가? 질의 평가 (검색 실행)  문헌과 질의가 얼마나 유사한가? 시스템 평가  얼마나 좋은 시스템인가?  검색한 문헌이 적합(relevant)한가? (정확률; precision)  모든 적합 문헌을 검색했는가? (재현률; recall)
  18. 18. 무엇을 배우는가? 색인어 추출과 언어학적 처리 불리언 검색과 비불리언 검색 사전파일 인용색인 정보검색 성능평가 질의확장 문헌 클러스터링 텍스트 범주화 텍스트 요약 웹 문서 검색 내용기반 검색

×