Your SlideShare is downloading. ×
0
정보검색                  제2장.                                        정보의 특성과INFORMATION RETRIEVAL                   문헌파일   강의...
OVERVIEW 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
벤더 시스템의 구성       외부의 DB 생성기관이 생산한 다양       한 문헌 DB를 가져와 벤더시스템에       적합한 형식으로 수정, 탐색을 제공
OUTLINE 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
문헌파일의 구조 LC * OPAC       구조화된(structured) 텍스트       서지정보 + 소장정보 ERIC : 학술정보검색 시스템       구조화된 텍스트       서지사항 + 초록 + 본...
문헌파일의 구조                      - M A RC t a g【MARC 필드 정보】 - http://catalog.loc.gov or http://catalog2.loc.gov
문헌파일의 구조   - Dialog
문헌파일의 구조   – W W W. N Y T I M E S . CO M
LC에서의 검색결과
OVERVIEW 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
정보의 속성과 속성값 필드로 구조화된 텍스트  외적인 속성   정보가 발생할 때 가지고 있는 값   ex) 문헌제목, 저자명 등   통일된 입력 방식이 필요  내적인 속성   DB 생산자가 색인어를 결정해야...
데이터베이스별 저자명 표현방식 DB 이름         입력되는 저자 수             표현방식                       예  BIOSIS          9명, et al     성 이름(I) 둘...
데이터베이스별 정보원 형식 비교       DB 이름                                정보원 표현 형식Compendex           완전서명 v 2 n 3 Sep 1990 p 221-238E...
OVERVIEW 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
문헌파일의 재조직 문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환  ASCII 코드, EBCDIC 코드  UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용) HTML, XML에서 바이트열을 문자열로 ...
색인할 문헌단위 색인할 문헌단위 결정  복합문헌을 분리하여 색인할 것인가? (첨부된 e-메일)  문서전체 혹은 장(chapter), 단락으로 문헌을 나눌 것인가?   Dialog : 문단 단위 색인   OVID...
색인 대상 필드
탐색 접근점과 제한점 탐색의 접근점과 제한점 결정  탐색에 사용할 필드를 결정   접근점으로 사용하는 필드에 대해서 색인  LC OPAC : 저자명, 서명, 주제명, LCCN, ISBN, ISSB 필드 사용  ...
탐색 접근점과 제한점            – CO N T. 접근 필드의 단어(word)단위/구(phrase)단위 색인    색인을 필드 값 그대로 할 것인지(구단위), 단어단위로 할 것인지 결정    초록, 본문 ...
Upcoming SlideShare
Loading in...5
×

제2장 정보의 특성과 문헌파일

561

Published on

Published in: Education
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
561
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
33
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "제2장 정보의 특성과 문헌파일"

  1. 1. 정보검색 제2장. 정보의 특성과INFORMATION RETRIEVAL 문헌파일 강의: 정창용 (timothy97@gmail.com) http://www.facebook.com/hhuIR Korea Maritime University Navis Control Inc.
  2. 2. OVERVIEW 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  3. 3. 벤더 시스템의 구성 외부의 DB 생성기관이 생산한 다양 한 문헌 DB를 가져와 벤더시스템에 적합한 형식으로 수정, 탐색을 제공
  4. 4. OUTLINE 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  5. 5. 문헌파일의 구조 LC * OPAC  구조화된(structured) 텍스트  서지정보 + 소장정보 ERIC : 학술정보검색 시스템  구조화된 텍스트  서지사항 + 초록 + 본문 Google  비구조화된(unstructured) 텍스트  <body> 태그 내에 포함된 free text  저자명, 본문내용 등으로 한정하여 검색할 수 없음 XML로 표현된 웹 페이지  부분 구조화된(semi-structured) 텍스트*LC : Library of Congress (미국 의회도서관)
  6. 6. 문헌파일의 구조 - M A RC t a g【MARC 필드 정보】 - http://catalog.loc.gov or http://catalog2.loc.gov
  7. 7. 문헌파일의 구조 - Dialog
  8. 8. 문헌파일의 구조 – W W W. N Y T I M E S . CO M
  9. 9. LC에서의 검색결과
  10. 10. OVERVIEW 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  11. 11. 정보의 속성과 속성값 필드로 구조화된 텍스트  외적인 속성  정보가 발생할 때 가지고 있는 값  ex) 문헌제목, 저자명 등  통일된 입력 방식이 필요  내적인 속성  DB 생산자가 색인어를 결정해야 하는 값  ex) 문헌의 주제 등
  12. 12. 데이터베이스별 저자명 표현방식 DB 이름 입력되는 저자 수 표현방식 예 BIOSIS 9명, et al 성 이름(I) 둘째 이름(I) Cochrane P A. MEDLINE 10명, et al. 성 이름(I) Cochrane PA EMBASE 성 이름(I). 둘째 이름(I) Cochrane P.A. FSTA 성, 이름(I). 둘째 이름(I) Cochrane, P.A.Dissertation 성, 이름(F) 둘째 이름(F) Cochrane, Pauline Atherton AbstractsCompendex 16명 Cochrane, Pauline Atherton Cochrane, Pauline A. ERIC 2명, And Others 성, 이름 Cochrane, P. Cochrane, P. A. NTIS 5명
  13. 13. 데이터베이스별 정보원 형식 비교 DB 이름 정보원 표현 형식Compendex 완전서명 v 2 n 3 Sep 1990 p 221-238ERIC 완전서명 v2 n3 p221-238 Sep 1990FSTA 완전서명 1990, 2 (2) 221-238MLA Bibliography 완전서명, 출판지. 1990 Sept.; 2(3) : 221-238.T&IASAP 완전서명 v2 p221(18)BIOSIS 완전서명 2 (3). 1990. 221-238Zoological Record 간략서명 2(3) 1990 : 221-238MEDLINE 간략서명 Sep 1990, 2 (3) p. 221-38
  14. 14. OVERVIEW 문헌파일의 구조 정보의 속성과 속성값 서비스기관에서 문헌파일의 재조직  색인할 문헌단위  탐색의 접근점과 제한점  접근 필드의 단어단위/구단위 색인
  15. 15. 문헌파일의 재조직 문헌의 텍스트 인코딩을 검색 시스템과 동일하게 변환  ASCII 코드, EBCDIC 코드  UTF-8 유니코드 (대부분의 다국어 지원 시스템에서 사용) HTML, XML에서 바이트열을 문자열로 변환  Ex) &amp; ⇒ & Markup 언어에서 Tag 처리 DB 생산자의 차이에 따른 레코드 구조 변경
  16. 16. 색인할 문헌단위 색인할 문헌단위 결정  복합문헌을 분리하여 색인할 것인가? (첨부된 e-메일)  문서전체 혹은 장(chapter), 단락으로 문헌을 나눌 것인가?  Dialog : 문단 단위 색인  OVID : 문장 단위 색인  본문(fulltext) 전체 혹은 일부분만을 색인할 것인가?  Google : 전반부 520 KB  Yahoo : 210 KB  Microsoft : 1,020 KB
  17. 17. 색인 대상 필드
  18. 18. 탐색 접근점과 제한점 탐색의 접근점과 제한점 결정  탐색에 사용할 필드를 결정  접근점으로 사용하는 필드에 대해서 색인  LC OPAC : 저자명, 서명, 주제명, LCCN, ISBN, ISSB 필드 사용  Dialog : DB의 거의 모든 필드 사용
  19. 19. 탐색 접근점과 제한점 – CO N T. 접근 필드의 단어(word)단위/구(phrase)단위 색인  색인을 필드 값 그대로 할 것인지(구단위), 단어단위로 할 것인지 결정  초록, 본문 : 단어단위  서명 : 구단위(LC)  학술논문명 : 단어단위(Dialog) LC ERIC Dialog ERIC 저자명 구단위, 단어단위 색인 단어단위 구단위 서명 구단위, 단어단위 색인 단어단위 색인
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×