SlideShare a Scribd company logo
과제 #3) 역색인파일(inverted index file) 생성과 검색기 만들기
본 과제는 역색인파일 생성과 검색기를 만드는 것을 목적으로 한다.
<입력 데이터>
1) doc*.txt : 원본 문헌 파일
파일명은 D01.txt, D02.txt, …, Dnn.txt (nn은 두 자리 숫자)
2) token*.txt : 용어(term) 목록 파일
파일명은 Token01.txt, Token02.txt, …, Tokennn.txt (nn은 두 자리 숫자)
단, 각 파일은 같은 번호의 문헌 파일에서 추출한 것임.
Token01.txt : D01.txt에서 추출
Token02.txt : D02.txt에서 추출
…
Tokennn.txt : Dnn.txt에서 추출
<프로그램 동작>
1) terms 폴더에 완전한 색인어 목록 파일을 생성한다.
token 폴더에 있는 입력 파일은 특수기호, 숫자 및 불용어 처리가 되지 않은 단순한 단
어 목록이다. 각 파일을 읽어 특수기호, 숫자 및 불용어 제거 및 적절한 처리를 하여 색
인어 목록을 생성한다.
예) tokenToken01.txt 파일을 처리한 후 termterms01.txt 파일을 생성한다.
2) 텍스트 형식의 역색인파일(inverted index file)을 생성한다.
실행방법) [실행파일명.exe] –o idxfile.txt
출력파일 형식)
[색인어1]||[포스팅수]||[용어가중치]||[문헌1],[문헌2]…[문헌n]
[색인어2]||[포스팅수]||[용어가중치]||[문헌8],[문헌9]…[문헌k]
…
실제 예)
computer||8||D02.txt,D08.txt, …, D11.txt
information||2||D01.txt,D12.txt
3) 검색어를 입력하여 검색결과를 출력한다. 단, 코사인 계수를 이용하여 검색결과를 순위화
하고 화면에 표시한다.
실행방법) [실행파일명.exe] –s “Korean information retrieval”
결과형식)
[순위] [유사도] [문헌파일명]
실제 예)
1 0.5434 D02.txt
2 0.3421 D03.txt
3 0.2231 D10.txt
<제출내용>
1) 프로그램 소스(C/C++ 코드); visual studio 사용 시, 프로젝트 폴더 전체 제출
<주의사항>
1) 제출기한: 2013년 5월 21일 오전 09:00 (2주간)
2) 정규표현식(regular expression)을 사용하지 않아야 한다.
3) 프로그램 동작은 실행 인자에 따라 달리 동작해야 한다. (문제를 정확히 읽고 파악할 것)
4) 입력데이터는 문제에 주어진 형태와 동일하다고 가정한다.
5) 기타 질문은 강의 페이지를 통해서 문의할 것 (http://www.facebook.com/hhuIR)

More Related Content

More from Chang-yong Jung

제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급
Chang-yong Jung
 
제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념
Chang-yong Jung
 
제7장 비불리언 모델
제7장 비불리언 모델제7장 비불리언 모델
제7장 비불리언 모델
Chang-yong Jung
 
제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리Chang-yong Jung
 
제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일Chang-yong Jung
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개Chang-yong Jung
 

More from Chang-yong Jung (7)

제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급제2장 IMO / IHO / SOLAS 규약 / 선급
제2장 IMO / IHO / SOLAS 규약 / 선급
 
제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념제1장 강의소개 / 선박구조 및 기본개념
제1장 강의소개 / 선박구조 및 기본개념
 
제7장 비불리언 모델
제7장 비불리언 모델제7장 비불리언 모델
제7장 비불리언 모델
 
제5장 사전파일
제5장 사전파일제5장 사전파일
제5장 사전파일
 
제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리제3장 색인어 추출을 위한 언어학적 처리
제3장 색인어 추출을 위한 언어학적 처리
 
제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일제2장 정보의 특성과 문헌파일
제2장 정보의 특성과 문헌파일
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 

2013 1학기 과제#3

  • 1. 과제 #3) 역색인파일(inverted index file) 생성과 검색기 만들기 본 과제는 역색인파일 생성과 검색기를 만드는 것을 목적으로 한다. <입력 데이터> 1) doc*.txt : 원본 문헌 파일 파일명은 D01.txt, D02.txt, …, Dnn.txt (nn은 두 자리 숫자) 2) token*.txt : 용어(term) 목록 파일 파일명은 Token01.txt, Token02.txt, …, Tokennn.txt (nn은 두 자리 숫자) 단, 각 파일은 같은 번호의 문헌 파일에서 추출한 것임. Token01.txt : D01.txt에서 추출 Token02.txt : D02.txt에서 추출 … Tokennn.txt : Dnn.txt에서 추출 <프로그램 동작> 1) terms 폴더에 완전한 색인어 목록 파일을 생성한다. token 폴더에 있는 입력 파일은 특수기호, 숫자 및 불용어 처리가 되지 않은 단순한 단 어 목록이다. 각 파일을 읽어 특수기호, 숫자 및 불용어 제거 및 적절한 처리를 하여 색 인어 목록을 생성한다. 예) tokenToken01.txt 파일을 처리한 후 termterms01.txt 파일을 생성한다. 2) 텍스트 형식의 역색인파일(inverted index file)을 생성한다. 실행방법) [실행파일명.exe] –o idxfile.txt 출력파일 형식) [색인어1]||[포스팅수]||[용어가중치]||[문헌1],[문헌2]…[문헌n] [색인어2]||[포스팅수]||[용어가중치]||[문헌8],[문헌9]…[문헌k] … 실제 예) computer||8||D02.txt,D08.txt, …, D11.txt information||2||D01.txt,D12.txt 3) 검색어를 입력하여 검색결과를 출력한다. 단, 코사인 계수를 이용하여 검색결과를 순위화 하고 화면에 표시한다. 실행방법) [실행파일명.exe] –s “Korean information retrieval” 결과형식) [순위] [유사도] [문헌파일명] 실제 예) 1 0.5434 D02.txt 2 0.3421 D03.txt 3 0.2231 D10.txt
  • 2. <제출내용> 1) 프로그램 소스(C/C++ 코드); visual studio 사용 시, 프로젝트 폴더 전체 제출 <주의사항> 1) 제출기한: 2013년 5월 21일 오전 09:00 (2주간) 2) 정규표현식(regular expression)을 사용하지 않아야 한다. 3) 프로그램 동작은 실행 인자에 따라 달리 동작해야 한다. (문제를 정확히 읽고 파악할 것) 4) 입력데이터는 문제에 주어진 형태와 동일하다고 가정한다. 5) 기타 질문은 강의 페이지를 통해서 문의할 것 (http://www.facebook.com/hhuIR)