1. 과제 #3) 역색인파일(inverted index file) 생성과 검색기 만들기
본 과제는 역색인파일 생성과 검색기를 만드는 것을 목적으로 한다.
<입력 데이터>
1) doc*.txt : 원본 문헌 파일
파일명은 D01.txt, D02.txt, …, Dnn.txt (nn은 두 자리 숫자)
2) token*.txt : 용어(term) 목록 파일
파일명은 Token01.txt, Token02.txt, …, Tokennn.txt (nn은 두 자리 숫자)
단, 각 파일은 같은 번호의 문헌 파일에서 추출한 것임.
Token01.txt : D01.txt에서 추출
Token02.txt : D02.txt에서 추출
…
Tokennn.txt : Dnn.txt에서 추출
<프로그램 동작>
1) terms 폴더에 완전한 색인어 목록 파일을 생성한다.
token 폴더에 있는 입력 파일은 특수기호, 숫자 및 불용어 처리가 되지 않은 단순한 단
어 목록이다. 각 파일을 읽어 특수기호, 숫자 및 불용어 제거 및 적절한 처리를 하여 색
인어 목록을 생성한다.
예) tokenToken01.txt 파일을 처리한 후 termterms01.txt 파일을 생성한다.
2) 텍스트 형식의 역색인파일(inverted index file)을 생성한다.
실행방법) [실행파일명.exe] –o idxfile.txt
출력파일 형식)
[색인어1]||[포스팅수]||[용어가중치]||[문헌1],[문헌2]…[문헌n]
[색인어2]||[포스팅수]||[용어가중치]||[문헌8],[문헌9]…[문헌k]
…
실제 예)
computer||8||D02.txt,D08.txt, …, D11.txt
information||2||D01.txt,D12.txt
3) 검색어를 입력하여 검색결과를 출력한다. 단, 코사인 계수를 이용하여 검색결과를 순위화
하고 화면에 표시한다.
실행방법) [실행파일명.exe] –s “Korean information retrieval”
결과형식)
[순위] [유사도] [문헌파일명]
실제 예)
1 0.5434 D02.txt
2 0.3421 D03.txt
3 0.2231 D10.txt
2. <제출내용>
1) 프로그램 소스(C/C++ 코드); visual studio 사용 시, 프로젝트 폴더 전체 제출
<주의사항>
1) 제출기한: 2013년 5월 21일 오전 09:00 (2주간)
2) 정규표현식(regular expression)을 사용하지 않아야 한다.
3) 프로그램 동작은 실행 인자에 따라 달리 동작해야 한다. (문제를 정확히 읽고 파악할 것)
4) 입력데이터는 문제에 주어진 형태와 동일하다고 가정한다.
5) 기타 질문은 강의 페이지를 통해서 문의할 것 (http://www.facebook.com/hhuIR)