검색품질을 관리하기 위해서는 여러가지 품질도구들을 필요로 한다. 대표적인 것이 스팸단어사전과 문서품질점수측정기.
스팸단어사전의 경우 사전관리자가 수집하는 수동방식이 있지만, 본 문서에서는 자동으로 스팸단어를 수집하는 방안을 설명한다. 스팸단어의 신조어는 기존 스팸단어와 같이 출현할 가능성이 높다는 가설하에 규칙기반으로 스팸 신조어를 추출한다.
문서품질기의 경우 단어 패턴들을 기존의 대용량 문서셋과 비교하여 드문 경우를 비정상이라 판단하여 품질점수를 낮춘다.
두가지 도구는 각기 장단점이 있고 품질관리를 위해 처리할 수 있는 한계가 존재하므로 이를 하나의 품질관리기의 속성으로 출력하여 최종적으로 사람이 관리하도록 한다.
검색품질을 관리하기 위해서는 여러가지 품질도구들을 필요로 한다. 대표적인 것이 스팸단어사전과 문서품질점수측정기.
스팸단어사전의 경우 사전관리자가 수집하는 수동방식이 있지만, 본 문서에서는 자동으로 스팸단어를 수집하는 방안을 설명한다. 스팸단어의 신조어는 기존 스팸단어와 같이 출현할 가능성이 높다는 가설하에 규칙기반으로 스팸 신조어를 추출한다.
문서품질기의 경우 단어 패턴들을 기존의 대용량 문서셋과 비교하여 드문 경우를 비정상이라 판단하여 품질점수를 낮춘다.
두가지 도구는 각기 장단점이 있고 품질관리를 위해 처리할 수 있는 한계가 존재하므로 이를 하나의 품질관리기의 속성으로 출력하여 최종적으로 사람이 관리하도록 한다.