Search engine mechanism(기초 검색엔진 작업구조)

><
Workﬂow of
Search Engine
SEARCH ENGINE WORKFLOW
WHITE.COTTON Inc.’s
김윤섭
1
비전공자를 위한 검색엔진의 작업과정

얻어갈만한 것들
What are the
advantages
• DB와 검색엔진의 차이
• SEO 기술들의 이론적 해석
• 문헌 점수 응용법

><SEARCH ENGINE WORKFLOW
검색에 대하여
데이터베이스와 검색엔진
에서의 검색
Spider에 대하여
웹에 있는 문헌을 끊임없
이 찾아나가는 과정
색인과 점수계산
빠른 정보 전달을 위한
Index와 점수 계산
01 02 03
검색엔진의 기본 구조
3

><
Q: 검색엔진은 커다란 DB일까?
DB와 검색엔진에서의 검색
5

><SEARCH ENGINE WORKFLOW 6
• DB와 검색엔진은 다르다
• 교집합은 있지만 누가 누구의 일부분이 아님

><
•DB에서 중요시 되는 것의 일부
•실시간 접근성
•항시 변화함
•동시 공유
…
•은행, 결제, 게임, 계정정보 등에
사용
주요한 것들 중 하나: 탄생배경
무엇이 다를까?
7
•검색엔진이 중요시 하는 것들
•정확도 (precision)
•재현율 (recall)*
…
•원하는 문헌을 찾기 쉽게 하기 위해
•webpage검색, 서적, 국가기록 등에
사용

><
•DB는 사용하는 데이터를 직접 관
리할 수 있다.
주요한 것들 중 하나: 데이터
무엇이 다를까?
8
•검색엔진은 웹을 여행하면서 문헌을
찾고, 핵심단어(term)를 색인 하여 미
리 보여주는 역할
•블로그에 글을 올렸지만 검색에 한참
뒤에 반영 되지 않는 이유

http://www.internetlivestats.com/total-number-of-websites/#tr

검색엔진은 맛집블로거와 같이
미리 문헌을 읽어보고, 사용자
가 질문했을때 원할만한 문헌(웹
사이트)를 소개해 줍니다.

https://www.youtube.com/watch?v=BNHR6IQJGZs (48초까지

Spider에 대하여
14
•문서 수집을 위한 검색엔진의 수집장치( Spider, Crawler 등으로 불림)
•사용자가 검색과는 관계없이 별도로 움직이는 수집만을 위한 장치
•시작점에서 URL을 타고 들어가고, 그곳에서 다른 URL을 만나면 다시 타고
들어간다

Spider가 페이지를 넘나드는 모습을 보여주는 이미지

Q: White.Cotton에 Spider가 방문하면?
A: Home, Best, New, Sale,상품 페이지의
Link를 Spider가 기억 후 방문
Spider에 대하여

Spider 특징들
17
•공손함 : Spider는 수집 금지 설정이 되어있는 페이지는 수집하지 않는다.
•분산성 : Spider는 여러개의 분산처리 가능한 환경이 요구된다.
•우수성 : 유용한 것을 먼저 가져올 수 있어야 한다.

Spider 특징들
18
•최신성 : 가장 최신의 문헌 데이터를 획득할 수 있어야 한다.
•확장성 : 새로운 프로토콜을 허용할 수 있는 확장 가능한 설계가 필요.

><
03 색인과 분류하기
19

https://youtu.be/BNHR6IQJGZs?t=45s

색인의 필요성
21
•수많은 데이터 중에 사용자에가 원하는 적합한 정보를 단시간에 찾기란 불가능
•사용자의 검색어에 걸맞는 추천을 위해, 사전 연산작업이 필요

용어 어휘 정리
22
•불용어를 전처리 (ex. of, as, in, is)
•영어기준으로 복수형, 동사 과거/미래형, 대소문자 등 -> 원형으로 변형
•용어를 통일하고, 해당 문헌에 어떤 단어가 어느 위치에 존재하는지 색인

점수 계산
23
•동일한 검색어를 가진 많은 문헌 중 양질의 문헌을 얻기 위해 각 문헌마다
점수를 부여한다.
•점수 계산법
•단어 가중치
•페이지 참조 수
•HTML Header Tag 설정 완성도

점수 계산 - 단어 가중치
24
•Boolean 검색
•해당 키워드가 있으면 1 없으면 0이다. 1이 전부 나오는 항목들을 검색
결과에 보여주는 검색방법.
•우선순위가 없다.
•AND, OR, NOT 연산자로 다른 키워드를 결합할 수 있다.

25
•TF(Term Frequency)
•문헌 내 단어의 빈도 수를 의미 // {‘류준열’: {'count': 7}, '팬': {'count': 6}, '미팅': {'count': 5}}
•단어의 빈도 수가 증가되면 점수가 1차곡선 처럼 상승한다.
•이외에도 가중치의 영향력을 줄이기 위해 log Scale, 길이에 따라 빈도
를 완화시키는 증가 빈도 등이 있다.

26
•IDF(Inverse Document Frequency)
•단어가 얼마나 흔한지의 정도를 파악하는 수식
•흔할수록 점수가 낮게 되어 검색 결과가 정확할 수 없다.
•Unique 할수록 문헌에서 결정적인 역할을 하는 key로써 작용할 수 있
다.

27
•TF-IDF
•TF값과 IDF값을 곱한 수치
•상용에서 많이 사용된 점수계산방법
•TF만으로는 단순히 큰 의미 없지만 높게나올 수 있는 ‘공개’, ‘일’과 같은
단어의 점수로 인해 만족스럽지 못한 항목들이 있게된다.
•IDF는 TF의 이런 부작용을 바로잡아줄 수 있다.

TF 수치를 악용한 examples

><
• Images on 10, 13, 15, 20 : https://www.youtube.com/watch?v=BNHR6IQJGZs
• Images on 28, 29 : Naver Corporation
• Images on 26, 27 : https://ko.wikipedia.org/wiki/TF-IDF
References
31

Search engine mechanism(기초 검색엔진 작업구조)

More Related Content

Similar to Search engine mechanism(기초 검색엔진 작업구조)

Search engine mechanism(기초 검색엔진 작업구조)