Issue crawler

Issue Crawler 언론정보학과 장윤 영남대학교 언론정보학과 2011년 1학기 <웹보메트릭스의이해및실습> 지도교수 : 박한우 교수님

Issue Crawler Issue Crawler는 온라인상의 웹사이트간 링크를 네트워크로 표현하고자 만들어졌다. 자동화된 프로그램을 통해 현재 웹상의 링크들을 네트워크로 표현하는 것을 목표로 한다.

Issue Crawler 시작 URL(uniform resource locator )을 설정하고, 그 URL에서 연결된 페이지(어디까지 연결될지는 설정 가능)를 찾고, 대상이 된 URL 간의 링크를 찾아 네트워크 데이터 형태로 표현해준다.

Issue Crawler “The Lobby” - 프로그램과 관련한 다양한 뉴스들이 올라온다. “Issue Crawler” - 프로그램이 시작되는 페이지이다.

Issue Crawler “Network Manager” - 자신의 계정에 축적된 조사결과를 보여준다. “Archive” - 다른 이들의 연구결과물을 확인할 수 있다.

Issue Crawler Issue Crawler 프로그램 실행 <-이 빈 칸에 원하시는 페이지의 URL을 입력하면 링크 수집이 시작. 분석대상이 되는 페이지의 수는 최소한 두 개 이상이어야 한다.

Issue Crawler “Harvester” 페이지에 최대한 링크가 직접적으로 연결된 URL을 넣으시는 것이 좋다. (예: www.site.com/links).

Issue Crawler Co-link 분석 첫 단계에서는처음입력한 URL 중에서 두 개 이상의링크가 아웃된페이지를찾는다. 두 번째단계는시작페이지 및 이전단계에서수집된페이지간의링크를찾습니다

Issue Crawler Privilege Starting Points : 처음 시작할 때 설정한 URL 프로그램이 반복될 경우(“Set iteration” 옵션이 2 이상으로 설정하였을 경우)에도 분석대상으로 설정할지를 결정한다. 1 이상의 링크만 받더라도 앞으로 반복될 프로그램에서 분석대상으로 남도록 설정한다. (Off – default)

Issue Crawler Perform co-link analysis by : “site”간의 링크를 구할 것인지, “page”간의 링크를 구할 것인지 설정하는 옵션이다. “page”간의 링크를 선택하시는 것이 더 구체적인 결과를 얻으실 수 있다.

Issue Crawler Set iterations : 같은 설정의 이슈크롤러 프로그램을 몇 번 반복해서 실행하는지를 설정한다. 처음 입력한 URL 및 이 URL로부터 두 개 이상의 링크를 받아 분석대상으로 수집된 URL 모두가 시작 URL(seed URL)로 설정된다. 여러 번 반복할수록, 중심성이 강한 노드의 크기가 더 커진다고 볼 수 있다. 웹사이트 간의 사회연결망 조사를 하시는 경우, “1”로 설정하시는 것이 좋다. . (1– default)

Issue Crawler Set crawl depth : 하나, 둘, 셋까지의 웹사이트 내 링크를 조사할 깊이 설정이 가능합니다. 처음 입력한 URL 페이지의 경우 “depth”는 0으로 설정됩니다. 여기서 클릭으로 들어갈 수 있는 다음 페이지의 “depth”가 1로 설정됩니다. (2– default)

Issue Crawler Snowball : Co-link 옵션이 처음 입력한 URL에서 두 개 이상의 링크를 받아야 분석대상이 된다면, 이 옵션에서는 하나의 링크를 받는 주소도 수집된다.

Issue Crawler 처음 입력된 URL에서 연결된 링크를 찾는 단계가 “separation 1단계”입니다. 1단계에서 모인 링크(처음 입력한 URL + 수집된 URL)에서 다시 한 번 연결된 링크를 찾는 단계가 2단계, 같은 작업을 한 번 더하면 3단계가 된다. 이처럼 링크를 통해 페이지 수를 ‘눈덩이’처럼 늘려나가는 옵션이다. 그렇기 때문에 처음 시작 URL을 신중히 결정할 필요가 있다.

Issue Crawler Set degrees of separation : 링크를 찾는 단계를 몇 번 반복할지를 결정합니다. Set crawl depth : 위에서 설명된 바와 같습니다.

Issue Crawler Inter-actor : 처음 입력한 URL 사이의 링크만을 찾도록 하는 옵션이다. Co-link 옵션이나 Snowball 옵션과는 달리, 노드의 수가 추가로 늘어나지 않는다.

Issue Crawler “Launch Crawl”을 누르면 링크 수집이 시작됩니다.

Issue Crawler Choose Nodes to be mapped : 링크수가 많은 최상 몇 순위의 노드만을 대상으로 설정하여 지도에 표기할 수 있습니다. Selection of ties by specificity : 위의 옵션이 노드순위를 대상으로 지도에 표시할 노드를 설정했다면 이 옵션은 링크에 제한을 두어 옵션을 설정합니다. 노드의 질적 관계를 고려하여 관계의 크기를 제한합니다.

Issue Crawler Selection of ties by frequency : 이 옵션은 링크의 크기를 양적으로 제한하여 설정할 노드를 제한합니다. Size of nodes by : 노드의 사이즈를 이 웹사이트를 관계의 대상으로 설정한 정도만을 나타내는“inlink”만을 대상으로 하는지, 이 노드가 다른 노드를 관계로 설정한 “outlink”까지 포함하는지를 결정합니다.

Issue Crawler “advanced option” 페이지 혹은 이전 “network details” 페이지에서 “view depiction”을 누르시면 아래와 같은 결과페이지를 보실 수 있습니다.

Issue crawler

Recommended

Recommended

More Related Content

Similar to Issue crawler

Similar to Issue crawler (14)

More from Webometrics Class

More from Webometrics Class (20)

Issue crawler