SlideShare a Scribd company logo
1 of 21
Issue Crawler       언론정보학과     장윤 영남대학교 언론정보학과 2011년 1학기 <웹보메트릭스의이해및실습> 지도교수 : 박한우 교수님
Issue Crawler Issue Crawler는 온라인상의 웹사이트간 링크를 네트워크로 표현하고자 만들어졌다.  자동화된 프로그램을 통해 현재 웹상의 링크들을 네트워크로 표현하는 것을 목표로 한다.
Issue Crawler 시작 URL(uniform resource locator )을 설정하고, 그 URL에서 연결된 페이지(어디까지 연결될지는 설정 가능)를 찾고, 대상이 된 URL 간의 링크를 찾아 네트워크 데이터 형태로 표현해준다.
Issue Crawler “The Lobby” - 프로그램과 관련한 다양한 뉴스들이 올라온다.  “Issue Crawler” - 프로그램이 시작되는 페이지이다.
Issue Crawler “Network Manager” - 자신의 계정에 축적된 조사결과를 보여준다.  “Archive” - 다른 이들의 연구결과물을 확인할 수 있다.
Issue Crawler Issue Crawler 프로그램 실행 <-이 빈 칸에 원하시는 페이지의 URL을 입력하면 링크 수집이 시작. 분석대상이 되는 페이지의 수는 최소한 두 개 이상이어야 한다.
Issue Crawler “Harvester” 페이지에 최대한 링크가 직접적으로 연결된 URL을 넣으시는 것이 좋다.      (예: www.site.com/links).
Issue Crawler Co-link 분석 첫 단계에서는처음입력한 URL 중에서 두 개 이상의링크가 아웃된페이지를찾는다.  두 번째단계는시작페이지 및 이전단계에서수집된페이지간의링크를찾습니다
Issue Crawler Privilege Starting Points : 처음 시작할 때 설정한 URL 프로그램이 반복될 경우(“Set iteration” 옵션이 2 이상으로 설정하였을 경우)에도 분석대상으로 설정할지를 결정한다. 1 이상의 링크만 받더라도 앞으로 반복될 프로그램에서 분석대상으로 남도록 설정한다. (Off – default)
Issue Crawler Perform co-link analysis by : “site”간의 링크를 구할 것인지, “page”간의 링크를 구할 것인지 설정하는 옵션이다. “page”간의 링크를 선택하시는 것이 더 구체적인 결과를 얻으실 수 있다.
Issue Crawler Set iterations : 같은 설정의 이슈크롤러 프로그램을 몇 번 반복해서 실행하는지를 설정한다.  처음 입력한 URL 및 이 URL로부터 두 개 이상의 링크를 받아 분석대상으로 수집된 URL 모두가 시작 URL(seed URL)로 설정된다. 여러 번 반복할수록, 중심성이 강한 노드의 크기가 더 커진다고 볼 수 있다. 웹사이트 간의 사회연결망 조사를 하시는 경우, “1”로 설정하시는 것이 좋다. . (1– default)
Issue Crawler Set crawl depth : 하나, 둘, 셋까지의 웹사이트 내 링크를 조사할 깊이 설정이 가능합니다. 처음 입력한 URL 페이지의 경우 “depth”는 0으로 설정됩니다. 여기서 클릭으로 들어갈 수 있는 다음 페이지의 “depth”가 1로 설정됩니다. (2– default)
Issue Crawler Snowball : Co-link 옵션이 처음 입력한 URL에서 두 개 이상의 링크를 받아야 분석대상이 된다면, 이 옵션에서는 하나의 링크를 받는 주소도 수집된다.
Issue Crawler 처음 입력된 URL에서 연결된 링크를 찾는 단계가 “separation 1단계”입니다. 1단계에서 모인 링크(처음 입력한 URL + 수집된 URL)에서 다시 한 번 연결된 링크를 찾는 단계가 2단계, 같은 작업을 한 번 더하면 3단계가 된다. 이처럼 링크를 통해 페이지 수를 ‘눈덩이’처럼 늘려나가는 옵션이다. 그렇기 때문에 처음 시작 URL을 신중히 결정할 필요가 있다.
Issue Crawler Set degrees of separation : 링크를 찾는 단계를 몇 번 반복할지를 결정합니다.  Set crawl depth : 위에서 설명된 바와 같습니다.
Issue Crawler Inter-actor : 처음 입력한 URL 사이의 링크만을 찾도록 하는 옵션이다.  Co-link 옵션이나 Snowball 옵션과는 달리, 노드의 수가 추가로 늘어나지 않는다.
Issue Crawler “Launch Crawl”을 누르면 링크 수집이 시작됩니다.
Issue Crawler Choose Nodes to be mapped : 링크수가 많은 최상 몇 순위의 노드만을 대상으로 설정하여 지도에 표기할 수 있습니다.  Selection of ties by specificity : 위의 옵션이 노드순위를 대상으로 지도에 표시할 노드를 설정했다면 이 옵션은 링크에 제한을 두어 옵션을 설정합니다. 노드의 질적 관계를 고려하여 관계의 크기를 제한합니다.
Issue Crawler    Selection of ties by frequency : 이 옵션은 링크의 크기를 양적으로 제한하여 설정할 노드를 제한합니다.  Size of nodes by : 노드의 사이즈를 이 웹사이트를 관계의 대상으로 설정한 정도만을 나타내는“inlink”만을 대상으로 하는지, 이 노드가 다른 노드를 관계로 설정한 “outlink”까지 포함하는지를 결정합니다.   
Issue Crawler “advanced option” 페이지 혹은 이전 “network details” 페이지에서 “view depiction”을 누르시면 아래와 같은 결과페이지를 보실 수 있습니다.
Issue Crawler

More Related Content

Similar to Issue crawler

LexiURL(26dec2007)_Korean Manual
LexiURL(26dec2007)_Korean ManualLexiURL(26dec2007)_Korean Manual
LexiURL(26dec2007)_Korean ManualHan Woo PARK
 
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiKorean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiHan Woo PARK
 
7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기
7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기
7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기Hyochan PARK
 
Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)Webometrics Class
 
집단지성 프로그래밍 04-검색과 랭킹-02
집단지성 프로그래밍 04-검색과 랭킹-02집단지성 프로그래밍 04-검색과 랭킹-02
집단지성 프로그래밍 04-검색과 랭킹-02Kwang Woo NAM
 
웹수집(Web Crawling)
웹수집(Web Crawling)웹수집(Web Crawling)
웹수집(Web Crawling)wang inyoung
 
Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)Han Woo PARK
 
MapReduce based Recommendation System
MapReduce based Recommendation SystemMapReduce based Recommendation System
MapReduce based Recommendation SystemSuHyun Jeon
 
웹의 분화 현상
웹의 분화 현상웹의 분화 현상
웹의 분화 현상Hye-Jin Park
 
웹의 분화 현상
웹의 분화 현상웹의 분화 현상
웹의 분화 현상Hye-Jin Park
 
웹의 분화 현상
웹의 분화 현상웹의 분화 현상
웹의 분화 현상Hye-Jin Park
 
인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다
인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다
인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다Han Woo PARK
 
Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기i4uworks
 

Similar to Issue crawler (14)

LexiURL(26dec2007)_Korean Manual
LexiURL(26dec2007)_Korean ManualLexiURL(26dec2007)_Korean Manual
LexiURL(26dec2007)_Korean Manual
 
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wikiKorean manual for nodexl fb, flickr, twitter, youtube, wiki
Korean manual for nodexl fb, flickr, twitter, youtube, wiki
 
7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기
7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기
7장 네트워크로 세상을 읽다 : 사회 관계망 분석 입문하기
 
Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)
 
집단지성 프로그래밍 04-검색과 랭킹-02
집단지성 프로그래밍 04-검색과 랭킹-02집단지성 프로그래밍 04-검색과 랭킹-02
집단지성 프로그래밍 04-검색과 랭킹-02
 
웹수집(Web Crawling)
웹수집(Web Crawling)웹수집(Web Crawling)
웹수집(Web Crawling)
 
Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)Node xl korean_chapter_11(23nov2010)
Node xl korean_chapter_11(23nov2010)
 
MapReduce based Recommendation System
MapReduce based Recommendation SystemMapReduce based Recommendation System
MapReduce based Recommendation System
 
웹의 분화 현상
웹의 분화 현상웹의 분화 현상
웹의 분화 현상
 
웹의 분화 현상
웹의 분화 현상웹의 분화 현상
웹의 분화 현상
 
웹의 분화 현상
웹의 분화 현상웹의 분화 현상
웹의 분화 현상
 
웹의 분화 현상
웹의 분화 현상웹의 분화 현상
웹의 분화 현상
 
인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다
인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다
인포그래픽스 데이터분석과 저널리즘 7장 네트워크로세상을읽다
 
Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기Google Power Searching - 구글 검색 120% 활용하기
Google Power Searching - 구글 검색 120% 활용하기
 

More from Webometrics Class

검색어 대중도, 연결망 분석 - 21021899 김수빈
검색어 대중도, 연결망 분석 - 21021899 김수빈검색어 대중도, 연결망 분석 - 21021899 김수빈
검색어 대중도, 연결망 분석 - 21021899 김수빈Webometrics Class
 
언론정보학과 4학년 21021863 김귀현
언론정보학과 4학년 21021863 김귀현언론정보학과 4학년 21021863 김귀현
언론정보학과 4학년 21021863 김귀현Webometrics Class
 
언론정보학과 21113132 이은혁
언론정보학과 21113132 이은혁언론정보학과 21113132 이은혁
언론정보학과 21113132 이은혁Webometrics Class
 
웹보메트릭스21110569 이지은
웹보메트릭스21110569 이지은웹보메트릭스21110569 이지은
웹보메트릭스21110569 이지은Webometrics Class
 
웹보메트릭스 손혜영
웹보메트릭스 손혜영웹보메트릭스 손혜영
웹보메트릭스 손혜영Webometrics Class
 
웹보메트릭스 2014-1학기 언론정보학과 오지수
웹보메트릭스 2014-1학기 언론정보학과  오지수 웹보메트릭스 2014-1학기 언론정보학과  오지수
웹보메트릭스 2014-1학기 언론정보학과 오지수 Webometrics Class
 
CJ E&M 계열 채널 웹가시성 분석
CJ E&M 계열 채널 웹가시성 분석CJ E&M 계열 채널 웹가시성 분석
CJ E&M 계열 채널 웹가시성 분석Webometrics Class
 
웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정
웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정
웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정Webometrics Class
 
20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정Webometrics Class
 
그래프서치20810587우대식
그래프서치20810587우대식그래프서치20810587우대식
그래프서치20810587우대식Webometrics Class
 
소셜마케팅 5장 유투브마케팅활용
소셜마케팅 5장 유투브마케팅활용소셜마케팅 5장 유투브마케팅활용
소셜마케팅 5장 유투브마케팅활용Webometrics Class
 
20130506132258 빅데이터시대sns의진화-지용석[1]
20130506132258 빅데이터시대sns의진화-지용석[1]20130506132258 빅데이터시대sns의진화-지용석[1]
20130506132258 빅데이터시대sns의진화-지용석[1]Webometrics Class
 
청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오
청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오
청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오Webometrics Class
 

More from Webometrics Class (20)

검색어 대중도, 연결망 분석 - 21021899 김수빈
검색어 대중도, 연결망 분석 - 21021899 김수빈검색어 대중도, 연결망 분석 - 21021899 김수빈
검색어 대중도, 연결망 분석 - 21021899 김수빈
 
20922266 박경혜
20922266 박경혜20922266 박경혜
20922266 박경혜
 
21013532양몽원
21013532양몽원21013532양몽원
21013532양몽원
 
21110547김지은
21110547김지은21110547김지은
21110547김지은
 
언론정보학과 4학년 21021863 김귀현
언론정보학과 4학년 21021863 김귀현언론정보학과 4학년 21021863 김귀현
언론정보학과 4학년 21021863 김귀현
 
언론정보학과 21113132 이은혁
언론정보학과 21113132 이은혁언론정보학과 21113132 이은혁
언론정보학과 21113132 이은혁
 
21110978 박정은
21110978 박정은 21110978 박정은
21110978 박정은
 
웹보메트릭스21110569 이지은
웹보메트릭스21110569 이지은웹보메트릭스21110569 이지은
웹보메트릭스21110569 이지은
 
웹보메트릭스 손혜영
웹보메트릭스 손혜영웹보메트릭스 손혜영
웹보메트릭스 손혜영
 
웹보메트릭스 2014-1학기 언론정보학과 오지수
웹보메트릭스 2014-1학기 언론정보학과  오지수 웹보메트릭스 2014-1학기 언론정보학과  오지수
웹보메트릭스 2014-1학기 언론정보학과 오지수
 
CJ E&M 계열 채널 웹가시성 분석
CJ E&M 계열 채널 웹가시성 분석CJ E&M 계열 채널 웹가시성 분석
CJ E&M 계열 채널 웹가시성 분석
 
웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정
웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정
웹보팀Ppt 에이랜드 마케팅 제안 김보미, 손세욱, 곽동엽, 임유정
 
20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정20130621134459 언론정보학과20722115임유정
20130621134459 언론정보학과20722115임유정
 
Zara vs aland
Zara vs alandZara vs aland
Zara vs aland
 
20130621103231 페북
20130621103231 페북20130621103231 페북
20130621103231 페북
 
그래프서치20810587우대식
그래프서치20810587우대식그래프서치20810587우대식
그래프서치20810587우대식
 
소셜마케팅 5장 유투브마케팅활용
소셜마케팅 5장 유투브마케팅활용소셜마케팅 5장 유투브마케팅활용
소셜마케팅 5장 유투브마케팅활용
 
유튜브이야기
유튜브이야기유튜브이야기
유튜브이야기
 
20130506132258 빅데이터시대sns의진화-지용석[1]
20130506132258 빅데이터시대sns의진화-지용석[1]20130506132258 빅데이터시대sns의진화-지용석[1]
20130506132258 빅데이터시대sns의진화-지용석[1]
 
청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오
청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오
청소년 위기 극복을 위한 빅데이터 기반 정책 시나리오
 

Issue crawler

  • 1. Issue Crawler 언론정보학과 장윤 영남대학교 언론정보학과 2011년 1학기 <웹보메트릭스의이해및실습> 지도교수 : 박한우 교수님
  • 2. Issue Crawler Issue Crawler는 온라인상의 웹사이트간 링크를 네트워크로 표현하고자 만들어졌다. 자동화된 프로그램을 통해 현재 웹상의 링크들을 네트워크로 표현하는 것을 목표로 한다.
  • 3. Issue Crawler 시작 URL(uniform resource locator )을 설정하고, 그 URL에서 연결된 페이지(어디까지 연결될지는 설정 가능)를 찾고, 대상이 된 URL 간의 링크를 찾아 네트워크 데이터 형태로 표현해준다.
  • 4. Issue Crawler “The Lobby” - 프로그램과 관련한 다양한 뉴스들이 올라온다. “Issue Crawler” - 프로그램이 시작되는 페이지이다.
  • 5. Issue Crawler “Network Manager” - 자신의 계정에 축적된 조사결과를 보여준다. “Archive” - 다른 이들의 연구결과물을 확인할 수 있다.
  • 6. Issue Crawler Issue Crawler 프로그램 실행 <-이 빈 칸에 원하시는 페이지의 URL을 입력하면 링크 수집이 시작. 분석대상이 되는 페이지의 수는 최소한 두 개 이상이어야 한다.
  • 7. Issue Crawler “Harvester” 페이지에 최대한 링크가 직접적으로 연결된 URL을 넣으시는 것이 좋다. (예: www.site.com/links).
  • 8. Issue Crawler Co-link 분석 첫 단계에서는처음입력한 URL 중에서 두 개 이상의링크가 아웃된페이지를찾는다. 두 번째단계는시작페이지 및 이전단계에서수집된페이지간의링크를찾습니다
  • 9. Issue Crawler Privilege Starting Points : 처음 시작할 때 설정한 URL 프로그램이 반복될 경우(“Set iteration” 옵션이 2 이상으로 설정하였을 경우)에도 분석대상으로 설정할지를 결정한다. 1 이상의 링크만 받더라도 앞으로 반복될 프로그램에서 분석대상으로 남도록 설정한다. (Off – default)
  • 10. Issue Crawler Perform co-link analysis by : “site”간의 링크를 구할 것인지, “page”간의 링크를 구할 것인지 설정하는 옵션이다. “page”간의 링크를 선택하시는 것이 더 구체적인 결과를 얻으실 수 있다.
  • 11. Issue Crawler Set iterations : 같은 설정의 이슈크롤러 프로그램을 몇 번 반복해서 실행하는지를 설정한다. 처음 입력한 URL 및 이 URL로부터 두 개 이상의 링크를 받아 분석대상으로 수집된 URL 모두가 시작 URL(seed URL)로 설정된다. 여러 번 반복할수록, 중심성이 강한 노드의 크기가 더 커진다고 볼 수 있다. 웹사이트 간의 사회연결망 조사를 하시는 경우, “1”로 설정하시는 것이 좋다. . (1– default)
  • 12. Issue Crawler Set crawl depth : 하나, 둘, 셋까지의 웹사이트 내 링크를 조사할 깊이 설정이 가능합니다. 처음 입력한 URL 페이지의 경우 “depth”는 0으로 설정됩니다. 여기서 클릭으로 들어갈 수 있는 다음 페이지의 “depth”가 1로 설정됩니다. (2– default)
  • 13. Issue Crawler Snowball : Co-link 옵션이 처음 입력한 URL에서 두 개 이상의 링크를 받아야 분석대상이 된다면, 이 옵션에서는 하나의 링크를 받는 주소도 수집된다.
  • 14. Issue Crawler 처음 입력된 URL에서 연결된 링크를 찾는 단계가 “separation 1단계”입니다. 1단계에서 모인 링크(처음 입력한 URL + 수집된 URL)에서 다시 한 번 연결된 링크를 찾는 단계가 2단계, 같은 작업을 한 번 더하면 3단계가 된다. 이처럼 링크를 통해 페이지 수를 ‘눈덩이’처럼 늘려나가는 옵션이다. 그렇기 때문에 처음 시작 URL을 신중히 결정할 필요가 있다.
  • 15. Issue Crawler Set degrees of separation : 링크를 찾는 단계를 몇 번 반복할지를 결정합니다. Set crawl depth : 위에서 설명된 바와 같습니다.
  • 16. Issue Crawler Inter-actor : 처음 입력한 URL 사이의 링크만을 찾도록 하는 옵션이다. Co-link 옵션이나 Snowball 옵션과는 달리, 노드의 수가 추가로 늘어나지 않는다.
  • 17. Issue Crawler “Launch Crawl”을 누르면 링크 수집이 시작됩니다.
  • 18. Issue Crawler Choose Nodes to be mapped : 링크수가 많은 최상 몇 순위의 노드만을 대상으로 설정하여 지도에 표기할 수 있습니다. Selection of ties by specificity : 위의 옵션이 노드순위를 대상으로 지도에 표시할 노드를 설정했다면 이 옵션은 링크에 제한을 두어 옵션을 설정합니다. 노드의 질적 관계를 고려하여 관계의 크기를 제한합니다.
  • 19. Issue Crawler   Selection of ties by frequency : 이 옵션은 링크의 크기를 양적으로 제한하여 설정할 노드를 제한합니다. Size of nodes by : 노드의 사이즈를 이 웹사이트를 관계의 대상으로 설정한 정도만을 나타내는“inlink”만을 대상으로 하는지, 이 노드가 다른 노드를 관계로 설정한 “outlink”까지 포함하는지를 결정합니다.  
  • 20. Issue Crawler “advanced option” 페이지 혹은 이전 “network details” 페이지에서 “view depiction”을 누르시면 아래와 같은 결과페이지를 보실 수 있습니다.