Node xl 빅데이터분석(29july2014)방송기자연합회

2,366 views
2,185 views

Published on

Published in: Social Media
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
2,366
On SlideShare
0
From Embeds
0
Number of Embeds
60
Actions
Shares
0
Downloads
0
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

Node xl 빅데이터분석(29july2014)방송기자연합회

  1. 1. 박한우 교수 영남대 언론정보학과 영남대 사이버감성연구소 아시아 트리플헬릭스 학회 대구경북 소셜미디어 포럼 영국옥스퍼드인터넷연구소(전) 네델란드왕립아카데미(전) TEDxPalgong (전) hanpark@ynu.ac.kr www.hanpark.net
  2. 2. 주요 네트워크 분석 프로그램의 종류와 비교 출처: 박한우(2014) 목적과 용도 프로그램 특징 수집된 데이터를 이용한 네트 워크 시각화와 통계적 분석 UciNet 가장 대중적이며 여러 통계적 분석을 제공함 Gephi 네트워크 그래프의 화려함과 수 많은 옵션 Pajek 분석 대상이 많은 경우에 시각화에 유용함 NetMiner 소프트웨어 구매시 한국어 Q&A 지원이 가능함 네트워크분석을 위한 웹 데이 터의 수집과 parsing Webometric Analyst 2.0 검색엔진과 소셜미디어 API를 이용한 데이터 수집과 정리에 특화됨 WeboNaver WeboDaum WeboGoogle 네이버, 다음, 구글 검색엔진 API를 이용한 WOM 과 네트워크 분석에 적합한 데이터 수집 IssueCrawler 동시아웃링크를 이용한 온라인 이슈 파악 DiscoverText 소셜미디어 API를 이용한 데이터 수집과 분석
  3. 3. 광범위하게 사용되고 있는 Excel에 네트워크 분석 툴을 결합하여 연구의 시너지효과를 실현 SNA 초보자도 쉽게 접근할 수 있음. NodeXL은 앞서 나열된 SNA도구들의 가장 발전되고 간편한 도구 중의 하나라 할 수 있음
  4. 4. NodeXL 메뉴창 NodeXL 데이터 입력창 NodeXL 네트워크그래프 효과창
  5. 5. Edges 링크(연결선):links, ties & connections Vertices 노드(개체):Nodes, entities& items Groups 하위 그룹 Group Vertices 하위 그룹의 노드 Overall Metrics 전체 데이터 계산
  6. 6. http://scholar.google.com/scholar?q=Nodexl+%22Han+Woo+Park%22&btnG=&hl=en&as_sdt=0%2C5
  7. 7. http://www.slideshare.net/hanpark/korean-manual-for-nodexl-fb-flickr-twitter-youtube-wiki http://www.slideshare.net/hanpark/node-xl-korean1 http://www.slideshare.net/hanpark/2-node-xl-11aug2011-11684365
  8. 8. 출처: http://nec1963.tistory.com/1445
  9. 9. 출처: http://datajournalism.stanford.edu 바탕으로 재구성 출처 : 플리카 라이브러리 _mistress
  10. 10. 트리플미디어 저널리즘의 중요성 트리플헬릭스모델(THM)과 미디어 환경 THM: 사회현상의 원인과 결과를 기술하고 설명 하기 위해선, 최소한 3개 요소들간 상호작 용의 과정과 구조에 초점을 맞추어야 한다 는, 이론적 관점 및 방법론적 접근 매스미디어의 약화와 뉴미디어의 부상 트리플 시스템으로서의 미디어 환경 출처: http://www.imediaconnection.com/content/31333.asp
  11. 11. 출처 : 요코야마 류지(2010), 제일기획 역(2011), 트리플미디어전략’ 흐름출판. 24쪽.
  12. 12. 빅데이터 저널리즘 따라하기
  13. 13. http://ec.europa.eu/enterprise/policies/innovation/policy/business- innovation-observatory/files/infographics/big-data_en.pdf
  14. 14. Today’s “big” is probably tomorrow’s “medium” and next week’s “small” and thus the most effective defini- tion of “big data” may be derived when the size of data itself becomes part of the research problem. Loukides (2012) Big data sizes may vary per discipline.
  15. 15. Big Data and Social Webometrics Network Analysis Increasing data size in terms of the no. of nodes Micro 100 nodes →10K Meso 1000 nodes →1000K Macro 10000 nodes →100,000K Super- Macro ≥10000 nodes → ∽ 출처: 박한우(2014)
  16. 16. ▶ ▶ ▶
  17. 17. 2012년 8월 15일 8시 29분 현재 많이 본 뉴스 4위
  18. 18. A. 글로벌 단위의 분석
  19. 19. 트위터의 Kpop 해쉬태그 분석 가수 미디어/채널 한국/한류 기타 국가 일반 기타 합계 일본 3,866 (32.0%) 396 (3.3%) 3,570 (29.6%) 443 (3.7%) 2,320 (19.2%) 1,486 (12.3%) 12,081 (100%) 인도네시아 92 (5.5%) 108 (6.4%) 363 (21.6%) 29 (1.7%) 1,052 (62.6%) 36 (2.1%) 1,680 (100%) 기타 아시아 405 (8.2%) 4,049 (81.6%) 84 (1.7%) 135 (2.7%) 291 (5.9%) 0 (0.0%) 4,964 (100%) 북미 774 (13.1%) 4,569 (77.3%) 174 (2.9%) 69 (1.2%) 262 (4.4%) 62 (1.0%) 5,910 (100%) 남미 365 (45.6%) 19 (2.4%) 53 (6.6%) 222 (27.7%) 97 (12.1%) 45 (5.6%) 801 (100%) 유럽 300 (35.1%) 240 (28.1%) 50 (5.9%) 20 (2.3%) 110 (12.9%) 134 (15.7%) 854 (100%)  지역별로 트위터 상의 Kpop 관련 해쉬태그 분석 - 대체적으로 가수의 이름을 해쉬태그로 사용하는 경향 - 북미의 경우 K팝을 접할 수 있는 미디어나 채널을 해쉬태그에 사용하는 경향이 높음
  20. 20. B.대륙별 분석
  21. 21. North_America (미국, 캐나다) N=896
  22. 22. South_America (멕시코 브라질 콜롬비아 페루) N=774
  23. 23. Europe (독일 영국 스페인 프랑스) N=812
  24. 24. 유럽의 사례  유럽의 트위터 K팝 네트워크 - K팝 콘서트가 열린 프랑스가 K팝 확산의 주요 허브로 기능 - 다음으로 영국, 독일, 스페인, 이탈 리아 - 동구 유럽의 경우 트위터 상에서 K 팝 관련 담화가 매우 부족
  25. 25. C.문화권별 분석
  26. 26. 히스패닉의 사례  시계열적 자료 수집을 통해 히스패닉 문화권의 트위터 K팝 네트워크의 성장과 변 화를 확인
  27. 27. D.국가 단위 분석
  28. 28. Japan 일본 N=1744
  29. 29. 일본의 URL 분석  트위터 멘션에 포함된 URL 분석 - 한 지역의 K팝 팬들이 얼마나 다양한 소스를 활용하고 있는지를 확인 - 일본의 경우 가장 다양한 URL이 분포되어 있는 롱테일형 확산구조를 가지 고 있는 것으로 확인 됨
  30. 30. Indonesia 인도네시아 N=1588
  31. 31. Rest of Asia 아시아 기타지역 N=874
  32. 32. 멕시코의 Kpop 트위터 네트워크  유력자 분석 - 멕시코의 경우 Fer_gay라는 아이디를 사용하는 축구선수 출신 방송인이 Kpop 확산의 가장 유력자로 나 타남
  33. 33. 멕시코의 Kpop 관련 단어 연결망  의미망 분석 - 멕시코의 경우 Kpop과 연결된 단어들의 연결망이 부정적인 어휘가 거의 없고 대부분 긍정적인 어 휘와 연결되어 있는 것으로 나타남
  34. 34. Youtube 소개: 동영상 공유 네트워크 유형: ●동영상 콘텐츠 네트워크: 공동이익 및 공동 취미를 반응 -Youtube 정의된 분류 ex: 음악, 오락, 정치, 뉴스 등 -사용자가 Youtube 분류 밑에 정의된 세부적인 분류 ex: 오바마 지지자, 메이크업 애호가 노드=동영상 노드간의 관계=공유한 태그 등 ●사용자 커뮤니케이션 네트워크: 친구맺기 및 구독 노드=사용자 노드간의 관계=친구관계 혹은 구독관계
  35. 35. Youtube Network-분석 가능한 문제 동영상 네트워크 사용자 네트워크 중심성: ex-카테고리별 중심에 있는 동영상 중심성: ex-누가 사용자 네트워크의 중심에 있는가? 집단: ex-같은 태그로 모이는 동영상들 집단: ex-사용자가 어떻게 연결되어 새로운 집단을 형성하는가? 시간 비교: ex-시간의 추이에 따라 동영상 네트워크 어떻게 변화하는가? 시간 비교: ex-시간의 추이에 따라 사용자 네트워크 어떻게 변화하는가? - 친구 및 구독관계 비교 Youtube 네트워크 데이터의 문제점: ▶NodeXL는 API를 이용해 Youtube에 있는 데이터를 불어오기 때문에 얻은 데이터가 전부 데이터의 일부이다. 이에 따라 같은 내용을 검색해도 똑 같은 데이터를 나오지 않 다. ▶ 사용자 비공개 설정된 내용을 수집할 수 없다. ▶ 사용자가 임의대로 동영상을 삭제가능하기 때문에 수집한 데이터 중 이미 삭제되는 데이터가 포함할 수도 있다. 즉, 데이터가 Youtube의 일부분만 대표할 수 있는 것이다.
  36. 36. Youtube Network-데이터 불러오기 NodeXL 열기 Import 선택 ▶From YouTube User’s Network-사용자 네트워크 ▶From YouTube Video Network-동영상 네트워크 다음 예를 통해 NodeXL사용한 사용자 네트워크 및 동영 상 네트워크 분석을 설명하도록 하겠습니다.
  37. 37. Youtube Network-사용자 네트워크 분석 http://www.youtube.com/user/KPOPMV020예: 사용자 ID 필요한 데이터 선택: 친구 네트워크/구독 네트워크/Both ▶통계 열 및 사용자 이미지 추가(시간이 소유) ▶데이터 수집 제한 인수-100~1000명 네트워크 데이터 수집 범위:1.0/1.5/2.0 1.0 1.5 2.0 예시
  38. 38. Youtube Network-사용자 네트워크 분석 수집된 데이터 파일 사용자 연결 상황 (sheet-Edges) 사용자 관계 사용자 상황 (sheet-Vertices) 사용자의 친구 수, 구독자 수, 동영상 관람 횟수 등 정보를 볼 수 있음
  39. 39. Youtube Network-사용자 네트워크 분석 네트워크 가시화 이 네트워크는 친구관계와 구독관계 모두 보여주 는 네트워크이다. 친구 네트워크 구독 네트워크 한 개만 표 시 가능
  40. 40. Youtube Network-사용자 네트워크 분석 ▶데이터 수집 과정 중에 사용자 ID 중복한 경우가 있어서 데이터 의 정확성 높이 기 위해 중복한 노드 삭제한 작업을 해야 함 ▶중복한 노드 삭제한 작업 끝나 면 Relationship 옆에 Edge Weight 수치 나옴 sheet-Vertices에서 사용자 ID 선택한 후 에 노드 형태는 이미지 로 바꿈. 이미지=사용 자 Youtube에서 사용 한 프로필 이미지
  41. 41. Youtube Network-사용자 네트워크 분석 Autofill Columns->Vertex Label->Vertex 사용자 ID 라벨로 표시됨
  42. 42. Youtube Network-사용자 네트워크 분석 네트워크 기본 수치 계산 필터를 통해 네트워크 가시화
  43. 43. Eigenvector Centrality>0.003 PageRank>2.000 Youtube Network-사용자 네트워크 분석 Clustering Coefficient>0.300
  44. 44. Youtube Network-동영상 네트워크 분석 BEAST예: 동영상 내용-Keyword ▶keyword와 같은 태그 동영상 수집 ▶동영상에 대한 평가 ▶원본 동영상에 대한 반응 동영상 데이터 수집 제한 수액 100~1000 예시
  45. 45. Youtube Network-동영상 네트워크 분석 수집된 데이터 파일 동영상 연결 상황 (sheet-Edges) 동영상 관계 동영상 상황 (sheet-Vertices) 동영상의 제목, Rating, 동영상 관람횟수, Favorited 수, 평가 수 등 정보를 볼 수 있 음
  46. 46. Youtube Network-동영상 네트워크 분석 네트워크 가시화 이 네트워크는 태그, 평가 및 반응 네트워크 모두 보여주는 네트워크이다. 기타 네트워크 선택 가능
  47. 47. ▶데이터 수집 과정 중에 사용자 ID 중복한 경우가 있어서 데이터 의 정확성 높이 기 위해 중복한 노드 삭제한 작업을 해야 함 ▶중복한 노드 삭제한 작업 끝나 면 Relationship 옆에 Edge Weight 수치 나옴 Youtube Network-동영상 네트워크 분석 sheet-Vertices에서 동영상 선택한 후에 노 드 형태는 이미지로 바 꿈. 이미지=Youtube 에서 동영상의 이미지
  48. 48. Youtube Network-동영상 네트워크 분석 Autofill Columns->Vertex Label->Vertex 사용자 ID 라벨로 표시됨
  49. 49. 네트워크 기본 수치 계산 Youtube Network-동영상 네트워크 분석
  50. 50. Diffusion of Protest-related Information on Social Media - “Occupy Wall Street” protest Se Jung Park Yon Soo Lim Han Woo Park Daegu Gyeongbuk International Social Network Conference (DISC) 2013
  51. 51. Method (Data)  Twitter  A user’s (@occupyWallst) communication network on Twitter representing “mention” and “reply-to” relationships in the latest tweets was captured on May 1, 2012, by using NodeXL.  YouTube  NodeXL was used to extract YouTube videos whose titles, keywords, descriptions, categories, or usernames contained the keyword "OccupyWallStreet." A total of 462 videos created from May 29, 2010, to May 2, 2012
  52. 52. Results  Twitter
  53. 53. Results  Twitter  The typology of the network reflected a hub-and-spoke structure, indicating that there were several key users who played opinion leaders in the communication network.  The official OWS account occupied a central position in the network. This implies that the user successfully played a role not only as a key informant in the movement but also as a broker of the issue, forming bridges between other key clusters in the network.  This type of structural feature suggests that the few hub users have more power than others in terms of the network position and can effectively influence and control others in diffusing protest-related information.
  54. 54. Results  YouTube
  55. 55. Results  YouTube  the OWS network on YouTube was a small-world network, sharing similar content, and densely interconnected with one another, sharing the same keywords.  Darker and larger nodes (higher ratings and views) tended to be central in the network, whereas pink ones (no ratings) were small and located in the periphery.  Popular YouTube clips (a high number of views) were more likely to receive high ratings.  This suggests that the number of views is not only indicative of public attention but also related to the public’s positive arousal.
  56. 56. Results  The geographic location of users 73% 27% YouTube U.S. Non-U.S. 55% 11% 34% Twitter U.S. Non-U.S. Non-identified N=226 N=461
  57. 57. Discussion  Twitter network was organized by critical several hubs who played core roles as opinion leaders in disseminating information and bridging other users in forming community.  In the YouTube network, popular videos that had been rated by a number of viewers were highly clustered, reinforcing their similar voices by using same keywords in tags.  Despite the limited number of non-U.S. users in both networks, the diversity of international actors illuminates the potential function of social media in globalizing a social event.
  58. 58. 2014. 6. 4. 지방선거 김부겸,권영진,김관용 페이스북 팬페이지 조사와 분석
  59. 59. 페이스북 팬페이지 수집화면
  60. 60. http://www.yeongnam.com/mnews/newsview.do?mode=newsView&newskey=20140604.010060719390001
  61. 61. 김관용 댓글망 다이어그램
  62. 62. 김부겸 댓글망 다이어그램
  63. 63. 권영진 댓글망 구조
  64. 64. 후보자별 교차해서 댓글을 올린 사람들 김관용 김부겸 권영진 김관용 - 6 (0) 17 (4) 김부겸 - 9 (3) 권영진 - *괄호안의 수치는 공식 선거기간 개설인인 5월 22일부터 5월 30일까지의 값
  65. 65. 3개의 팬페이지 모두 댓글 남은 코멘터 1명 http://www.facebook.com/100001757147109
  66. 66. 페이스북 여론 계량화해 보니, 실제 선거결과에 어떻게 영향을? • 관련 언론보도 • 이종웅 (2014). 대구시장 선거전 온라인도 팽팽, TBC뉴스프라임. 2014.06.02. http://www.youtube.com/watch?v=2JItN4AXZTM • 임성수 (2014). 김관용, 대구경북 광역단체 장 후보 중 SNS 관계망 최고. 영남일보. 2014.06.04. http://www.yeongnam.com/mnews/newsview.do?mode =newsView&newskey=20140604.010060719390001
  67. 67. 서울시 교육감 페이스북
  68. 68. 조희연 댓글망 다이어그램
  69. 69. 문용린 댓글망 다이어그램
  70. 70. 고승덕 댓글망 구조
  71. 71. 그림-1은 후보별 동시댓글망을 Harel-Koren Fast Multiscale 알고리즘으로 지도로 표현한 것이다. 흥미로운 현상은 고승덕 지지들 사이에 선명히 드러난 나비넥타이(Bow-Tie) 네트워크 구조이다. 이러한 양분화 현상은 고 후보가 올린 ‘사전투표 사진’과 ‘딸 편지에 대한 답장’에 댓글이 눈에 띄게 쏠렸기 때문이다. 그리고 이 두 개 포스팅에 모두 댓글을 올린 사람들이 리본의 중간에 위치하면서 서로 다른 댓글자들을 연결하고 있었다. 고승덕 후보가 그의 아내가 사전 투표에 참여한 사진을 담은 포스팅 https://www.facebook.com/dreamfarmers/photos/a.227714210761171.10737 41828.223078734558052/237101683155757/?type=1&relevant_count=1 고캔디의 글이 알려지고 난 뒤, 고승덕 후보에서 내놓은 입장 표명성 포스팅 https://www.facebook.com/dreamfarmers/posts/237323556466903
  72. 72. 후보자별 교차해서 댓글을 올린 사람들 조희연 문용린 고승덕 조희연 - 2 6 문용린 - 4 고승덕 -
  73. 73. 페이스북 포스팅 분석
  74. 74. http://news.chosun.com/site/data/html_dir/2011/05/11/2011051100195.html?news_topR
  75. 75. Prof. Han Woo PARK CyberEmotions Research Center Department of Media and Communincation, YeungNam University, Korea hanpark@ynu.ac.kr http://www.hanpark.net Formerly, World Class University Webometrics Institute WCU WEBOMETRICS INSTITUTE INVESTIGATING INTERNET-BASED POLITIC WITH E-RESEARCH TOOLS

×