Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호

14,253 views

Published on

한국데이터사이언스학회(koreadatascience.org) 2014 학술대회 발표자료
2014.11.7

세션 2-1

“온라인 데이터 분석을 통한 선거예측”
- 김찬우 박사(The IMC)
- 조인호 교수(한국외대)

Published in: Data & Analytics
  • My brother found Custom Writing Service ⇒ www.HelpWriting.net ⇐ and ordered a couple of works. Their customer service is outstanding, never left a query unanswered.
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Sex in your area is here: ❤❤❤ http://bit.ly/39pMlLF ❤❤❤
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Dating direct: ♥♥♥ http://bit.ly/39pMlLF ♥♥♥
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

온라인 데이터 분석을 통한 선거예측- 김찬우, 조인호

  1. 1. ㈜더아이엠씨 김찬우 한국외대 조인호 온라인 데이터 분석을 통한 선거예측 : 2014년 제6회 대구∙부산 지방선거를 중심으로
  2. 2. 목차 Ⅰ. 연구배경 Ⅱ. 기존연구 검토 Ⅲ. 연구모형 및 방법 Ⅳ. 분석 결과 Ⅴ. 결론 및 연구의 한계점 참고문헌
  3. 3. Ⅰ. 연구 배경 및 목적 1. 연구 배경 기존에 선거예측은 전화, 설문 조사 혹은 출구 조사를 통해 이루어져 왔지만, 인터넷 사용층이 많아지면서 선거예측에 온라인 여론의 중요성이 높아지고 있음 전통적인 방식의 조사를 통한 예측 결과와 실제 득표율의 오차가 높아지면서 선거 예측에 대한 새로운 관점의 필요성이 높아짐 2004년 총선에서 한나라당이 승리할 것이란 예측 실패(조선일보,2004/1/5), 2012년 총선에서 통합민주당이 승리할 것이라는 예측 역시 실패함(한겨레, 2012/4/8) 이번 제6회지방선거 방송3사 출구조사에서는 경기도지사 경합을 예상했으나 승패는 틀렸고, 인천과 충남시장 선거에서는 박빙을 예상했으나 격차가 났음 선거예측 연구는 선거패턴을 체계적으로 구조화 할 수 있고, 객관적이고 과학 적인 선거 연구를 가능하게 하여 효율적인 선거운동과 더불어 유권자에게 좀 더 객관적인 후보자를 선택할 수 있는 정보를 제공할 수 있음.
  4. 4. Ⅰ. 연구 배경 및 목적 2. 연구 목적 본 연구는 2014년 지방선거 기간 동안 온라인의 자료를 활용하여 TF-DI, T- value 분석 방법을 통해 분석하고, 분석 결과를 시계열로 나타내어 선거 결과 를 예측하고, 실제 득표 결과와 비교하여 검증하는 것임 기존 연구 검토를 통해 선거 예측 방법론을 검토하고 분석방법을 제시한 후 연구문제를 설정함 본 연구를 통해 온라인 데이터 분석에 의한 예측 모델이 향후 선거 예측에 미 칠 수 있는 시사점과 적용 여부를 제공함
  5. 5. Ⅱ. 기존 연구 검토 1. 선거 예측의 기존 연구 선거 예측에 관한 연구는 크게 2가지로 나누어 볼 수 있음 여론조사와 출구조사 등 선거예측조사에 관한 연구, 선거예측모형을 작성 하여 그 모형에 따라 선거결과를 예측하는 방법 선거예측조사의 경우 당선자 예측이 빗나가는 요인과 선거예측의 편의를 감소시키는 방안(박 용치, 2000), 전화조사와 출구조사에서 오차문제(홍내리∙허명회, 2001), 출구조사시 표본크기 문 제(김영원∙김지원, 2007), 전화여론조사의 정확도 개선을 위해 표집방법의 변화(조성겸, 2009) 등이 있음 선거예측모형의 경우 송근원(2011)은 후보자 득표율을 종속변수로 두고, 득표율에 영향을 미치 는 요인으로 현직효과, 지역효과, 가시성, -견제효과의 독립변수로 회귀모형을 제시, Lichtman(2012) 미국 대통령선거에 영향을 미치는 요인으로 의회장악, 댕내경쟁, 현직프리미엄, 제3의 정당 출현가능성, 단기적 경제영향, 사회적 불안정, 정권스캔들, 외교∙군사분야의 실패와 성공, 카리스마, 도전자의 카리스마 등 13가지 제시 즉 전화조사와 출구조사는 표집오차와 비표집오차로 인해 정확한 예측의 한계가 있음. 선거에측모형은 그것을 구성하는 변수가 다양하고, 선거 종 류에 따라 변수의 강도가 다르기 때문에 일반화가 어려움
  6. 6. Ⅱ. 기존 연구 검토 2. 구글 독감 트랜드 분석 (GINSBERG, Jeremy, et al. 2008, Detecting influenza epidemics using search engine query data. Nature, 457(7232), 1012-1014.) 미국 시민들이 독감과 관련 연관 단어들의 검색 빈도수를 파악하여 지역 별 독감발생 추이를 분석 2003년부터 개별 검색어를 분석해 감기와 연관된 45개의 단어를 찾아내어 이를 분석함으로 써 독감의 유행 수준을 예측함 그 결과, 미국 질병통제예방센터(CDC) 발표보다 2주 먼저 파악했음 실제 병원을 방문한 환자의 수(P)와 독감 관련 키워드를 검색한 수(Q)의 관계가 로그 를 취했을 때 선형 logit(P) = β0 + β1 × logit(Q) + ε (1) P= β0 ×Q (2) ln(p) = β0 + β1 ×in(Q) (3) 미국 대선 투표일 직전 구글에서 ‘버락 오바마(Barack Obama)’와 ‘밋 롬니(Mitt Romney)’로 검색된 웹페이지 수가 각각 13억5000만 건(51.1%), 12억9000만 건(48.8%) 으로 실제 개표 결과인 50% vs 48%에 근접(동아일보, 2012/12/21) β0
  7. 7. Ⅱ. 기존 연구 검토 2. 텍스트마이닝을 통한 미래 예측 분석 (정근하, 2010, 텍스트마이닝과 네트워크 분석을 활용한 미래예측 방법 연구, 한국과학 기술기획평가원 보고서) 텍스트마이닝을 위한 정보추출 방법 중 TF-IDF(Term Frequency - Inverse Document Frequency)를 변형하여 TF-DI(Term Frequency - Date Index ) 을 개발함 위의 방법을 통해 미래예측 키워드를 도출하는 정량적 방법을 제시함 i=키워드 구분 j=시작되는 연도의 첫 횟수(j=1) n=분석기간의 연도별횟수(n=1,2,3…) n j DF encytotalfrequ frequencyi TF DITFDITF j j i n j iji      )( )( 1
  8. 8. Ⅱ. 기존 연구 검토 3. 트리플헬릭스 모형을 통해 2012년 대선 분석 (박한우, 2012, Mapping Election Campaigns Through Negative Entropy: Triple and Quadruple Helix Approach to South Korea’s 2012 Presidential Election) 2012년 대통령 선거기간 동안 박근혜, 문재인, 안철수 후보자 이름과 ‘대 통령’을 포함하는 용어를 구글 문서, 트위터, 페이스북에서 수집하여 정보 엔트로피 분석을 함 (p: 박근혜, a: 안철수, m: 문재인) 분석결과 네거티브 엔트로피는 트위터, 페이스북, 구글 순으로 나타났고, 엔트로피가 안철수는 트위터에서, 문재인은 페이스북에서 더 자주 언급 되었으며, 박근혜는 구글에서 상대적으로 높은 값을 보였음 새로운 온라인 환경에서 선거의 포괄적인 대표 지표를 제시함 pamampmpamappam HHHHHHHT 
  9. 9. Ⅱ. 기존 연구 검토 3. 연구문제 기존 연구 검토를 통해 다음과 같이 연구문제를 도출 1) 온라인 데이터에서 TF-DI 분석을 통해 선거당선 예측을 할 수 있는가? 2) 정보 엔트트로피(T-value) 분석을 통해 선거당선 예측을 할 수 있는가? 3) 여론조사와 온라인 데이터 분석을 비교하였을 때 차이점은 무엇인가?
  10. 10. Ⅲ. 연구 모형 및 방법 1 연구모형 후보자가 언급된 웹 페이지의 일일 데이터 량을 측정하고, 가중치를 적용 하여 선거 예측 가능성을 밝히고, 기존 여론조사와 출구조사, 및 실제 선 거결과와 비교하여 검증함 데이터 수집 (네이버 뉴스, 웹, 지식인, 블로그, 카페) 여론조사 출구조사 실제결과 비교 키워드 추출 (후보자 이름, 제 외어 선택) TF-DI T-Value 계산
  11. 11. Ⅲ. 연구 모형 및 방법 2. 데이터 1) 자료수집 기간 : 2014-01-01 ~ 2014-05-31 2) 자료수집 방법 : 온라인 키워드 조사 3) 자료수집 채널 : 네이버(블로그, 카페, 지식인, 뉴스, 웹문서) 4) 수집 데이터량 : 대구: 총 7,937건(TF-DI값) / 총 11,785건(T값) 부산: 총 11,296건(TF-DI값) / 총 14,325건(T값) 5) 수집 키워드 (1) TF-DI (대구) 권영진 = “대구시장” +권영진 김부겸 = “대구시장” +김부겸 (2) TF-DI(부산) 서병수 = “부산시장” +서병수 오거돈 = “부산시장” +오거돈
  12. 12. Ⅲ. 연구 모형 및 방법 5) 수집 키워드 (3) T-value(대구) •U: 권영진 = 권영진 + 후보 + 대구 – 김부겸 - "대구시장" •G: 김부겸 = 김부겸 + 후보 + 대구 – 권영진 - "대구시장" •F: 대구시장 = "대구시장" + 후보 – 권영진 - 김부겸 – 맛집 •UG: 권영진 + 김부겸 = 권영진 + 김부겸 - "대구시장” •UF: 권영진 + 부산시장 = 권영진 "대구시장" - 김부겸 •GF: 김부겸 + 부산시장 = 김부겸 "대구시장" - 권영진 •UGF: 권영진 + 김부겸 + 대구시장 = 권영진 + 김부겸 + "대구시장“ (4) T-value(부산) •U: 서병수 = 서병수 +후보 -오거돈 -"부산시장“ •G: 오거돈 = 오거돈 +후보 -서병수 -"부산시장“ •F: 부산시장 = "부산시장" +후보 -서병수 -오거돈 –농부 •UG: 서병수+오거돈 = 서병수 +오거돈 -"부산시장“ •UF: 서병수+부산시장 = 서병수 "부산시장" –오거돈 •GF: 오거돈+부산시장 = 오거돈 "부산시장" –서병수 •UGF: 서병수+오거돈+부산시장 = 서병수 +오거돈 +"부산시장" * [+후보] : 동명이인 및 전통시장 관련 글 제거 * [+대구] : 대전 유성구의원 후보 관련 글 제거 * [-맛집] : 맛집 관련 글 제거 * [+후보] : 동명이인 및 전통시장 관련 글 제거 * [-농부] : 고(故) 노무현 전 대통령 관련 글 제거
  13. 13. Ⅲ. 연구 모형 및 방법 3. 분석 방법 1) TF-DI(Text Frequency Date Index) 자료수집 채널에서 후보의 이름과 “대구시장”, “부산시장”이라는 단어가 들어간 경우를 조합하여 추출한 후 가중치를 곱하여 계산 후 비교함 • 대구 권영진 TF=“대구시장”+권영진 빈도/전체 빈도 김부겸 TF=“대구시장”+김부겸 빈도/전체 빈도 DI=1월 1주차~5월 5주차(26주) 1/26 • 부산 서병수 TF=“부산시장”+서병수 텍스트 빈도/전체 빈도 오거돈 TF=“부산시장”+오거돈 텍스트 빈도/전체 빈도 DI=1월 1주차~5월 5주차(26주) 1/26
  14. 14. Ⅲ. 연구 모형 및 방법 3. 분석 방법 2) 정보엔트로피(T-Value) 게시물에서 후보의 이름과 ‘대구시장’, ‘부산시장’이라는 단어가 들어간 경우를 조합해 추출한 뒤 지난 1년, 1개월, 1주일간의 정보로서의 가치(정 보 엔트로피)를 계산하여 비교함 T값이 높을수록 엔트로피는 높아지고, 이는 온라인상에 노출이 많다는 것 을 의미하며, 그만큼 사람들에게 관심이 높다는 것을 의미함 ugfufgfugfguugf HHHHHHHT  ugguugugguug u g ugugug u uiu HHHTTHHH PPHPPH    )(loglog 22 P는 확률
  15. 15. Ⅳ. 분석 결과 1. 여론조사 결과 조사일자 조사기관 조사의뢰자 조사방법 (피조사자선정법) 여론조사 표본크기 표본오차 응답률 새누리당 권영진 [실제득표율 56.0%] 새정치민주연합 김부겸 [실제득표율 40.3%] 5.17~5.18 대구한길리서치 대구신문 유선 전화면접 (유선 RDD) 1,036 3.1 17.4 40.5 26.8 5.17~5.19 리서치앤리서치 KBS, MBC, SBS 유·무선 전화면접 (유·무선 RDD) 809 3.4 12.2 41.3 29.7 5.19~5.20 케이에스리서치 일요서울 유선 ARS (KT DB) 925 3.6 3.0 54.0 36.5 5.22~5.23 조원씨앤아이 일요신문 유·무선 ARS (유·무선 RDD) 869 3.7 1.2 44.5 43.7 5.22~5.26 중앙일보 조사연구팀 중앙일보 유∙무선전화면접 (유∙무선 RDD) 700 3.7 36.9 42.2 27.0 5.23 폴스미스 영남일보 유선 ARS (유선 RDD) 1,015 3.1 5.9 49.1 36.5 5.23~5.24 에이스리서치 서울신문 유선 전화면접+스마트폰앱 (유선 RDD+KT DB+스마트폰 앱 패널) 500 4.4 9.4 39.2 25.9 5.25~5.26 리서치코리아 대구방송(TBC), 매일신문 유선전화면접+대인면접 (유 선 RDD+보행자 표집) 914 3.1 11.8 43.5 30.8 5.27~5.28 폴스미스 영남일보 유∙무선 ARS (유∙무선 RDD) 1,927 2.2 5.4 49.6 37.7 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월' 대구지역 광역시장 선거여론조사는 총 11회 진행되었음(전국 광역시장 선거 조사 323건의 3%) 1)대구시장 후보 여론조사 결과
  16. 16. Ⅳ. 분석 결과 2) 대구시장 후보 여론조사 결과 그래프 26.8 29.7 36.5 43.7 27.0 36.5 25.9 30.8 37.7 40.3 40.5 41.3 54.0 44.5 42.2 49.1 39.2 43.5 49.6 56.0 0.0 10.0 20.0 30.0 40.0 50.0 60.0 대 구 한 길 리 서 치 리 서 치 앤 리 서 치 케 이 에 스 리 서 치 조 원 씨 앤 아 이 중 앙 일 보 조 사 연 구 팀 폴 스 미 스 에 이 스 리 서 치 리 서 치 코 리 아 폴 스 미 스 실 제 득 표 율 5.17~5.18 5.17~5.19 5.19~5.20 5.22~5.23 5.22~5.26 5.23 5.23~5.24 5.25~5.26 5.27~5.28 6.4 새정치민주연합 김부겸 [실제득표율 40.3%] 새누리당 권영진 [실제득표율 56.0%] 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
  17. 17. Ⅳ. 분석 결과 3) 부산시장 후보 여론조사 결과(31회 조사 진행(전체 10%)) 조사일자 조사기관 조사의뢰자 조사방법(피조사자선정법) 표본크 기 표본 오차 응답률 여론조사 결과 새누리당 서병수 [실제득표율 50.7%] 무소속 오거돈 [실제득표율 49.3%] 5.14~5.17 현대리서치연구소 JTBC 유·무선 전화면접+스마트폰 앱 (유·무선 RDD+스마트폰 앱 패널) 1,010 3.1 15.0 32.0 30.6 5.17 리얼미터 MBN 유선 전화면접 (유선 RDD) 610 4.0 14.0 47.6 32.6 5.17~5.19 TNS KOREA KBS, MBC, SBS 유·무선 전화면접 (유·무선 RDD) 814 3.4 11.9 39.6 34.2 5.19~5.20 케이에스리서치 일요서울 유선 ARS (KT DB) 980 3.8 3.8 53.6 33.6 5.20 중앙일보 조사연구팀 중앙일보 유·무선 전화면접 (유선 RDD+무선 RDD DB) 800 3.5 35.3 38.0 38.0 5.22~5.23 리서치한국 리서치한국 유선 ARS (KT DB) 820 3.3 4.6 48.6 25.0 5.22~5.23 아이디인큐 JTBC 유선 전화면접+ 스마트폰앱 (유선 RDD+스마 트폰앱 패널) 1,108 3.0 18.3 35.1 31.2 5.22~5.26 중앙일보 조사연구팀 중앙일보 유∙무선전화면접 (유∙무선 RDD) 700 3.7 32.7 42.5 32.6 5.23~5.24 마크로밀엠브레인 YTN 유·무선 전화면접 (유선 RDD+무선 패널) 759 3.6 24.5 31.9 35.8 5.23~5.24 에이스리서치 서울신문 유선 전화면접+스마트폰앱 (유선 RDD+KT DB+스마트폰앱 패널) 519 4.3 10.6 35.1 34.1 5.23~5.26 메트릭스코퍼레이션 매일경제 유·무선 전화면접 (유·무선 RDD+무선 DB) 600 4.0 19.1 32.7 40.1 5.24 한국갤럽 부산일보 유·무선 전화면접 (유선 RDD+무선 DB) 1,024 3.1 21.6 36.5 38.3 5.24~5.25 한길리서치센터 부산MBC 유선 전화면접 (유선 RDD) 1,070 3.1 18.7 36.7 32.6 5.26~5.27 리서치앤리서치 동아일보 유선 전화면접 (유선 RDD) 709 3.7 14.8 40.2 41.0 5.26~5.27 리서치앤리서치 국제신문 유∙무선전화면접 (유∙무선 RDD) 1,003 3.1 12.4 40.1 43.0 5.26~5.27 코리아리서치센터 한국일보 유∙무선 전화면접 (유∙무선 RDD) 705 3.7 14.9 39.3 42.3 5.26~5.28 TNS KOREA SBS, MBC 유·무선 전화면접 (유·무선 RDD) 502 4.4 11.2 36.9 39.8 5.27~5.28 밀워드브라운미디어리 서치 조선일보 유·무선 전화면접 (유·무선 RDD) 510 4.3 12.8 35.7 38.0 5.27~5.28 리얼미터 MBN 유·무선 전화면접 (유선 RDD+무선 DB) 937 3.2 18.1 44.2 42.5 5.27~5.28 아이디인큐 JTBC 유선전화면접+스마트폰앱 (유선 RDD+스마 트폰앱 패널) 1,147 3.0 19.9 33.9 36.0 5.27~5.28 리서치플러스 한겨레 유·무선 전화면접 (유선 RDD+무선 패널) 517 4.4 27.0 33.9 44.4 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
  18. 18. Ⅳ. 분석 결과 4) 부산시장 후보 여론조사 결과 그래프 30.6 32.6 34.2 33.6 38.0 25.0 31.2 32.6 35.8 34.1 40.1 38.3 32.6 41.0 43.0 42.3 39.8 38.0 42.5 36.0 44.4 49.3 32.0 47.6 39.6 53.6 38.0 48.6 35.1 42.5 31.9 35.1 32.7 36.5 36.7 40.2 40.1 39.3 36.9 35.7 44.2 33.9 33.9 50.7 0.0 10.0 20.0 30.0 40.0 50.0 60.0 현 대 리 서 치 연 구 소 리 얼 미 터 TNSKOREA 케 이 에 스 리 서 치 중 앙 일 보 조 사 연 구 팀 리 서 치 한 국 아 이 디 인 큐 중 앙 일 보 조 사 연 구 팀 마 크 로 밀 엠 브 레 인 에 이 스 리 서 치 메 트 릭 스 코 퍼 레 이 션 한 국 갤 럽 한 길 리 서 치 센 터 리 서 치 앤 리 서 치 리 서 치 앤 리 서 치 코 리 아 리 서 치 센 터 TNSKOREA 밀 워 드 브 라 운 미 디 어 리 서 치 리 얼 미 터 아 이 디 인 큐 리 서 치 플 러 스 실 제 득 표 율 5.14~5.17 5.17 5.17~5.195.19~5.20 5.20 5.22~5.235.22~5.235.22~5.265.23~5.245.23~5.245.23~5.26 5.24 5.24~5.255.26~5.275.26~5.275.26~5.275.26~5.285.27~5.285.27~5.285.27~5.285.27~5.28 6.4 무소속 오거돈 [실제득표율 49.3%] 새누리당 서병수 [실제득표율 50.7%] 출처 : 중앙선거여론조사공정심의위원회, 2014년 9월'
  19. 19. Ⅳ. 분석 결과 6) 실제 선거결과 출처: 중앙선거관리위원회 선거통계시스템 시도명 선거인수 투표수 후보자별 득표율 무효투표수 대구 2,012,579 1,052,638 권영진(새누리) 581,175(55.95) 김부겸(새정치연합) 418,891(40.33) 14,019 부산 2,932,179 1,629,167 서병수(새누리) 797,926(50.65) 오거돈(무소속) 777,225(49.34) 54,016 5) 방송3사 출구조사 결과 지역 후보(결과) 차이 대구 권영진(55.6) 김부겸(41.5) 14.1 부산 서병수(51.8) 오거돈(48.2) 3.6 출처: 세계일보(2014/6/5) • JTBC 부산 출구조사 결과 서병수(46.3): 오거돈(53.7) 발표
  20. 20. 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1월 1주 1월 2주 1월 3주 1월 4주 1월 5주 2월 1주 2월 2주 2월 3주 2월 4주 2월 5주 3월 1주 3월 2주 3월 3주 3월 4주 3월 5주 3월 6주 4월 1주 4월 2주 4월 3주 4월 4주 4월 5주 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 "대구시장" +권영진 "대구시장" +김부겸 (누적)"대구시장" +권영진 (누적)"대구시장" +김부겸 대구시장 후보 TF*DI Ⅳ. 분석 결과 2. 대구시장 후보 TF*DI(1월 1주~5월 5주차) ① ② ③ ④ ⑤ ① 김부겸 대구시장 출마 시사, 새누리당 후보 경선. ② 권영진 예비후보 등록 및 새누리당 후보자 활동 ③ 새누리당 당내경선, 서상기 후보 출마 ④ 김부경 후보 박정희 컨밴션 공약, 새정치연합 기초공천 폐지 논 란, ⑤ 후보 양자구도, TV 토론회, ⑥ 김부겸 후보 딸(윤세인) 지원 유세 ⑥
  21. 21. Ⅳ. 분석 결과 3. 대구시장 후보 T-value 0 0.1 0.2 0.3 0.4 0.5 0.6 1월1주 1월2주 1월3주 1월4주 1월5주 2월1주 2월2주 2월3주 2월4주 2월5주 3월1주 3월2주 3월3주 3월4주 3월5주 3월6주 4월1주 4월2주 4월3주 4월4주 4월5주 5월1주 5월2주 5월3주 5월4주 5월5주 권영진+대구시장 김부겸+대구시장 권영진+대구시장(누적) 김부겸+대구시장(누적) 대구시장 후보 T-Value •권영진 후보의 경우 2월 1주부터 증가하여 정보엔트로피가 50%대에 있으나, 김부겸 후보의 경우 초기 50%에서 점차 감소하여 3월 4주차에 약 40%까지 내려갔다가 43%대에 머무름 •1월달 권영진 후보가 김부겸 후보보다 낮은 것은 아직 후보등록을 하지 않아서이며, 2월 2주차에 들어서 권영진 후보의 값이 증가하는 것은 예비 후보를 등록했기 때문임
  22. 22. Ⅳ. 분석 결과 4. 부산시장 후보 TF*DI 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 1월 1주 1월 2주 1월 3주 1월 4주 1월 5주 2월 1주 2월 2주 2월 3주 2월 4주 2월 5주 3월 1주 3월 2주 3월 3주 3월 4주 3월 5주 3월 6주 4월 1주 4월 2주 4월 3주 4월 4주 4월 5주 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 "부산시장" +서병수 "부산시장" +오거돈 (누적)"부산시장" +서병수 (누적)"부산시장" +오거돈 부산시장 후보 TF*DI ① 새정치연합 측 오거돈 후보 영입 논의, 1월 말 서병수 후보 출마, ② 서병수 후보 보좌관 비리, 청와대 입각 설, 새누리당 경선 방식 등의 이슈, ③ 민주당과 새정치연합 측 오거돈 후보 영입 노력, 오거돈 후보 무소속 등 록, ④ 서병수 후보 의원직 사퇴, TV토론회, 새누리당 경선⑤ 오거돈 후보 범시민후보단일화, 논문 표절 논란, ① ② ③ ④ ⑤
  23. 23. Ⅳ. 분석 결과 6. 부산시장 후보 T-value 0 0.1 0.2 0.3 0.4 0.5 0.6 서병수+부산시장 오거돈+부산시장 서병수+부산시장(누적) 오거돈+부산시장(누적) T(당선 예측)값 오거돈 후보의 누적 T값의 차이를 살펴보면, 1월 2주 이후 서병수 후보에 비해 상대적으로 높은 T값을 보임. 서병수 후보의 경우 2월 5주차에서 3월 1주차 까지 누적 T값이 오거돈 후보보다 높다가 3월 2주차 부터 낮아짐. 그러나 4월 1주차부터 오거돈 후보보다 서병수 후보의 T값이 높아지면서 접전을 이룸
  24. 24. Ⅳ. 분석 결과 7. 대구시장 후보 TF-DI와 실제 득표율 비교 대구시장 권영진 후보와 김부겸 후보의 5월 TF-DI 의 값과 실제 득표율과 비교하면, 권영진 후보의 경우 실제 득표율 이 55.95%이나 TF-DI 값은 이보다 높음(5월 1주 1.95%에서 5월 5주차 0.29% 차이). 반면 김부겸 후보의 경우, 실제 득표율은 40.33%이나 TF-DI 값이 더 높게 나옴(5월 1주 1.77%에서 5월 5주 3.43% 높게 나타남) 57.90% 58.02% 57.64% 56.99% 56.24% 55.95% 42.10% 41.98% 42.36% 43.01% 43.76% 40.33% 30.00% 35.00% 40.00% 45.00% 50.00% 55.00% 60.00% 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 실제득표율 권영진 김부겸
  25. 25. Ⅳ. 분석 결과 8. 부산시장 후보 TF-DI와 실제 득표율 비교 부산시장 서병수 후보와 오거돈 후보의 5월 TF-DI 의 값과 실제 득표율과 비교하면, 서병수 후보의 경우 실제 득표율 이 50.65%이나 TF-DI 값은 이보다 높음(5월 1주 1.95%에서 5월 5주차 0.29% 차이). 반면 오거돈 후보의 경우, 실제 득표율은 49.34%로 TF-DI 값보다 높게 나옴(5월 1주 4.49%에서 5월 5주 2.81% 높게 나타남) 55.15% 54.71% 53.97% 53.81% 53.47% 50.65% 44.85% 45.29% 46.03% 46.19% 46.53% 49.34% 40.00% 42.00% 44.00% 46.00% 48.00% 50.00% 52.00% 54.00% 56.00% 5월 1주 5월 2주 5월 3주 5월 4주 5월 5주 실제득표율 서병수 오거돈
  26. 26. Ⅳ. 분석 결과 9. 대구시장 후보 T-value와 실제 득표율 비교 대구시장 권영진 후보와 김부겸 후보의 5월 T-Value와 실제 득표율과 비교하면, 권영진 후보의 경우 실제 득표율이 55.95%이나 T-value 값은 이보다 낮게 나옴(5월 1주 1.97%에서 5월 5주차 3.10% 차이). 반면 김부겸 후보의 경우, 실 제 득표율은 40.33%이나 T-value 값이 더 높게 나옴(5월 1주 5.69%에서 5월 5주 6.82% 높게 나타남) 53.98% 54.07% 53.91% 53.48% 52.85% 55.95% 46.02% 45.93% 46.09% 46.52% 47.15% 40.33% 30.00% 35.00% 40.00% 45.00% 50.00% 55.00% 60.00% 5월1주 5월2주 5월3주 5월4주 5월5주 실제득표율 권영진 김부겸
  27. 27. Ⅳ. 분석 결과 10. 부산시장 후보 T-value와 실제 득표율 비교 50.09% 50.09% 50.71% 50.54% 50.62% 49.34% 49.91% 49.91% 49.29% 49.46% 49.38% 50.65% 48.50% 49.00% 49.50% 50.00% 50.50% 51.00% 5월1주 5월2주 5월3주 5월4주 5월5주 실제득표율 오거돈 서병수 부산시장 서병수 후보와 오거돈 후보의 5월 T-value 의 값과 실제 득표율과 비교하면, 서병수 후보의 경우 실제 득표 율이 50.65%이나 T-value 값은 이보다 낮게 나옴(5월 1주 0.74%에서 5월 5주차 1.27% 차이). 반면 오거돈 후보의 경 우, 실제 득표율은 49.34%로 T-value가 더 높게 나옴(5월 1주 0.75%에서 5월 5주 1.28% 높게 나타남)
  28. 28. Ⅴ. 결론 및 연구의 한계점 1. 결론 •TF-DI 분석과 정보 엔트로피(T-value) 분석 방법을 통해 2014년 대구∙부산 지방선거 후보자들의 선거예측 분석을 하였음 •TF-DI 분석결과와 T-value 분석결과를 실제투표 결과와 비교 분석 하였음 - TF-DI 분석결과 대구시장과 부산시장 후보의 분석결과와 실제 결과가 유사하게 나타남 - T-value 분석결과의 경우 대구시장 후보의 경우에는 당선결과에 대해서 는 맞으나 예측값에 차이가 있음. 부산시장의 경우에는 당선 예측이 틀림 •두 분석방법의 가중치 적용의 경우 단기간의 분석으로는 오차가 큼. 따라서 적정 가중치 적용을 위해 더 긴 기간의 분석이 요구됨 - TF-DI, T-value의 경우 1월 1주차부터 가중치를 적용하였으나 5월 한 달만으로 계산할 경우 값이 다르게 나옴
  29. 29. Ⅴ. 결론 및 연구의 한계점 2. 연구의 한계점 • 이 연구에서 후보자를 선정할 때 2명의 후보만 선택하고 중도 탈락, 소수 득표 후보 등을 제외시켰다는 점 • 이 연구는 온라인 데이터에서 긍정과 부정 등 분석을 통해 가 중치를 적용하는 등 다양한 가중치 적용의 방법이 모색되어야 함 • 향후 온라인 데이터를 활용한 선거예측의 정확성을 높이기 위 해 다양한 분석방법 적용이 필요함
  30. 30. 참고문헌 김영원∙ 김지원, 2007, “2006년 지방선거 출구조사 현황 및 예측오차,” 조사연구, 제8권 1호, 55~79쪽. 박용치, 2000, “선거예측에서 편의의 감소: 거짓응답을 중심으로,” 조사연구, 제1권 2호, 15~34쪽. 박한우, 2012, Mapping Election Campaigns Through Negative Entropy: Triple and Quadruple Helix Approach to South Korea’s 2012 Presidential Election, http://hanpark.net 송근원, 2011, “후보자 득표율 예측모형과 지표의 구성: 2010 광역단체장 선거를 중심으로,” 조사연구, 제12권 1호, 31~63쪽. 정근하, 2010, 텍스트마이닝과 네트워크 분석을 활용한 미래예측 방법 연구, 한국과학기술기획평가원 보고서 조성겸, 2009, “전화여론조사의 예측정확도 분석,” 조사연구, 제10권 1호, 57~72쪽. 중앙선거여론조사공정심의위원회, 2014, “지방선거 여론조사결과 및 득표율 비교정리표,” 홍내리∙ 허명회, 2001, “16대 국회의원 선거의 예측조사에 대한 사후검증.” 조사연구, 제2권 1호. 1~35쪽. GINSBERG, Jeremy, et al. 2008, Detecting influenza epidemics using search engine query data. Nature, 457(7232), 1012-1014 Lichtman, 2012 “The Keys to the White House: Prediction for 2012.” Social Education. 76(2). 57~61. 동아일보, 2012/12/21 세계일보, 2014/6/5 조선일보,2004/1/5 한겨레신문, 2012/4/8 중앙선거관리위원회 선거통계시스템(http://info.nec.go.kr. 검색일: 2014년 10월 13일)

×