Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

2011-07-02 데이터 탐색

79 views

Published on

!!

Published in: Government & Nonprofit
  • Be the first to comment

  • Be the first to like this

2011-07-02 데이터 탐색

  1. 1. 1 POPONG meeting (2011-07-02) 작성자: 박은정, 박주성 1. Raw data A. 국회 의안 정보 시스템1 - 제 18대 국회 의안 중 처리 의안 2. Data preprocessing (박주성) A. 의원별 참여 의안에 대한 binary matrix Ex: B. 중복 제거 Data 의원수 (n) 의안수 (m) 1 All 329 3300 2 중복 의안 제거2 329 2235 3 중복 발의자 set 제거 329 951 - Spotfire ‘BillMemberAnalysis.dxp’ 파일 참고 1 http://likms.assembly.go.kr/bill/jsp/main.jsp 2 중복 의안 중 첫 레코드만 사용 (?) 의안 1 의안 2 의안 3 … 의안 m 의원 1 1 0 0 … 1 의원 2 1 0 1 … 0 … … … … … … 의원 n 0 1 0 … 1
  2. 2. 2 3. Data Analysis (박은정) A. Similarity calculation: 세 가지 set similarity measure 사용 (엑셀파일 sim_2_member.xlsx 참고) B. Similarity Based Hierarchical Clustering - 의원 간의 상관계수를 계산하여 그들간의비유사성(dissimilarity) 계산 Dissimilarity = 1 - Abs(Similarity) - 위에서 계산된 비유사성을 이용하여 계층군집 알고리즘 적용3 ※ 계층군집 알고리즘 • 각 개체 간의 비유사도를 기반으로 가장 가까운 것 두 개를 묶는다. • 묶은 개체 둘은 다시 하나의 개체로 간주하여 다시 앞 과정을 반복한다. • 앞 두 과정을 전체가 하나로 묶일 때까지 반복한다. 3 Single linkage(minimum distance) 사용
  3. 3. 3
  4. 4. 4 4. Comment: 성능이 좋고, 구체적이고, 좀 더 의미 있는 결과를 얻기 위해서는 의원들의 demographic 데이터가 필요!

×