Management big data_analysis_projet_team1(pdf)

서론
선정 배경 및 주제 소개

65세 이상 인구 수 * 비율
• 노인인구 평균 증가율 131%
• 노인복지시설 평균 증가율 101%
노인인구 증가율 대비 복지시설 증가율이 낮음

총인구
65세
이상
연령대별 인구 및 구성비
구성
비
65∼69세
70∼74
세
75세이상
구성비
구성비
2) 구성비
2000 46,136 3,375 7.3 1,377 40.8 919 27.2 1,078 32.0
2005 47,279 4,372 9.2 1,683 38.5 1,255 28.7 1,434 32.8
2010 48,580 5,434 11.2 1,817 33.4 1,569 28.9 2,049 37.7
2017 51,423 7,171 13.9 2,315 32.3 1,756 24.5 3,100 43.2
2018 51,635 7,381 14.3 2,360 32.0 1,798 24.4 3,223 43.7
2020 51,974 8,134 15.6 2,661 32.7 1,991 24.5 3,482 42.8
2030 52,941 12,955 24.5 4,081 31.5 3,553 27.4 5,320 41.1
2040 52,198 17,120 32.8 4,242 24.8 4,038 23.6 8,840 51.6
2050 49,433 18,813 38.1 3,770 20.0 3,680 19.6
11,36
3
60.4
2060 45,246 18,536 41.0 3,612 19.5 3,184 17.2
11,74
0
63.3
2017년 이전:인구주택총조사 자료, 2018년 이후: 장래인구추계
(단위 : 천명, %)
• 18년 65세 이상 고령자는 14.3% 계속해서 증가 추세
• 2060년에는 41.0%로 예상 ->초고령 사회로의 변화
65세 이상 인구 구성비 추이
이에 따라 노인복지정책 및 시설이 필요

• 2017년65세이상고령자의사회적관심사로[노후소득지원]이
40.6%로가장많고,다음으로[의료및 요양보호서비스(38.6%)]
• 2년 전 대비 의료 및 요양보호 서비스는 4.4% 가장 크게 증가
• 고령일수록“의료 및 요양보호 서비스”는 증가하는 경향
노인인구의 사회적 관심사
계 노후소득
지원
의료및
요양보호
서비스
노후
취업
지원
문화·여가
복지서비
스
세대이해
증진위한
교육
홍보
교통 및
주거
환경조성
기타
2015 100 39.8 34.2 15.5 6.6 2.0 1.7 0.2
2017 100 40.6 38.6 13.2 5.3 1.1 1.1 0.1
남 자 100 39.1 35.0 17.3 6.0 1.4 1.1 0.1
여 자 100 41.7 41.3 10.2 4.8 0.9 1.0 0.0
65∼69
세
100 37.9 33.1 19.1 7.6 1.0 1.2 0.1
70∼79
세
100 42.5 38.8 11.9 4.4 1.3 1.1 0.0
80세
이상
100 40.8 48.2 5.8 3.4 0.9 0.7 0.2
(단위 : %)
“의료 및 요양보호 서비스”에 대한 관심사 커짐

연도별65세이상고령자인구수(서울특별시) 전국및시*도별노인요양시설충족률
“한국보건사회연구원;노인요양시설충족률이서울이68.1%로가장낮음”
서울시노인복지시설분석&입지선정주제로선정

노인복지시설의 현황
보건 복지부 노인복지시설 추이분석 및 변동요인 분석(2018)에 따르면
• 2008년 노인장기요양보험 제도 시행에 따라 일시적으로 요양시설이 많이 확충되었으나, 제도의 안정적인 정착으로 증가세가 둔화
• 향후 고령화로 인한 노인인구의 증가에 따라 시설의 수요가 완만하게 증가할 전망
• 시설의 충족율은 많이 개선되었으나 여전히 지역적으로 불균형 분포를 보이고 있어 균형있게 확충될 수 있는 대안 마련이 필요

본론
데이터 분석 과정

3가지 크롤링 실시
R을 이용한 크롤링
Python을 이용한 크롤링
Twitter-scraper
Twitter Developer에서
개인 API 계정을 신청
Twitter를 이용하여 노인복지시설에 대한 사람들의 반응 조사
Twitter Developer Center에서 개인용 token을 다운받아 크롤링 실시

크롤링 코드 소개 : Rstudio에서 실행한 R 코드
uB178uC778uBCF5uC9C0 :
＇노인복지’를 유니코드로 변환한 것

R 코드로 돌린 결과 csv 파일

크롤링 코드 소개 : Jupyter상에서 실행한 Python 기본 세팅 코드
Using package : ‘Tweepy’
!pip install tweepy
Import tweepy
# 트위터 application에서 발급받은 key 정보 입력
consumer_key= '5AHA6WnwL5CmIw4Hg8cwPPoAx'
consumer_secret=
'b85xJBKZ7Kmc7bUZJCxXL3yMxCiLgxbh5uZtbsZpTZNjnGE3Ky'
access_token= '1055056704302284800-ZlKcFBGOq6JDyosmNBJvQIWlcWYioA'
access_token_secret= 'SGHvNhv6MBJPTuoxdEndLwl0BwgXRBw4nIkPctGFodAVT’

크롤링 코드 소개 : Python 기본 세팅 코드
Using package : ‘Tweepy’
# 1. 핸들러 생성 및 개인정보 인증요청
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
# 2. 액세스 요청
auth.set_access_token(access_token, access_token_secret)
# 3. Twitter API 생성
api = tweepy.API(auth)

1) 첫번째로 시도한 코드
# keyword에 자신이 검색하고 싶은 키워드 입력
keyword = ”노인복지시설";
search = [] # 크롤링 결과를 저장할 변수
cnt = 1
while(cnt <= 30): # 20page 대상으로 크롤링
tweets = api.search(keyword)
for tweets in tweets:
search.append(tweets)
cnt += 1
print(len(search)) # 문서 길이
print(search[0]) # 첫번째 text 보기
print ('search')

2) 두번째로 시도한 코드
# 검색하고 싶은 키워드 입력
keyword = ＇노인복지시설'
result = [] # 크롤링 텍스트를 저장할 리스트 변수
for i in range(1,30): #1~30 페이지 크롤링
tweets = api.search(keyword)
# keyword 검색 실시, 결과가 tweets 변수에 담긴다
for tweet in tweets:
result.append([tweet.id_str, tweet.text, tweet.created_at])
# 크롤링 결과 리스트에 삽입 (id, 트윗내용, 생성날짜)
print(len(result)) # 크롤링하여 가져온 트윗 개수
print(result[0]) # 수집 결과 확인 (첫번째 항목만 확인할 때)
print(result) # 전체를 확인하고 싶으면 이 코드로
좀 더 깔끔한 형태로 결과가 나오는 것을 알 수 있다

크롤링이 잘 되지 않을 때 NIMS라는 서버를 사용 (개인 Github에 연동하여 사용)

크롤링 코드 소개 : Python을 이용한 twitter-scraper
# terminal에서 실행하기
결과물 저장할 경로 설정 해주고
> twitterscraper
> %F0%9F%98%A5 # 검색할 keyword의 유니코드 이름 입력
> -l 500000 # -l : 뽑을 개수 limit 정하기
> -bd 2018-01-01 -ed 2018-12-31 # 뽑을 대상의 기간 정하기
> --lang ko # 결과물 저장 언어는 한국어로 설정
--output logistics.json # 파일명 설정 후, 크롤링 결과물 json 형식으로 저장
Reference : https://github.com/taspinar/twitterscraper/tree/master/twitterscraper

JSON 형식의 파일을 CSV로 변환하고,
중복 데이터와 광고글을 제거해주는 단계를 거칩니다.

• By R and Python : 123MB + 80.8MB
• By Twitter-scraper :
2018-01-01부터 2018-12-07의 Twit 데이터 132.8MB + 183MB
데이터의 양

서울시 자치구 column : gu
서울시 노인 인구 : ppl_old
자치구별 지하철 역 개수 : metro_count
서울시 자치구별 노인복지시설 개수 : main_count
자치구별 노인 기초생활수급자 비율 :
ppl_old_need
총 인구대비 독거노인 비율 : alone_rate
변수 설명

데이터 기본 소개 및 상관분석 with Python

단계적 방법(stepwise selection) 수행
모든 변수가 포함된 모델에서 출발하여 기준 통계치에 가장 도움이
되지 않는 변수를 삭제하거나, 모델에서 빠져 있는 변수 중에서 기
준 통계치를 가장 개선시키는 변수를 추가
그리고 이러한 변수의 추가 또는 삭제를 반복한다. 반대로 절편만
포함된 모델에서 출발해 변수의 추가, 삭제를 반복할 수도 있다.
위 세 가지 방법의 변수 선택은 왼쪽과 같이 step( ) 함수로 수행

-우선 다중회귀분석 시 종속변수 Y를 제외하고 나머지
독립변수간의 상관관계만을 고려하여 2개 이상의 독립변
수 조합 간 회귀분석을 따로 실시한다.
여기서 설명력(결정계수 ; R2)이 높으면 우리가 우려하는
다중공산성문제가 발생되는 것
-만약 독립변수 간 상관관계가 높아 특정조합상(i 번째
독립변수를 종속변수로 두어 회귀분석 실시)에서 회귀선
의 설명력이 좋으면 분산팽창계수 값이 커지게 된다.
-보통 이 분산팽창계수가 10 이상일때 j번째 독립변수는
다중공산성이 있는 독립변수라 판단하는데 여기서는 10
이상이 되는 계수가 없으므로 다중공산성이 없다고 판단

•F-test는 회귀분석 모델 전체에 대해 통계적
으로 의미가 있는지를 결정하기 위해 사용
•회귀분석 모델에서 F-Statistic의 p-value의
값이 0.05보다 작은 경우 회귀식 전체는 유의
하다고 볼 수 있음

결론
결론 도출 및 한계점

Management big data_analysis_projet_team1(pdf)

Management big data_analysis_projet_team1(pdf)

Recommended

Recommended

More Related Content

Similar to Management big data_analysis_projet_team1(pdf)

Similar to Management big data_analysis_projet_team1(pdf) (20)

Management big data_analysis_projet_team1(pdf)