데이터 탐사와 SE에 관한 이야기를 다루는 세미나를 위해서 만든 자료입니다.
원본 자료는 구글 드라이브 링크에 있습니다. (구글드라이브 PDF 변환시에 약간의 변형이 있었습니다. 구글 드라이브에서 보실것을 권합니다.)
http://goo.gl/KFP3Dp
아래와 같은 내용을 다루고 있습니다.
Session 1
1. 데이터 탐사, 그리고 빅 데이터/스몰 데이터는 무엇인가? (Target, Amazon/Facebook 사례)
2. 데이터 처리 과정 (데이터 모으기, 데이터 가공, 데이터 분석, 데이터 시각화)
3. 데이터 처리 과정에 맞는 관련 툴
4. 케이스 스터디 A: 트위터에서 LG G2, Nexus S, Moto X 관련 트윗 모아서 처리해보기
5. 케이스 스터디 A에 대해 분석해보고 토론해보기 (데이터 분석에 도움)
6. 데이터 분석 툴 바꿔보기 사례: Splunk 로 데이터 탐사하고 IPython, Pandas 로 코딩하기
7. 중간회고: 지금까지 우리는 무엇을 배웠나요? (Session 1 마감)
Session 2
8. 소프트웨어 엔지니어링(SE)을 위한 데이터 탐사
9. 케이스 스터디 B: Splunk를 이용한 안드로이드 프레임웍 소스 저장소 분석하기
10. 모델 확장해보기
11. SE 데이터 탐사시에 유의해야 할 점
12. SE 데이터 탐사의 확장 (개발, 교육, HR, 조직문화를 위한 SE 데이터 탐사)
13. 몇 가지 중요한 점
14. 논쟁거리 다루기: 커밋 횟수로 그 사람을 평가할 수 있는가? (Git 데이터 분석)
15. 최종회고: 정말로 우리는 무엇을 배웠나?
7. 데이터 처리와 관련 툴
데이터 모으기(생성)
open refine
pandas, numpy
데이터 가공
data wrangler
google big query
apache lucene
manyeyes
d3
google chart API
matplotlib
데이터 분석
NodeXL
splunk
데이터 시각화
tableau
각 툴에 대한 참고: http://goo.gl/ooYExB
10. 연장을 준비하자
데이터 모으기(생성): Twitter API, Twython
데이터 가공: Python, Twython, IPython,
Pandas
데이터 분석: Splunk, Python, IPython, Pandas
데이터 시각화: Splunk, matplotlib, Google
Chart API
11. 스플렁크로 해보기
Interesting query 1 of 3
Add a comment
By this query we see that the highest retweet on the nexus 5 is by google. Which shows that they have a
strong voice when getting to their fans.
data: https://github.com/sangheestyle/bisonsampledata
presenation: http://goo.gl/MLFf96
12. 트위터 데이터로 분석해보
Interesting query 2 of 3
기
source="/Users/kimsanghee/Dev/datastore4bison/nexus_5_raw.csv.zip:./nexus_5_raw.csv"
By this query at launching time we see that the highest retweet by RT on the nexus 5 is by Sundar Pichai
who is is a senior vice president at Google, where he oversees Android, Chrome and Google Apps. Which
shows that he has a strong voice when getting to their fans.
data: https://github.com/sangheestyle/bisonsampledata
presenation: http://goo.gl/MLFf96
13. 트위터 데이터로 분석해보
Interesting query 3 of 3
기
Top tweets show what organization is
most influential during 19 days
2nd largest tweet is about promotional
event for free nexus 5.
http://mobilesyrup.com/2013/11/02/wina-google-nexus-5/
data: https://github.com/sangheestyle/bisonsampledata
presenation: http://goo.gl/MLFf96
25. “40 percent of major
decisions are based not
on facts, but on the
manager’s gut”
from Software Analytics = Sharing Information by Thomas
Zimmermann http://goo.gl/WQ0BKv
47. From SE lecture by Professor Ruth Dameron (University of Colorado, Boulder)
48. 확장해보기
개발: 어떤식으로 일을 하면 덜 고통스러울까?
교육: 우리는 어떠한 교육을 만들어내야 하는가?
HR: 어떤 사람들이 필요한가? 조직 구조는?
조직문화: 우리 조직의 특성은 어떠한가?
49. 중요한 점
어디서 어떻게 데이터를 수집 할 것인가?
데이터는 집단을 충분히 반영하는가?
데이터는 지속적으로 변경될 수 있다.
분석하는 방법에 따라서 정보는 달라질 수 있다.
가정을 하고, 대화를 하고, 생각을 확장하자.
집단 내 전문가들을 이용하자.
잘라내기보다 이상치를 조정해보자.
의도적으로 툴을 바꿔보자.
(그 외에는?)