1. 창조 데이터
데이터 수집, 어디까지 해봤니?
김태준 (Jun Kim)
i2r.jun@gmail.com
데이터야놀자
2017. 10. 13.
창조에 가까운 데이터 수집 X고생 이야기, 지금 시작합니다.
2. — University of South Florida, 권창현 교수님
“연구란 뭘 하는지도 모르면서 뭔가 열심히 하다가,
수많은 과정을 거쳐서,
결국에는 새로운 지식을 얻게 되는 과정이다.”
대학원생 때 알았더라면 좋았을 것들, http://gradschoolstory.net/
3. — University of South Florida, 권창현 교수님
“연구란 뭘 하는지도 모르면서 뭔가 열심히 하다가,
수많은 과정을 거쳐서,
결국에는 새로운 지식을 얻게 되는 과정이다.”
대학원생 때 알았더라면 좋았을 것들, http://gradschoolstory.net/
4. — University of South Florida, 권창현 교수님
“연구란 뭘 하는지도 모르면서 뭔가 열심히 하다가,
수많은 과정을 거쳐서,
결국에는 새로운 지식을 얻게 되는 과정이다.”
대학원생 때 알았더라면 좋았을 것들, http://gradschoolstory.net/
노가다
뻘짓
삽질
5. 안녕하세요, 김태준 입니다!
• 서울시립대학교 데이터마이닝 연구실 석사과정
• 연구원들과 함께 연구하며 수많은 노가다/뻘짓/삽질 경험
• 데이터야놀자 발장 (발표자들의 장)
• 데이터야놀자 BGM 담당
• 데이터야 “제플린이랑” 놀자 조교
42. — 이화여대 오욱환 교수님
“걸작(傑作)이나 대작(大作)보다
습작(習作)에 충실하십시오.”
학문을 직업으로 삼으려는 젊은 학자들을 위하여, https://sites.google.com/site/jeonggilko/for_young_scientists_oh
43. — 이화여대 오욱환 교수님
“논문을 쓰지 못하는 학자들의 특징 가운데 하나가 바로
걸작에 대한 집착입니다.”
학문을 직업으로 삼으려는 젊은 학자들을 위하여, https://sites.google.com/site/jeonggilko/for_young_scientists_oh
“그러나 걸작은 쉽게 나오지 않을 뿐만 아니라
걸작을 지향한 논문이라고 해서 걸작이 되는 것도 아닙니다.”
“논문을 쓸 때마다 최선을 다하고
그 논문들이 쌓여지면서
걸작과 대작이 가능해질 뿐입니다.”
65. 매칭에 사용된 기법들
• Locality sensitive hashing (LSH)
• Deep Neural Network (DNN)
• Generative Adversarial Networks (GAN)
• Semi-supervised Learning
- EM algorithm
• Ensemble
유한묵
66. 매칭 결과
• 서울 화재 사건 17000건을 약 50만개의 건축물과 매칭
• Top-3 accuracy 63% 달성
- 1개의 화재 사건당 3개의 후보 건물을 매칭한 경우 63%의 확률로 3개 중 하나는
맞다
- 1개의 화재 사건을 50만개 중 3개로 매칭해주는 것이라 정말 높은 수치임
• 이 과정이 10개월이 걸림
유한묵
67. • R 초고수
• Python도 함
• 데이터 집착남
• 데이터 마이닝 지식 풍부
- 데이터분석
- 머신러닝
- 딥러닝
- 키워드 추천
• 하시면 제게 연락주 요..!
⭑유한묵⭑
구 직 중
마지막 학기
77. 지금은 한 클러스터 내에서
화재/비화재 건물의
공통점은 무엇인지
차이점은 무엇인지
알아내는 연구를 하고 있습니다.
(데이터 수집 완료된지 한달도 안됨;;; 분석해본게 얼마 없음;;;)
78. — 알베르트 아인슈타인
“If we know what it was we were doing,
it would not be called research, would it?”
(우리도 우리가 뭐하는지 잘 모르잖아요.
알면 연구 아니잖아요. 그렇잖아요.)
대학원생 때 알았더라면 좋았을 것들, http://gradschoolstory.net/
79. — University of South Florida, 권창현 교수님
“연구란 뭘 하는지도 모르면서 뭔가 열심히 하다가,
수많은 과정을 거쳐서,
결국에는 새로운 지식을 얻게 되는 과정이다.”
대학원생 때 알았더라면 좋았을 것들, http://gradschoolstory.net/
80. 그 유명한 베이즈 정리도
40년 후 주목 받았다.
고지마 히로유키, 세상에서 가장 쉬운 베이즈 통계학 입문, 지상사 (2017)
81. 어느 통계학 책에나 등장하는 t분포 또한
그 당시 별로 주목받지 못했다.
고지마 히로유키, 세상에서 가장 쉬운 통계학 입문, 지상사 (2017)