Slides based on "Introduction to Machine Learning with Python" by Andreas Muller and Sarah Guido for Hongdae Machine Learning Study(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)
홍대 머신 러닝 스터디(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)의 "파이썬 라이브러리를 활용한 머신러닝"(옮긴이 박해선) 슬라이드 자료.
『9가지 사례로 익히는 고급 스파크 분석』 - 맛보기복연 이
샌디 라이자, 유리 레이저슨, 션 오언, 조시 윌스 지음 | 박상은, 권한철, 서양주 옮김 | 한빛미디어 | 2016년 07월 | 26,000원
예스24 링크: http://www.yes24.com/24/goods/29081416
★ 스파크 실전편! 실무와 가장 가까운 경험을 제공한다.
이 책은 기능과 API를 단조롭게 나열하지 않는다. 현실과 동떨어진, 예제를 위한 예제를 따라 하지도 않는다. 대신 우리 주변에서 찾을 수 있고 우리 삶과 밀접한 실제 데이터를 가져와 함께 분석하고 다듬어본다. 그것도 하나가 아니라 9가지다. 음악 추천부터 이상 감지, 교통, 금융, 영상 데이터 등. 관심 가는 장을 먼저 봐도 좋고, 차례대로 천천히 따라 해봐도 좋다. 그럼 가장 진보한 분석 도구인 스파크로 다 함께 데이터의 바다를 항해해보자!
★ 현실 세계 데이터셋과 스파크의 만남
1. 오디오스크로블러(AudioScrobbler) 데이터셋으로 음악 추천하기
2. 의사 결정 나무로 산림 식생 분포 예측하기
3. K 평균 군집화로 네트워크 이상 감지하기
4. 숨은 의미 분석으로 위키백과 이해하기
5. 그래프엑스(GraphX)로 동시발생 네트워크 분석하기
6. 뉴욕 택시 운행 데이터로 위치 및 시간 데이터 분석하기
7. 몬테카를로 시뮬레이션으로 금융 리스크 추정하기
8. BDG 프로젝트와 유전체학 데이터 분석하기
9. 파이스파크(PySpark)와 썬더(Thunder)로 신경 영상 데이터 분석하기
Zeppelin 노트북, 화재 뉴스 기사 데이터셋:
https://github.com/uosdmlab/playdata-zeppelin-notebook
2016년 10월 14일(금)에 "마루180"서 열린 "데이터야놀자"에서 진행한 세션 "Spark & Zeppelin을 활용한 머신러닝 실전 적용기" 슬라이드입니다. 많은 분들이 빠르고 쉽게 Spark ML을 시작했으면 하는 마음에서 발표를 준비했습니다! 실제로 Spark와 Zeppelin으로 머신러닝을 하며 발생한 문제점과 해결법, 간단한 텍스트 분류 예제와 성능 향상 사례 등의 내용을 담았습니다. 세션에서는 제플린 노트북과 슬라이드를 번갈아가며 진행하였는데, 노트북이 궁금하신 분들은 GitHub에 올려두었으니 직접 실행해보세요^^ (정말 열심히 정리했습니다 ㅠㅠ)
서울시립대학교 데이터마이닝연구실 김태준
*(SlideShare에서도 배달의민족 도현체 쓰고 싶어요)
사이토 고키 지음 | 개앞맵시(이복연) 옮김 | 24,000원 | 한빛미디어 | 2017.01.03
"직접 구현하고 움직여보며 익히는 가장 쉬운 딥러닝 입문서 "
이 책은 라이브러리나 프레임워크에 의존하지 않고, 딥러닝의 핵심을 ‘밑바닥부터’ 직접 만들어보며 즐겁게 배울 수 있는 본격 딥러닝 입문서입니다. 술술 읽힐 만큼 쉽게 설명하였고, 역전파처럼 어려운 내용은 ‘계산 그래프’ 기법으로 시각적으로 풀이했습니다. 무엇보다 작동하는 코드가 있어 직접 돌려보고 요리조리 수정해보면 어려운 이론도 명확하게 이해할 수 있습니다. 딥러닝에 새롭게 입문하려는 분과 기초를 다시금 정리하고 싶은 현업 연구자와 개발자에게 최고의 책이 될 것입니다.
골빈해커(김진중) 지음 | 한빛미디어 | 22,000원
텐서플로 코드로 맛보는 딥러닝 핵심 개념!
이 책은 신경망 기초부터 CNN, Autoencoder, GAN, RNN, DQN까지 딥러닝의 가장 기본이 되는 모델들을 직접 구현하며 몸으로 익히도록 구성했습니다. 이론을 깊이 파헤치기보다는 다양한 딥러닝 모델의 기초 개념과 기본적인 텐서플로 사용법을 학습하는 데 초점을 두고, 각 모델의 논문에 수록된 복잡한 코드들을 그 핵심이 잘 드러나도록 재구현했습니다. 간결해진 예제들이 여러분을 딥러닝과 텐서플로의 세계로 즐겁고 편안히 모실 것입니다.
코끼리(BOAZ) 사서의 도서 추천 솔루션
: 이 책 내용이 내 취향인데, 비슷한 내용의 책은 어떻게 찾지?’
줄거리를 바탕으로 책을 고르시는 분, 관심 작가의 책을 읽고 싶은 분들께
코끼리 사서가 취향저격 책을 제안해 드립니다.
12기 강호석 고은비 고은지 양태일 이지인 전준수 정해원
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
Slides based on "Introduction to Machine Learning with Python" by Andreas Muller and Sarah Guido for Hongdae Machine Learning Study(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)
홍대 머신 러닝 스터디(https://www.meetup.com/Hongdae-Machine-Learning-Study/) (epoch #2)의 "파이썬 라이브러리를 활용한 머신러닝"(옮긴이 박해선) 슬라이드 자료.
『9가지 사례로 익히는 고급 스파크 분석』 - 맛보기복연 이
샌디 라이자, 유리 레이저슨, 션 오언, 조시 윌스 지음 | 박상은, 권한철, 서양주 옮김 | 한빛미디어 | 2016년 07월 | 26,000원
예스24 링크: http://www.yes24.com/24/goods/29081416
★ 스파크 실전편! 실무와 가장 가까운 경험을 제공한다.
이 책은 기능과 API를 단조롭게 나열하지 않는다. 현실과 동떨어진, 예제를 위한 예제를 따라 하지도 않는다. 대신 우리 주변에서 찾을 수 있고 우리 삶과 밀접한 실제 데이터를 가져와 함께 분석하고 다듬어본다. 그것도 하나가 아니라 9가지다. 음악 추천부터 이상 감지, 교통, 금융, 영상 데이터 등. 관심 가는 장을 먼저 봐도 좋고, 차례대로 천천히 따라 해봐도 좋다. 그럼 가장 진보한 분석 도구인 스파크로 다 함께 데이터의 바다를 항해해보자!
★ 현실 세계 데이터셋과 스파크의 만남
1. 오디오스크로블러(AudioScrobbler) 데이터셋으로 음악 추천하기
2. 의사 결정 나무로 산림 식생 분포 예측하기
3. K 평균 군집화로 네트워크 이상 감지하기
4. 숨은 의미 분석으로 위키백과 이해하기
5. 그래프엑스(GraphX)로 동시발생 네트워크 분석하기
6. 뉴욕 택시 운행 데이터로 위치 및 시간 데이터 분석하기
7. 몬테카를로 시뮬레이션으로 금융 리스크 추정하기
8. BDG 프로젝트와 유전체학 데이터 분석하기
9. 파이스파크(PySpark)와 썬더(Thunder)로 신경 영상 데이터 분석하기
Zeppelin 노트북, 화재 뉴스 기사 데이터셋:
https://github.com/uosdmlab/playdata-zeppelin-notebook
2016년 10월 14일(금)에 "마루180"서 열린 "데이터야놀자"에서 진행한 세션 "Spark & Zeppelin을 활용한 머신러닝 실전 적용기" 슬라이드입니다. 많은 분들이 빠르고 쉽게 Spark ML을 시작했으면 하는 마음에서 발표를 준비했습니다! 실제로 Spark와 Zeppelin으로 머신러닝을 하며 발생한 문제점과 해결법, 간단한 텍스트 분류 예제와 성능 향상 사례 등의 내용을 담았습니다. 세션에서는 제플린 노트북과 슬라이드를 번갈아가며 진행하였는데, 노트북이 궁금하신 분들은 GitHub에 올려두었으니 직접 실행해보세요^^ (정말 열심히 정리했습니다 ㅠㅠ)
서울시립대학교 데이터마이닝연구실 김태준
*(SlideShare에서도 배달의민족 도현체 쓰고 싶어요)
사이토 고키 지음 | 개앞맵시(이복연) 옮김 | 24,000원 | 한빛미디어 | 2017.01.03
"직접 구현하고 움직여보며 익히는 가장 쉬운 딥러닝 입문서 "
이 책은 라이브러리나 프레임워크에 의존하지 않고, 딥러닝의 핵심을 ‘밑바닥부터’ 직접 만들어보며 즐겁게 배울 수 있는 본격 딥러닝 입문서입니다. 술술 읽힐 만큼 쉽게 설명하였고, 역전파처럼 어려운 내용은 ‘계산 그래프’ 기법으로 시각적으로 풀이했습니다. 무엇보다 작동하는 코드가 있어 직접 돌려보고 요리조리 수정해보면 어려운 이론도 명확하게 이해할 수 있습니다. 딥러닝에 새롭게 입문하려는 분과 기초를 다시금 정리하고 싶은 현업 연구자와 개발자에게 최고의 책이 될 것입니다.
골빈해커(김진중) 지음 | 한빛미디어 | 22,000원
텐서플로 코드로 맛보는 딥러닝 핵심 개념!
이 책은 신경망 기초부터 CNN, Autoencoder, GAN, RNN, DQN까지 딥러닝의 가장 기본이 되는 모델들을 직접 구현하며 몸으로 익히도록 구성했습니다. 이론을 깊이 파헤치기보다는 다양한 딥러닝 모델의 기초 개념과 기본적인 텐서플로 사용법을 학습하는 데 초점을 두고, 각 모델의 논문에 수록된 복잡한 코드들을 그 핵심이 잘 드러나도록 재구현했습니다. 간결해진 예제들이 여러분을 딥러닝과 텐서플로의 세계로 즐겁고 편안히 모실 것입니다.
코끼리(BOAZ) 사서의 도서 추천 솔루션
: 이 책 내용이 내 취향인데, 비슷한 내용의 책은 어떻게 찾지?’
줄거리를 바탕으로 책을 고르시는 분, 관심 작가의 책을 읽고 싶은 분들께
코끼리 사서가 취향저격 책을 제안해 드립니다.
12기 강호석 고은비 고은지 양태일 이지인 전준수 정해원
[국내 최초 빅데이터 연합동아리 BOAZ]
유튜브 - https://www.youtube.com/channel/UCSniI26A56n2QZ71opJtTUg
페이스북 - https://www.facebook.com/BOAZbigdata
인스타그램 - http://www.instagram.com/boaz_bigdata
블로그 - https://blog.naver.com/boazbigdata
2. 책 vs 책
책 vs책:정형vs비정형딥러닝
vs
실제 데이터를 활용해 당면한 문제를 푼다는 점에서 두 책은 유사점이 많다!
3. 책 vs책:정형vs비정형딥러닝
한 페이지 요약
딥러닝을 이용한 정형 데이터 분석 파이토치 딥러닝 마스터
다루는 데이터 정형 데이터(숫자) 비정형 데이터(이미지)
기반 기술 케라스 파이토치
도메인 경전철 지연 분석 의료 영상(CT 이미지)에서 폐 결절
찾기
분석 과정에서 다루는
구간
데이터 전처리부터 모델 배포까지 데이터 전처리부터 모델 배포까지
데이터 토론토 경전철(Tram) 지연 데이터
(TTC Streetcar Delay Data)
LUNA(LUng Nodule Analysis) 2016
데이터셋
시각화 도구 텐서보드 텐서보드
모델 복잡도 낮음 높음
4. 무엇이 두 책을 흥미롭게 만드는가?(1)
정형 데이터 분석에는 딥러닝을 적용할 수 없을까?
• 기존에 출간된 딥러닝 책들은 이미지와 텍스트 같은 비정형 데이터에 집중
• 많은 데이터 확보의 용이성
• 기존에 범용으로 구축된 모델을 재활용
• 하지만 이 책은 오직 정형 데이터에만 집중
• 실제로 우리가 비즈니스 가치를 창출하고 있는 많은 데이터는 정형임을 명심할 필요가 있음 → 현실적인 문제 해결에 꼭 필요
• 정말로 정형 데이터 분석에 딥러닝을 적용하면 효과가 있을까?
• 이 책에서는 XGBoost 머신러닝 기법과 비교해 성능, 모델 훈련 시간, 코드 복잡도, 유연성을 비교 ***
책 vs책:정형vs비정형딥러닝
5. 무엇이 두 책을 흥미롭게 만드는가?(2)
정형 데이터 분석에는 딥러닝을 적용할 수 없을까?
책 vs책:정형vs비정형딥러닝
• XGBoost는 정형 데이터 처리에 있어 발군의 실력을 자
랑함
• 그렇더라도, 유연성 측면에서 딥러닝 모델의 우월성
을 따라가기는 쉽지 않음
• 여기서 질문 한 가지: 복합적인 데이터 소스를 다룰
필요가 있을까?
6. 무엇이 두 책을 흥미롭게 만드는가?(3)
데이터 사전 분석/가공과 케라스 모델 매핑
책 vs책:정형vs비정형딥러닝
7. 무엇이 두 책을 흥미롭게 만드는가?(4)
엔드 투 엔드 흐름
책 vs책:정형vs비정형딥러닝
• 구슬이 서말이라도 꿰어야 보배다
• 데이터셋 가공
• 모델 훈련
• 모델 배포(웹, 페이스북 메신저)
• 전과정을 모두 다루고 있음
8. 무엇이 두 책을 흥미롭게 만드는가?(5)
우리는 실 세계 문제 해결에 나서야 한다
책 vs책:정형vs비정형딥러닝
https://howardchen.substack.com/p/this-amateur-programmer-fought-cancer
https://news.hada.io/topic?id=6642
2018년, X-Ray 이미지를 올리면 AI로 유방암을 진단해주는 사
이트를 공개한 coolwulf에 대한 이야기
• 자신의 돈으로 50개의 Nvidia GTX 1080 Ti 로 로컬 GPU
클러스터를 구성
• 완전히 무료. 정확도가 90%에 달함
• "암 환자와 가족들은 너무 많은 것을 견뎌왔기에, 모
두가 그들을 돕고 싶어 한다고 생각합니다. 나에게는
그럴 수 있는 능력이 있고요"
레딧에 소개된 이후 한 사용자의 댓글
• 모든 영웅이 망토를 입는 것은 아닙니다.
“Not all heroes wear capes”
9. 무엇이 두 책을 흥미롭게 만드는가?(6)
건초 더미에서 바늘 찾기
책 vs책:정형vs비정형딥러닝
도대체 악성 종양 판별 문제가 개 vs 고양이 문제와
다른 이유가 무엇일까?
• 거의 대부분의 환자의 몸은 건강한 세포로 이뤄
져 있기 때문에 악성 종양이 있는 경우를 봐도 CT
에 있는 99.9999%의 복셀은 암 세포가 아니다.
• 비율로 따지면 고해상도TV(HDTV) 어딘가에 색이
이상한 2개 픽셀 정도에 해당한다.
• 결절을 찾는 일은 책으로 가득한 서가에서 철자
가 틀린 단어 하나를 찾는 것과 비슷하다.
10. 무엇이 두 책을 흥미롭게 만드는가?(7)
엔드 투 엔드 흐름
책 vs책:정형vs비정형딥러닝
• 결절 분석과 진단을 위해
• 세그멘테이션, 그룹화, 분류라는 세 가지 단위 문제로 나눔
• 각각에 대해 집중하고
• 결과를 엮는 파이프라인을 구성하는 방법을 사용
11. 무엇이 두 책을 흥미롭게 만드는가?(8)
모델 평가를 위한 방안
책 vs책:정형vs비정형딥러닝
12. 대상 독자
어느 정도 머신러닝과 딥러닝 기초를 알고 있는 분들…
• 조금 더 체계적으로 업무를 수행하고 싶은 현업 데이터 사이언티스트와 데이터 엔지니어
• 딥러닝이 현업에서 무엇을 의미하는지 구체적인 도메인과 연계해 실전 사례를 보고 싶은 입문자
• 데이터 확보부터 모델 서빙에 이르기까지 엔드 투 엔드로 프로젝트 진행 과정을 배우고 싶은 분
책 vs책:정형vs비정형딥러닝
13. 결론
***** 학습을 위한 학습을 넘어서 인공지능 기술로 현실의 문제를 풀고 싶은 모든 분들께
• 실제 현업에서 어떤 점에 주목하고 어떤 과정을 밟는지 구경하는 재미가 쏠쏠함
• “이 책에서 전달하고자 하는 딥러닝 프로젝트의 진실은 모닝커피 한잔을 곁들인 멋진 논문 읽기가 아니라, 손과 신발에 흙을 잔뜩 묻
혀가며 제대로 동작하기 전까지 무수한 잘못을 시행착오 끝에 찾아내야 하는 무척 고된 작업이다.” - <파이토치 딥러닝 마스터> 추천
사에서
• 이 두 책을 읽고 나면 딥러닝 관련해 세미나를 듣거나 책을 읽거나 프로젝트를 하거나 머리 속에 참조가 가능한 프레임이 생겨서 상당
히 유리한 위치를 점유할 수 있을 것이다
책 vs책:정형vs비정형딥러닝
14. 발표자 소개
기술 배경
전문 검색 엔진, 임베디드 시스템(리눅스 커널 디바이스 드라이버), 빅데이터/인공지능 연구 개발,
고성능 고가용성 데이터베이스
주요활동
IT 전문서 번역 (클린 코드, 피플웨어, 해커: 광기의 랩소디, 게임 엔진 블랙 북 등)
개발강의 (삼성전자, SK C&C, 삼성SDC, 현대자동차 기술 세미나와 교육)
활동채널
블로그: https://jhrogue.blogspot.com
슬라이드 셰어: https://www.slideshare.net/jrogue/presentations
유튜브: https://www.youtube.com/c/박재호dev
문의 jrogue@gmail.com
박재호