사내 스터디용으로 공부하며 만든 발표 자료입니다. 부족한 부분이 있을 수도 있으니 알려주시면 정정하도록 하겠습니다.
*슬라이드 6에 나오는 classical CNN architecture(뒤에도 계속 나옴)에서 ReLU - Pool - ReLu에서 뒤에 나오는 ReLU는 잘못된 표현입니다. ReLU - Pool에서 ReLU 계산을 또 하는 건 redundant 하기 때문입니다(Kyung Mo Kweon 피드백 감사합니다)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
요즘 Hadoop 보다 더 뜨고 있는 Spark.
그 Spark의 핵심을 이해하기 위해서는 핵심 자료구조인 Resilient Distributed Datasets (RDD)를 이해하는 것이 필요합니다.
RDD가 어떻게 동작하는지, 원 논문을 리뷰하며 살펴보도록 합시다.
http://www.cs.berkeley.edu/~matei/papers/2012/sigmod_shark_demo.pdf
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
사내 스터디용으로 공부하며 만든 발표 자료입니다. 부족한 부분이 있을 수도 있으니 알려주시면 정정하도록 하겠습니다.
*슬라이드 6에 나오는 classical CNN architecture(뒤에도 계속 나옴)에서 ReLU - Pool - ReLu에서 뒤에 나오는 ReLU는 잘못된 표현입니다. ReLU - Pool에서 ReLU 계산을 또 하는 건 redundant 하기 때문입니다(Kyung Mo Kweon 피드백 감사합니다)
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
요즘 Hadoop 보다 더 뜨고 있는 Spark.
그 Spark의 핵심을 이해하기 위해서는 핵심 자료구조인 Resilient Distributed Datasets (RDD)를 이해하는 것이 필요합니다.
RDD가 어떻게 동작하는지, 원 논문을 리뷰하며 살펴보도록 합시다.
http://www.cs.berkeley.edu/~matei/papers/2012/sigmod_shark_demo.pdf
발표자: 최윤제(고려대 석사과정)
최윤제 (Yunjey Choi)는 고려대학교에서 컴퓨터공학을 전공하였으며, 현재는 석사과정으로 Machine Learning을 공부하고 있는 학생이다. 코딩을 좋아하며 이해한 것을 다른 사람들에게 공유하는 것을 좋아한다. 1년 간 TensorFlow를 사용하여 Deep Learning을 공부하였고 현재는 PyTorch를 사용하여 Generative Adversarial Network를 공부하고 있다. TensorFlow로 여러 논문들을 구현, PyTorch Tutorial을 만들어 Github에 공개한 이력을 갖고 있다.
개요:
Generative Adversarial Network(GAN)은 2014년 Ian Goodfellow에 의해 처음으로 제안되었으며, 적대적 학습을 통해 실제 데이터의 분포를 추정하는 생성 모델입니다. 최근 들어 GAN은 가장 인기있는 연구 분야로 떠오르고 있고 하루에도 수 많은 관련 논문들이 쏟아져 나오고 있습니다.
수 없이 쏟아져 나오고 있는 GAN 논문들을 다 읽기가 힘드신가요? 괜찮습니다. 기본적인 GAN만 완벽하게 이해한다면 새로 나오는 논문들도 쉽게 이해할 수 있습니다.
이번 발표를 통해 제가 GAN에 대해 알고 있는 모든 것들을 전달해드리고자 합니다. GAN을 아예 모르시는 분들, GAN에 대한 이론적인 내용이 궁금하셨던 분들, GAN을 어떻게 활용할 수 있을지 궁금하셨던 분들이 발표를 들으면 좋을 것 같습니다.
발표영상: https://youtu.be/odpjk7_tGY0
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
* 시계열 데이터의 시간적 속성을 이용하는 RNN과 그 한계점을 극복하기 위한 LSTM, GRU 기법에 대해 기본적인 개념을 소개합니다.
* 광주과학기술원 인공지능 스터디 A-GIST 모임에서 발표했습니다.
* 발표 영상 (유튜브, 한국어): https://youtu.be/Dt2SCbKbKvs
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
안녕하세요 딥러닝 논문읽기 모임입니다 오늘 업로드된 논문 리뷰 영상은 올해 발표된, RoFormer: Enhanced Transformer with Rotary Position Embedding 라는 제목의 논문입니다.
해당 논문은 Rotary Position Embedding을 이용하여 Transformer를 개선 시킨 논문입니다. Position embedding은 Self attention의 포지션에 대한 위치를 기억 시키기 위해 사용이 되는 중요한 요소중 하나 인대요, Rotary Position Embedding은 선형대수학 시간때 배우는 회전행렬을 사용하여 위치에 대한 정보를 인코딩 하는 방식으로 대체하여 모델의 성능을 끌어 올렸습니다.
논문에 대한 백그라운드 부터, 수식에 대한 디테일한 리뷰까지,
논문 리뷰를 자연어 처리 진명훈님이 디테일한 논문 리뷰 도와주셨습니다!
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
발표자: 이활석(NAVER)
발표일: 2017.11.
최근 딥러닝 연구는 지도학습에서 비지도학습으로 급격히 무게 중심이 옮겨 지고 있습니다. 본 과정에서는 비지도학습의 가장 대표적인 방법인 오토인코더의 모든 것에 대해서 살펴보고자 합니다. 차원 축소관점에서 가장 많이 사용되는Autoencoder와 (AE) 그 변형 들인 Denoising AE, Contractive AE에 대해서 공부할 것이며, 데이터 생성 관점에서 최근 각광 받는 Variational AE와 (VAE) 그 변형 들인 Conditional VAE, Adversarial AE에 대해서 공부할 것입니다. 또한, 오토인코더의 다양한 활용 예시를 살펴봄으로써 현업과의 접점을 찾아보도록 노력할 것입니다.
1. Revisit Deep Neural Networks
2. Manifold Learning
3. Autoencoders
4. Variational Autoencoders
5. Applications
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
* 시계열 데이터의 시간적 속성을 이용하는 RNN과 그 한계점을 극복하기 위한 LSTM, GRU 기법에 대해 기본적인 개념을 소개합니다.
* 광주과학기술원 인공지능 스터디 A-GIST 모임에서 발표했습니다.
* 발표 영상 (유튜브, 한국어): https://youtu.be/Dt2SCbKbKvs
RoFormer: Enhanced Transformer with Rotary Position Embeddingtaeseon ryu
안녕하세요 딥러닝 논문읽기 모임입니다 오늘 업로드된 논문 리뷰 영상은 올해 발표된, RoFormer: Enhanced Transformer with Rotary Position Embedding 라는 제목의 논문입니다.
해당 논문은 Rotary Position Embedding을 이용하여 Transformer를 개선 시킨 논문입니다. Position embedding은 Self attention의 포지션에 대한 위치를 기억 시키기 위해 사용이 되는 중요한 요소중 하나 인대요, Rotary Position Embedding은 선형대수학 시간때 배우는 회전행렬을 사용하여 위치에 대한 정보를 인코딩 하는 방식으로 대체하여 모델의 성능을 끌어 올렸습니다.
논문에 대한 백그라운드 부터, 수식에 대한 디테일한 리뷰까지,
논문 리뷰를 자연어 처리 진명훈님이 디테일한 논문 리뷰 도와주셨습니다!
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
China Internet Report 2017 by Edith YeungEdith Yeung
The China Internet Report covers topics including:
China vs. US internet by the numbers, China market size, top China startup cities, venture capital, smartphone landscape, major Chinese internet trends including messaging, mobile payment, Cryptocurrency, shopping, bike sharing, live streaming. gaming, eSport, artificial intelligence and education. This guide is intended to give you basic information about Chinese internet landscape.
세바시 15분 데이터로 세상이 다시 한번 바뀝니다 @하용호 SK Telecomcbs15min
디지털이 아닌 것을 찾기 힘든 시대가 되어갑니다. 우리 뿐만 아니라 주변의 기계들도 끊임없이 데이터를 만들기 시작했습니다. 이 데이터 조각들이 서로 모이고 연결되어 새로운 규칙을 찾아내고 만들어가고 있습니다. 데이터로 파생될 많은 발명들은 인터넷 만큼이나 우리 세상을 바꿀 것이고, 우리는 그 입구에 서있습니다.
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
@PyCon Korea 2014
NLTK 덕에 파이썬으로 자연어처리를 하는 것이 편리해졌다. 단, 한국어만 분석하려하지 않는다면. 파이썬으로 한국어를 분석할 수는 없을까? 국문, 영문, 중문 등 다양한 문자가 섞여 있는 문서는 어떻게 분석을 할 수 있을까?
이 발표에서는 자연어처리의 기초적인 개념을 다룬 후, NLTK 등의 자연어처리 라이브러리와 한국어 분석을 위해 개발중인 KoNLPy를 소개한다. 또, 파이썬으로 한국어를 분석할 때 유용한 몇 가지 트릭을 공유한다.
http://konlpy.readthedocs.org
Note (2017-07-12): a more recent version of this slide has been released. https://www.slideshare.net/ByoungHeeKim1/20170629-osia-final
Introduction to deep learning approaches for artificial intelligence (with some practice materials) (mostly in Korean)
(서울대학교 인지과학협동과정, 인지과학방법론 2016년 2학기 강의)
이 문서는 넷플릭스의 기업 문화를 공부하고, 동료들과 함께 읽기 위해 번역한 문서입니다.
넷플릭스의 CEO인 리드 헤이스팅스(Reed Hastings)가 공유한 "Netflix Culture: Freedom & Responsibility"는 시간이 지나도 많은 이들에게 사랑받고 있습니다. 이 문서를 가리켜 페이스북의 최고운영책임자(COO)인 셰릴 샌드버그(Sheryl Sandberg)는 '실리콘밸리에서 가장 중요한 문서'라고까지 이야기했습니다.
일견 제가 다니고 있는 스마트스터디에서 추구하는 문화와도 많이 일치한다고 느꼈는데, 좀 더 자세히 읽어 보려니 한글이 아니어서 쉽게 파악이 되지 않았습니다. 또 회사 동료들에게도 소개하고 싶었고요. 한글로 번역된 자료가 없을까 검색을 하다 보니 회사 밖의 많은 사람도 원문을 끝까지 완전하게 파악하고 싶어 한다는 사실을 발견하게 되었습니다.
그 계기로 번역을 시작하게 되었고, 동료들의 도움을 받아 무사히 마칠 수 있었습니다. 넷플릭스의 전강훈 님께서도 도움을 주셨습니다. 다시 한번 감사의 말씀을 전합니다.
스마트스터디가 궁금하신 분은 아래 주소를 통해 확인해주세요.
https://www.facebook.com/SmartStudyKR
번역 : 황석인(Seokin Hwang), 손동우(Dongwoo Son), 이강영(Gangyoung Lee)
도움 : 윤혜경(Hyekyoung Yun), 김승호(Seungho Kim), 박현우(Hyunwoo Park)
Our secure remote connectivity tool provides full video recording of all work our engineers perform on client systems. We have requirements to analyze the video log to detect suspicious activity, provide forensic and root cause analysis capabilities. Some of the obvious use cases include detection of credit card patterns or personally identifiable information (PII) as well as malicious activity like dropping database objects. We need to process hundreds of gigabytes per day representing thousands of hours of video. Our solution leverages a variety of Hadoop components to perform optical text recognition and indexing, keyboard and mouse movement analysis as well as integration with variety of other data sources such as our monitoring, documentation, ticketing and communication systems. We will present our complete architecture starting from multi-source data ingestion through data processing and analysis up to the end user interface, reporting and integration layer.
장그래를 통해 배우는 보고서를 쓸 때 문장을 줄이는 방법
본 자료는 가천대학교 산업경영공학과 기술 경영 연구실 TeamLab에서 작성하였습니다.
상업적인 용도의 사용외 무단 복제 및 전재에 제한을 두지 않습니다.
→ 9/25 17:30 pm 추가
생각보다 많이 보셔서 자세한 출처를 적습니다.
1) 모자 관련된 얘기는 Refactoring과 관련된 프로그램밍 책에서 나온 얘기입니다. 프로그래밍도 보고서를 쓰는 것과 비슷해서 Simple하게 코드를 작성하는게 중요하죠. 정확한 책 제목이 생각안나서 (TDD 또는 Refactoring인데...) 나중에 다시 정확히 적겠습니다.
2) 두 번째 얘기는 다들 아시겠지만 "미생" 이라고 하는 웹툰에서 주인공 장그래가 보고서를 쓰는 법을 배우는 과정입니다. 해당 부분의 맨끝에는 "미생" 버전이 있고, 그 앞에는 제가 수업시간에 수정한 내용을 정리한 겁니다.
3) 세 번쨰 얘기는 제가 쓴 보고서를 직접 줄인 겁니다.
웹 올릴때 늘 "조심해야지" 생각하면서도 또 귀찮아서 대충 일을 해버렸군요. 혹시 오해가 있으셨다면 너그러이 이해해 주시기 바랍니다.
[분석+시각화] 위기탈출 경전철! - 신설 경전철 노선의 역별 수송수요 예측BOAZ Bigdata
** 위기탈출 경전철! - 신설 경전철 노선의 역별 수송수요 예측 **
의정부 경전철 파산으로 인해 도시철도의 과잉수요예측 문제가 대두되고 있다. 용인 에버라인 역시 사업 계획 당시 예측수요를 충족시키지 못하고 있다. 계속해서 신설되고 있는 경전철은 수송 인원 수요를 적절히 예측한 것일까? 어떠한 모델을 적용해야 수송 인원 수요를 적절하게 예측할 수 있을까? 분석과 시각화를 통해 신설 경전철 노선의 수송수요를 예측해본다.
7기 일반 정재욱
7기 시각화 심재인
7기 시각화 김은지
7기 일반 조수민
7기 일반 나여영
8기 일반 정수지
8기 일반 김유경
8기 일반 최하은
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
블로그: http://blog.naver.com/boazbigdata
페이스북: https://www.facebook.com/BOAZbigdata
위 자료는 BOAZ 2016 하반기 프로젝트 주제의 하나로, Advanced 정규세션 동안 Base 정규세션에서 배웠던 다양한 이론들과 기본 지식들, 그리고 툴 활용능력들을 직접 실행하며 진행한 결과물입니다.
*** 서울시 2030 나홀로족을 위한 라이프 가이드북 ***
서울에 거주하는 2030 나홀로족을 위해 제작된 라이프 가이드북. 이 가이드북의 주목적은 먹는 것(식) 그리고 사는 것(주)에 대해서 그에 관한 정보를 주는 것임.
6기 김승효 중앙대학교 응용통계학과
6기 김재은 이화여자대학교 시각디자인과
7기 박다혜 한국외국어대학교 통계학과
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
Blog : http://BOAZbigdata.com
Facebook : http://fb.com/BOAZbigdata
41. GDvsSGD
목적지
모든 걸 계산(1시간)후
최적의 한스텝
일부만 검토(5분)
틀려도 일단 간다! 빠른 스텝!
6스텝 * 1시간 = 6시간
11스텝 * 5분 = 55분 < 1시간
Gradient Decent
Stochastic
Gradient Descent
최적인데 너무 느리다!
조금 헤매도 어쨌든 인근에
아주 빨리 갔다!