https://www.pycon.kr/2016apac/program/1
How to make news fun?
Slideshare의 폰트 인식 문제로 인해 위 파일은 이미지 PDF로 업로드 되어 있습니다.
텍스트가 선택되는 PDF의 다운로드는 아래 링크를 이용하세요.
https://github.com/pythonkr/pyconapac-2016-files/raw/master/20160813-101-1-KimKyunghoon.pdf
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Katsuya Ito
This paper investigates the Lead-Lag relationships in high-frequency data.
We propose Multinomial Dynamic Time Warping (MDTW) that deals with non-synchronous observation, vast data, and time-varying Lead-Lag.
MDTW directly estimates the Lead-Lags without lag candidates. Its computational complexity is linear with respect to the number of observation and it does not depend on the number of lag candidates.
The experiments adopting artificial data and market data illustrate the effectiveness of our method compared to the existing methods.
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
Dynamic Time Warping を用いた高頻度取引データのLead-Lag 効果の推定Katsuya Ito
This paper investigates the Lead-Lag relationships in high-frequency data.
We propose Multinomial Dynamic Time Warping (MDTW) that deals with non-synchronous observation, vast data, and time-varying Lead-Lag.
MDTW directly estimates the Lead-Lags without lag candidates. Its computational complexity is linear with respect to the number of observation and it does not depend on the number of lag candidates.
The experiments adopting artificial data and market data illustrate the effectiveness of our method compared to the existing methods.
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
* 시계열 데이터의 시간적 속성을 이용하는 RNN과 그 한계점을 극복하기 위한 LSTM, GRU 기법에 대해 기본적인 개념을 소개합니다.
* 광주과학기술원 인공지능 스터디 A-GIST 모임에서 발표했습니다.
* 발표 영상 (유튜브, 한국어): https://youtu.be/Dt2SCbKbKvs
머신러닝 알고리즘들을 책이나 강의 등을 통해 공부한 뒤 실제로 무언가를 해보려고 했을 때에 맞닿게 되는 답답함 같은 게 있을 겁니다. 그것은 학습한 이론이 프로그래밍 언어 또는 도구로 연결되지 않기 때문일 수도 있지만, 일상에서 얻은 데이터가 책이나 강의에서 사용된 예제들처럼 잘 가공되어 피쳐화(feature) 되어있지 않거나 레이블(label) 정보가 없기 때문일 수도 있습니다.
본 발표는 19대 국회의원들의 의안표결결과, 회의록 내용, 그리고 정치자금 사용내역 등의 RAW 데이터들을 소재로 Python 을 사용하여 데이터를 가공하고 피쳐화하는 데서부터 모델링 까지의 과정을 다룹니다. 레이블 정보가 없을 때 유용한 클러스터링 기법들로 다양한 내용과 형태의 데이터들을 다루게 됩니다.
발표에서 사용할 데이터는 국회에서 공개된 내용을 크롤링하였거나 언론사에서 공개한 객관적인 자료들입니다. 이를 바탕으로 분석 기술들을 시연할 뿐, 정치적 내용은 포함하고 있지 않습니다.
Pre-requisites
- Python 문법에 대한 익숙한 이해.
- Pandas 또는 Numpy 의 기초적 사용법.
Take-away items
- 머신러닝 과정의 기초적 이해
- 머신러닝을 위한 다양한 형태의 데이터 처리 방법 in Python
- 머신러닝의 과정에서 어떤 Python 도구들이 어떻게 사용되는지 소개
사용 도구
- 시연 : Jupyter notebook
- 분석 : Pandas, Numpy, SciPy, Sci-Kit Learn, Spark
- 시각화 : matplotlib, Lightning Viz
개요
1. 의안표결 과 결과
1.1. 기초적인 데이터 전처리
1.2. 의원별 표결내용 군집화
1.3. 차원 축소 및 시각화
2. 정치자금 사용내역
2.1. 다양한 도메인의 데이터 전처리
2.2. 의원별 소비성향 클러스터링 및 시각화
3. 국회 회의록 내용
3.1. 텍스트 데이터에 대한 전처리
3.2. 텍스트 데이터의 피쳐화
3.3. 국회 회의록 클러스터링
3.4. 차원 축소 및 시각화
[기초개념] Recurrent Neural Network (RNN) 소개Donghyeon Kim
* 시계열 데이터의 시간적 속성을 이용하는 RNN과 그 한계점을 극복하기 위한 LSTM, GRU 기법에 대해 기본적인 개념을 소개합니다.
* 광주과학기술원 인공지능 스터디 A-GIST 모임에서 발표했습니다.
* 발표 영상 (유튜브, 한국어): https://youtu.be/Dt2SCbKbKvs
머신러닝 알고리즘들을 책이나 강의 등을 통해 공부한 뒤 실제로 무언가를 해보려고 했을 때에 맞닿게 되는 답답함 같은 게 있을 겁니다. 그것은 학습한 이론이 프로그래밍 언어 또는 도구로 연결되지 않기 때문일 수도 있지만, 일상에서 얻은 데이터가 책이나 강의에서 사용된 예제들처럼 잘 가공되어 피쳐화(feature) 되어있지 않거나 레이블(label) 정보가 없기 때문일 수도 있습니다.
본 발표는 19대 국회의원들의 의안표결결과, 회의록 내용, 그리고 정치자금 사용내역 등의 RAW 데이터들을 소재로 Python 을 사용하여 데이터를 가공하고 피쳐화하는 데서부터 모델링 까지의 과정을 다룹니다. 레이블 정보가 없을 때 유용한 클러스터링 기법들로 다양한 내용과 형태의 데이터들을 다루게 됩니다.
발표에서 사용할 데이터는 국회에서 공개된 내용을 크롤링하였거나 언론사에서 공개한 객관적인 자료들입니다. 이를 바탕으로 분석 기술들을 시연할 뿐, 정치적 내용은 포함하고 있지 않습니다.
Pre-requisites
- Python 문법에 대한 익숙한 이해.
- Pandas 또는 Numpy 의 기초적 사용법.
Take-away items
- 머신러닝 과정의 기초적 이해
- 머신러닝을 위한 다양한 형태의 데이터 처리 방법 in Python
- 머신러닝의 과정에서 어떤 Python 도구들이 어떻게 사용되는지 소개
사용 도구
- 시연 : Jupyter notebook
- 분석 : Pandas, Numpy, SciPy, Sci-Kit Learn, Spark
- 시각화 : matplotlib, Lightning Viz
개요
1. 의안표결 과 결과
1.1. 기초적인 데이터 전처리
1.2. 의원별 표결내용 군집화
1.3. 차원 축소 및 시각화
2. 정치자금 사용내역
2.1. 다양한 도메인의 데이터 전처리
2.2. 의원별 소비성향 클러스터링 및 시각화
3. 국회 회의록 내용
3.1. 텍스트 데이터에 대한 전처리
3.2. 텍스트 데이터의 피쳐화
3.3. 국회 회의록 클러스터링
3.4. 차원 축소 및 시각화
이 자료는 2012년 1학기 숙명여대 소셜미디어PR론 수업용으로 만든 자료입니다. 저작권 문제가 있을 수 있으니 수업용 외에 사용을 제한합니다. 이 자료는 스트레터지샐러드의 정용민 대표와 송동현 이사가 공저한 '소셜미디어 시대의 위기관리'의 내용을 바탕으로 작성하였습니다.
발명에 관한 열정, 도전, 그리고 즐거움에 관한 이야기를 강사의 사례를 통해 공유하려고 합니다. 우선 가장 최근 발명된 재미있고 새로운 입력 장치를 소개드리면서, UX 발명가(UX Inventor)로써의 삶을 이야기해 드리겠습니다. 그리고 제가 생각하는 발명 능력의 중요성과 다가올 시대의 인재상에 대해서도 이야기하겠습니다.
네이선 야우의 데이터 포인트 북 리뷰. 데이터가 무엇인가부터 데이터를 시각화하고 인포그래픽으로 나타내는 과정까지를 설명했습니다.
5. 명확한 시각화
1) 시각적 위계 구조
2) 가독성
3) 강조하기
4) 주석
5) 수학 계산
데이터 저널리즘의 새 바람, 뉴스젤리(Newsjelly)
http://newsjel.ly
Next Normal - Humans and AI Collaborate: Toron AI and AI Perfumer
일시:❍ 2024.2.1.(목), 14:00~16:00
장소: 판교 테크노밸리 산업수학혁신센터 세미나실
경기 성남시 수정구 대왕판교로 815, 기업지원허브 231호 국가수리과학연구소
무료주차는 2시간 지원됩니다.
발표자: 김경훈 대표(코어닷투데이)
최근 인공지능(AI) 기술의 발전은 기존에 상상조차 하지 못했던 창의적이고 혁신적인 가능성을 제시하고 있습니다. 특히 생성형 AI는 텍스트, 이미지, 시계열 등 다양한 데이터 분야에서 인간과 유사한 창조력을 발휘하며 놀라운 성과를 이루고 있습니다. 이러한 맥락에서, 본 강연은 두 개의 발전된 AI 시스템, 토론 AI 김컴재와 AI 조향사 센트리아를 중심으로, 생성형 AI의 현재 상황과 미래에 대해 논의하며, 다음의 두 가지 사항을 고려합니다. 첫째, 토론 AI 김컴재와 AI 조향사 센트리아의 대화와 토론을 통해 생성형 AI가 우리 사회와 산업에 미치는 영향과 가능성을 탐색합니다. 이를 통해 생성형 AI의 기술적 진보와 그로 인해 생겨난 새로운 기회를 이해합니다. 둘째, 생성형 AI의 윤리적, 사회적 측면에 대해 조명합니다. 무엇보다 생성형 AI의 발전이 미치는 영향과 이에 대한 사회적 대응은 무엇보다 중요한 논의 주제입니다. 이를 통해 생성형 AI의 위험과 제약사항, 그리고 이를 극복하기 위한 방안을 탐색합니다. 본 강연은 생성형 AI의 미래를 선도할 기술적 혁신과 사회적 대응 방안을 고민해 보고, 유익한 통찰과 함께 뜻깊은 논의의 기회를 제공합니다.
How the machine understands Korean
기계와 대화를 하려면 어떻게 해야 할까요? 우리는 그 동안 기계가 이해할 수 있는 프로그래밍 언어를 만들어서, 그 언어를 통해 소통해 왔습니다. 하지만 2010년 들어서며 급물살을 탄 AI 연구는 이러한 소통의 영역까지 침투하여, 기계가 인간의 언어를 이해하고, 소통할 수 있는 단계로 다가서고자 노력하고 있습니다. 그 근간에는 선형대수학의 여러 이론들이 사용되고 있는데요, 특히 인간의 언어를 기호화하고 이를 벡터공간에 투영하는 방법들이 핵심으로 여겨지고 있습니다. 이러한 방법을 임베딩(embedding)이라 지칭하고, 단어부터 문장, 문서에 이르기까지 인간의 언어를 다양한 형태로 벡터화하고, 이를 이용해 언어의 의미 유사성, 관계 유사성 등을 벡터 공간에서 벡터 연산을 통해 내재적인 의미를 도출합니다.
이번 세미나에서는 벡터공간모델(Vector Space Model, VSM)의 전통적인 방법(TF-IDF, SVD 등)부터 신경망 방법(word2vec, sent2vec 등)에 이르는 다양한 언어 모델링들을 살펴보고, 이를 한국어에 적용했을 때 기계가 어떻게 의미를 이해하는 것으로 해석할 수 있는지 다양한 관점에서 실험을 통해 살펴보도록 하겠습니다.
신문이나 뉴스를 보다보면 본 적이 없다고 할 수 없는 게 인공지능이란 단어가 아닌가 싶습니다. 인공지능이 이렇게 대두되기 까지는 기계학습, 얕은학습, 깊은학습 등이 혼재 되어 그 성장을 이끌었다고 할 수 있습니다. 이번 발표에서는 그러한 개념들에 대한 특징과 연결고리, 구분되는 차이점에 대해 이해하고, 그간의 발전해 온 애플리케이션들을 살펴봅니다. 특히, 기계학습에서 다섯 종족(Tribes)이라 불리는 기호주의자(Symbolists), 연결주의자(Connectionists), 진화주의자(Evolutionaries), 베이즈 주의자(Bayesians), 유추주의자(Analogizers)의 철학과 성격을 살펴보고, 각 종족이 갖는 영향력을 논의합니다. 또한 인공지능을 4단계로 구분하여, 기계를 학습시키는 연구들이 어떻게 인공지능에 받아들여 졌는지 지능과 관련지어 논의해 보겠습니다. 이후 시간이 허락한다면 앞으로의 인공지능의 발전 방향과 예측되는 불확실한 미래에 대해 논의할 예정입니다.
Naive bayes Classification using Python3Kyunghoon Kim
If the text on the screen of slideshare is broken, please download the PDF.
Chapter 1. Bayes Rule
Chapter 2. Classification
Chapter 3. Bayes & Classification
Chapter 4. Naive Bayes Classification
If the text on the screen of slideshare is broken, please download the PDF.
Chapter 1. Drawing / Matplotlib
- Ex1. Temperature graph
Chapter 2. Bayes Rule
- Ex1. A Family with two children
- Ex2. Testing for a rare disease
- Ex3. M&M problem
- Ex4. Monty Hall problem