파이썬 데이터과학 1일차 - 초보자를 위한 데이터분석, 데이터시각화 (이태영)Tae Young Lee
파이썬 데이터과학 - 기초 과정(1일차)
- 데이터분석, 데이터시각화
- jupyter notebook, numpy, pandas, matplotlib, seaborn
2차 과정은 따로 올리겠습니다.
문의 및 제안 : se2n@naver.com
데이터 소스 : https://github.com/sh2orc/datascience
파이썬 데이터과학 1일차 - 초보자를 위한 데이터분석, 데이터시각화 (이태영)Tae Young Lee
파이썬 데이터과학 - 기초 과정(1일차)
- 데이터분석, 데이터시각화
- jupyter notebook, numpy, pandas, matplotlib, seaborn
2차 과정은 따로 올리겠습니다.
문의 및 제안 : se2n@naver.com
데이터 소스 : https://github.com/sh2orc/datascience
자바 개발자가 파이썬 개발을 배우면서 실무에 활용하고 집필을 하면서 겪었던 경험담 및 생각을 코드와 함께 풀어본다. 자바에 익숙한 사람이 파이썬을 배우고 있거나, 자바와 파이썬의 사이에서 고민을 했던 사람들에게 비교를 위한 기본 정보를 제공한다. 더 나아가 컴파일 언어와 스크립트 언어의 차이점, 개발 생산성을 측정할때 간과하는 컴파일 시간 및 순수 코딩 시간에 대한 통찰을 이끌 생각이다.
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)Tae Young Lee
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
- 코스피 LG유플러스 주가분석, 대한민국 부동산 분석, 강남 아파트 매매 분석, VISA 보고서 분석, 워드클라우드 등
- 국내 어떤 책에서도 다루지 않는 진짜 데이터분석 강의
- (귀차니즘에..) 소수 금융권/대기업/공기업에게만 강의된 자료
자바 개발자가 파이썬 개발을 배우면서 실무에 활용하고 집필을 하면서 겪었던 경험담 및 생각을 코드와 함께 풀어본다. 자바에 익숙한 사람이 파이썬을 배우고 있거나, 자바와 파이썬의 사이에서 고민을 했던 사람들에게 비교를 위한 기본 정보를 제공한다. 더 나아가 컴파일 언어와 스크립트 언어의 차이점, 개발 생산성을 측정할때 간과하는 컴파일 시간 및 순수 코딩 시간에 대한 통찰을 이끌 생각이다.
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)Tae Young Lee
파이썬 데이터과학 레벨2 - 데이터 시각화와 실전 데이터분석, 그리고 머신러닝 입문 (2020년 이태영)
- 코스피 LG유플러스 주가분석, 대한민국 부동산 분석, 강남 아파트 매매 분석, VISA 보고서 분석, 워드클라우드 등
- 국내 어떤 책에서도 다루지 않는 진짜 데이터분석 강의
- (귀차니즘에..) 소수 금융권/대기업/공기업에게만 강의된 자료
4. 유니코드와 인코딩
유니코드에 대한 잦은 오해 또는 인상
UTF-8은 유니코드다 (땡!)
유니코드는 16 비트로 저장된다. (땡!)
파일에서 인코딩 정보를 알아낼 수 있다. (거의 땡!)
유니코드는 … 짜증난다 (딩동댕?)
하지만 구글도 유니코드와 UTF-8 용어를 혼동했다.
4
5. MOVING TO UNICODE 5.1
“웹페이지는 ASCII, Latin-1, Windows 1252, 또는
유니코드와 같이 다양한 문자 인코딩을 사용한다.”
– Moving to Unicode 5.1, Google 공식 블로그, 2008
유니코드와 UTF-8은 같은 것이 아니다.
5
10. 인코딩
문제점
1. 프로세서마다 바이트 순서가 다르다
2. 낭비되는 공간이 많다. 디스크 저장 공간과 네트워크
대역폭이 최대 4배까지 늘어난다.
3. C 함수 strlen()과 호환되지 않는다.
4. 인터넷 표준 상당수는 0 바이트가 삽입된 값을 상대할 수
없다.
10
P
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00
y t h o n
24. 유니코드 인코딩과 디코딩
인코딩
u.encode(encoding)
<type ‘unicode’> to <type
‘str’>
유니코드 형식의 문자열을
지정된 인코딩을 사용하여 str
형식으로 변환
디코딩
s.decode(encoding)
<type ‘str’> to <type
‘unicode’>
특정한 인코딩으로 ‘str’을
읽어들여 유니코드 형식으로
변환
24
27. 초반 디코드 유니코드
가능한 빨리 <type ‘unicode’>로 변환
def to_unicode(obj, encoding=‘utf-8):
if isinstance(obj, basestring):
if not isinstance(obj, unicode):
obj = unicode(obj, encoding)
return obj
27
28. 출력 시, 유니코드 인코딩
직접 변환
>>> f = open(‘text.txt’, ‘w’)
>>>
f.write(uni_str.encode(‘utf-
8’))
>>> f.close()
codecs 표준 라이브러리
>>> import codecs
>>> f =
codecs.open(‘text.txt’, ‘w’,
encoding=‘utf-8’)
>>> f.write(uni_str)
>>> f.close()
28