9. 지난 시간 복습
[2]Setup
Cell Run 단축키 : Alt+Enter / Shift+Enter
Markdown(메모)
→ #(해시태그)을 입력하면 글씨 커짐
#을 붙일수록 작아짐(최대 5개)
10. 지난 시간 복습
[2]Setup
nbviewer.ipython.org → 사용자 iPython notebooks 공유하기 쉽고 간단히 방법
http://nbviewer.ipython.org/github/jmportilla/Udemy-notes/tree/master/
: 강의에서 배운 code를 정리해서 올려놓음
#(주석)으로 간단한 설명까지 센스있게 달아놓음
12. 지난 시간 복습
[빠른 배열 처리 기능 제공]
• 데이터 분석에서 알고리즘에 사용할 데이터 컨테이너의 역할
• 수치 데이터라면, 파이썬 기본자료구조보다 NumPy배열이 더
GOOD !
• C, 포트란 같은 저수준 언어로 이루어진 라이브러리는 NumPy
배열에 저장된 데이터를 복사하지 않고 사용할 수 있다.
16. 지난 시간 복습
[3]Learning NumPy
N차원의 배열 객체 또는 ndarray가 Numpy의 핵심 기능
ndarray는 같은 종류의 데이터를 담을 수 있는 포괄적인 다차
원 배열 ... ndarray의 모든 원소는 같은 자료형이어야 함
17. 지난 시간 복습
[3]Learning NumPy
shape:각 차원 크기
dtype : 배열에 저장된 자료형
zeros / ones: 주어진 길이나 모양에
각각 0과 1이 들어있는 배열 생성
empty : 초기화되지 않은 배열 생성
eye : N x N 크기의 단위 행렬 생성
arange : range 함수의 배열 버전
23. [3]Learning NumPy
11강 : Universal Array Function (보편적인 배열 함수)
square root = 제곱근(루트)
exponential = 지수
Binary Functions : 2개 배열을 사용하는 함수
http://docs.scipy.org/doc/numpy/reference/
ufuncs.html#available-ufuncs
24. [3]Learning NumPy
12강 : Array Processing (배열 처리)
Numpy 배열(Array) : 간결한 배열연산 사용가능(반복문X)
벡터화: 배열연산을 사용해서 반복문을 명시적으로 제거하는 기법
(순수 파이썬 연산에 비해 수십,수백배 빠름)
Boolean logic :영 국의 수학자였던 죠지 불(George Boole, 1815-64)의 이름을
따서 만든 불린 데이터 형은 True/False 혹은 0/1 이라는 이진 값을 갖는다
(http://www.terms.co.kr/Boolean.htm)
스칼라 값 : 정수와 같이 그 값의 범위가 정해져 있는 값.
25. [3]Learning NumPy
12강 : Array Processing (배열 처리)
1. numpy.where함수 : ‘X if 조건 else Y’같은 삼항식의 벡터화된 버전
2. 통계 method
(standard deviation : 표준편차)
3. 불리언 배열
4. 정렬 sort
5. 집합함수
-np.unique(중복 원소 제거)
-np.in1d(첫 번째 배열 각 원소가 두 번째 배열 원소 포함하는지)
26. [3]Learning NumPy
13강 : Array Input and Output (배열의 파일 입/출력)
디스크에서 텍스트나 바이너리 형식의 파일로부터 데이터를 불러
오거나 저장할 수 있다.
(표 형식의 데이터는 Pandas도구에서...)
27. [3]Learning NumPy
13강 : Array Input and Output (배열의 파일 입/출력)
1. np.save() : 저장 -> .npy로 저장
2. np.load() : 불러오기
3. np.savez() : multiple arrays -> .npz로 저장
4. np.savetxt() : 텍스트파일 저장
delimiter : 구분자.. 여기선 콤마( , )
5 .np.loadtxt()
104. [4]Intro to Pandas
14강 : Series
Series는 일련의 객체를 담을 수 있는 1차원 배열 같은 자료 구
조다.
가장 큰 특징 : index 설정 가능
필름인덱스
105. [4]Intro to Pandas
14강 : Series
series - dictionary : seriesname.to_dict()
dictionary - series : Series(dictionary name)
⊛ dictionary? 파이썬 내장 자료 구조 중 가장 중요한 자료 구조.연
관 배열(associative array)은 자료구조의 하나로, 키 하나와 값 하
나가 연관되어 있으며 키를 통해 연관되는 값을 얻을 수 있다. 연상
배열, 결합형 배열, 맵(map), 사전(dictionary)으로 부르기도 한다.
106. [4]Intro to Pandas
14강 : Series
1. null찾기 : pd.isnull() -T/F로 찾아준 null이 T
pd.notnull() - null이 F
2. series 합치기 : series1 + series2
3. series 이름 짓기 : ~.name = “이름”
index 이름짓기 : ~.index.name = ‘이름’
107. [4]Intro to Pandas
15강 : DataFrame
DataFrame: 표 같은 스프레드시트 형식의 자료 구조
여러 개의 열이 있는데 각 열은 서로 다른 종류의 값(숫자, 문자
열, 참거짓)을 담을 수 있다
DataFrame은 데이터를 내부적으로 2차원 형식으로 저장
108. [4]Intro to Pandas
15강 : DataFrame
1. https://en.wikipedia.org/wiki/NFL_win-loss_records
copy use
2. 웹에서 복사 후 ipython에서 띄우기 : pd.read_clipboard()
3. ~.columns : 열 이름 보기 / ~.행이름: 행 값 보기
4. DataFrame(객체이름,columns=[‘~’, ~~]
5. ~.head() : 처음부터 5 번째 까지 index만 띄우기 (괄호 안에 5이하 숫자 입력 가능)
~.tail() : 끝에서 5 번째 까지
109. [4]Intro to Pandas
15강 : DataFrame
6. ~.ix[숫자] : 해당 index의 데이터 보여줌
*Documentation*
http://pandas.pydata.org/pandas-docs/dev/generated/
pandas.DataFrame.html
110. [4]Intro to Pandas
16강 : Index objects (색인 객체)
pandas의 색인index객체는 표 형식의 데이터에서 각 행과 열에 대한 이름과
다른 메타데이터(축의 이름 등)를 저장하는 객체다.
index objects 는 변경할 수 없다.
그래서 자료 구조 사이에서 안전하게 공유될 수 있다.