1. 지난 주 궁금했던 것
1. Leaf-wise가 Level-wise에 비해 빠르다?
-> 일정 성능에 도달하는 시간을 쟀을 때 더 빠르다
2. Ignoring sparse inputs -> Categorical feature 도 해당되는지?
-> text data 언급된것으로 보아 그렇다.
3. Binning은 0부터 값이 배정되는가?
-> default_bin 변수가 uint32_t로 선언되어 0이상으로 배정되지만
순서는 모르겠습니다.
4. Lgbm에서 categorical feature 대신 numeric으로 넣었을 때 성능
이 더 좋은데 그 이유?
-> numeric 순서를 바꿔도 성능이 좋다면 binning의 효과..?
2. Tsfresh Module (in python)
1. Tsfresh 란?
2. 생성되는 feature 목록
3. Feature Filtering
3. 1. Tsfresh 란?
- Time Series Data에서 Feature를 추출하고 검증해주는 패키지
Target Prediction, Classification 에 유리하다
Time
Value
4. 1. Tsfresh 란?
- Time Series Data에서 Feature를 추출하고 검증해주는 패키지
Target Prediction, Classification 에 유리하다
Time
5. 1. Tsfresh 란?
- 예제 데이터 / Robot Execution Failures Data Set (UCI)
Y : ID 별 고장여부 (88 x 2)
X : ID, time 별 Numeric 값 변화 (1320 x 8)
ID time F_x F_y F_z T_x T_y T_z
1 0 -1 -1 63 -3 -1 0
1 1 0 0 62 -3 -1 0
… …
1 14 -1 0 64 -2 -1 0
2 0 -1 -1 63 -2 -1 0
2 1 -1 -1 63 -3 -1 0
… …
ID Target
1 True
2 True
3 True
… …
88 False
Y X
6. 2. 생성되는 Feature 목록
- 64개 유형 (But, quantile이나 Lag 기준에 따라 더 많이 만들어짐)
- 한 feature 에 700~800개 정도 생성 (Filtering 안할 시)
- customizing 가능 (기준값 조절, 다른 유형 추출 등)
- 간단 요약
1) 기초통계량
: 최대, 최소, 중앙값, 평균, 분산, 왜도, 첨도,
표준편차, 빈도, 백분위 등
2) 그 외 Time series 등
: 최대값 중복 수 , peak 수, autocorrealation
Max 첫번째 출현 시기, 엔트로피,
density, linear-trend, dickey_fuller 등
https://tsfresh.readthedocs.io/en/latest/text/feature_extraction_settings.html#for-the-ambitious-how-do-i-set-the-
parameters-for-different-type-of-time-series
7. 3. Feature Filtering 방법
- 전체 프로세스
Distributed and parallel time series feature extraction for industrial big data applications
ID
feature
New_feature
P-value
FDR
8. 3. Feature Filtering 방법
- Target을 기준으로 비모수검정 -> p-value 계산
Distributed and parallel time series feature extraction for industrial big data applications
P-value
FDR
1) Binary , Binary
- Exact Fisher test of independence
2) Non-Binary , Binary
- Kolmogorov-Smirnov test
4) Non-Binary , Non-Binary
- Kendal rank test
3) Binary , Continuous
- Kolmogorov-Smirnov test
- Feature , Target 에 따른 비모수 검사유형
=> P-value 획득
9. 3. Feature Filtering 방법
Distributed and parallel time series feature extraction for industrial big data applications
- 다중비교문제Imultiple Comparison Problem)
1) ANOVA test
H0 : A, B, C반 평균 점수는 동일하다 -> 기각 (다르다)
2) 사후검정
H0 : A=B , H0 : B=C , H0 : A=C -> 어떤 그룹에서 차이가 나는지 확인
3) 문제점 : 비교그룹이 많아지면 계산 cost, False Positive 확률이 급격히 증가
-> 다중비교문제로 정의
4) Bonferroni 등 대부분 방법은 단순하고 유의수준이 너무 작아 검정력이 떨어짐
10. 3. Feature Filtering 방법
Distributed and parallel time series feature extraction for industrial big data applications
- False Discovery Rate (FDR)
유의하다고 판정한 가설 중 실제 유의하지 않은 가설의 비율을 조절하는 방법
유전학 연구에서 대량의 marker 중 질병과 연관성있는 것을 찾기 위해 많이 사용
- Benjamini and Hochberg based FDR
1) 개별 p-value를 오름차순으로 정렬
2) 순서에 따라 index를 주고 부등식을 만족하는 첫번째 k를 탐색
3) i보다 작은 p-value에 해당하는 검정만 기각