SlideShare a Scribd company logo
1 of 11
지난 주 궁금했던 것
1. Leaf-wise가 Level-wise에 비해 빠르다?
-> 일정 성능에 도달하는 시간을 쟀을 때 더 빠르다
2. Ignoring sparse inputs -> Categorical feature 도 해당되는지?
-> text data 언급된것으로 보아 그렇다.
3. Binning은 0부터 값이 배정되는가?
-> default_bin 변수가 uint32_t로 선언되어 0이상으로 배정되지만
순서는 모르겠습니다.
4. Lgbm에서 categorical feature 대신 numeric으로 넣었을 때 성능
이 더 좋은데 그 이유?
-> numeric 순서를 바꿔도 성능이 좋다면 binning의 효과..?
Tsfresh Module (in python)
1. Tsfresh 란?
2. 생성되는 feature 목록
3. Feature Filtering
1. Tsfresh 란?
- Time Series Data에서 Feature를 추출하고 검증해주는 패키지
Target Prediction, Classification 에 유리하다
Time
Value
1. Tsfresh 란?
- Time Series Data에서 Feature를 추출하고 검증해주는 패키지
Target Prediction, Classification 에 유리하다
Time
1. Tsfresh 란?
- 예제 데이터 / Robot Execution Failures Data Set (UCI)
Y : ID 별 고장여부 (88 x 2)
X : ID, time 별 Numeric 값 변화 (1320 x 8)
ID time F_x F_y F_z T_x T_y T_z
1 0 -1 -1 63 -3 -1 0
1 1 0 0 62 -3 -1 0
… …
1 14 -1 0 64 -2 -1 0
2 0 -1 -1 63 -2 -1 0
2 1 -1 -1 63 -3 -1 0
… …
ID Target
1 True
2 True
3 True
… …
88 False
Y X
2. 생성되는 Feature 목록
- 64개 유형 (But, quantile이나 Lag 기준에 따라 더 많이 만들어짐)
- 한 feature 에 700~800개 정도 생성 (Filtering 안할 시)
- customizing 가능 (기준값 조절, 다른 유형 추출 등)
- 간단 요약
1) 기초통계량
: 최대, 최소, 중앙값, 평균, 분산, 왜도, 첨도,
표준편차, 빈도, 백분위 등
2) 그 외 Time series 등
: 최대값 중복 수 , peak 수, autocorrealation
Max 첫번째 출현 시기, 엔트로피,
density, linear-trend, dickey_fuller 등
https://tsfresh.readthedocs.io/en/latest/text/feature_extraction_settings.html#for-the-ambitious-how-do-i-set-the-
parameters-for-different-type-of-time-series
3. Feature Filtering 방법
- 전체 프로세스
Distributed and parallel time series feature extraction for industrial big data applications
ID
feature
New_feature
P-value
FDR
3. Feature Filtering 방법
- Target을 기준으로 비모수검정 -> p-value 계산
Distributed and parallel time series feature extraction for industrial big data applications
P-value
FDR
1) Binary , Binary
- Exact Fisher test of independence
2) Non-Binary , Binary
- Kolmogorov-Smirnov test
4) Non-Binary , Non-Binary
- Kendal rank test
3) Binary , Continuous
- Kolmogorov-Smirnov test
- Feature , Target 에 따른 비모수 검사유형
=> P-value 획득
3. Feature Filtering 방법
Distributed and parallel time series feature extraction for industrial big data applications
- 다중비교문제Imultiple Comparison Problem)
1) ANOVA test
H0 : A, B, C반 평균 점수는 동일하다 -> 기각 (다르다)
2) 사후검정
H0 : A=B , H0 : B=C , H0 : A=C -> 어떤 그룹에서 차이가 나는지 확인
3) 문제점 : 비교그룹이 많아지면 계산 cost, False Positive 확률이 급격히 증가
-> 다중비교문제로 정의
4) Bonferroni 등 대부분 방법은 단순하고 유의수준이 너무 작아 검정력이 떨어짐
3. Feature Filtering 방법
Distributed and parallel time series feature extraction for industrial big data applications
- False Discovery Rate (FDR)
유의하다고 판정한 가설 중 실제 유의하지 않은 가설의 비율을 조절하는 방법
유전학 연구에서 대량의 marker 중 질병과 연관성있는 것을 찾기 위해 많이 사용
- Benjamini and Hochberg based FDR
1) 개별 p-value를 오름차순으로 정렬
2) 순서에 따라 index를 주고 부등식을 만족하는 첫번째 k를 탐색
3) i보다 작은 p-value에 해당하는 검정만 기각
- Tsfresh 특징
1) 간편함 (Data Format만 맞춰주면 됨)
2) Customizing (Feature extraction)
3) 병렬처리로 계산속도 빠름
4) sklearn , 파이프라인 연동가능

More Related Content

What's hot

Apache Spark At Scale in the Cloud
Apache Spark At Scale in the CloudApache Spark At Scale in the Cloud
Apache Spark At Scale in the CloudDatabricks
 
Prometheus - Intro, CNCF, TSDB,PromQL,Grafana
Prometheus - Intro, CNCF, TSDB,PromQL,GrafanaPrometheus - Intro, CNCF, TSDB,PromQL,Grafana
Prometheus - Intro, CNCF, TSDB,PromQL,GrafanaSridhar Kumar N
 
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영NAVER D2
 
Data profiling in Apache Calcite
Data profiling in Apache CalciteData profiling in Apache Calcite
Data profiling in Apache CalciteDataWorks Summit
 
[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)NAVER D2
 
클린코드 16장
클린코드 16장클린코드 16장
클린코드 16장진화 손
 
hive HBase Metastore - Improving Hive with a Big Data Metadata Storage
hive HBase Metastore - Improving Hive with a Big Data Metadata Storagehive HBase Metastore - Improving Hive with a Big Data Metadata Storage
hive HBase Metastore - Improving Hive with a Big Data Metadata StorageDataWorks Summit/Hadoop Summit
 
[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편
[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편
[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편Ji-Woong Choi
 
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교Woo Yeong Choi
 
Completely Fair Scheduler (CFS)
Completely Fair Scheduler (CFS)Completely Fair Scheduler (CFS)
Completely Fair Scheduler (CFS)gokzy
 
Query and audit logging in cassandra
Query and audit logging in cassandraQuery and audit logging in cassandra
Query and audit logging in cassandraVinay Kumar Chella
 
Optimizing Hive Queries
Optimizing Hive QueriesOptimizing Hive Queries
Optimizing Hive QueriesOwen O'Malley
 
Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016
Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016
Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016Zabbix
 
[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기
[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기
[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기Ji-Woong Choi
 
HBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation Buffers
HBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation BuffersHBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation Buffers
HBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation BuffersCloudera, Inc.
 
[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?
[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?
[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?OpenStack Korea Community
 
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)Seongyun Byeon
 

What's hot (20)

HDFS: Optimization, Stabilization and Supportability
HDFS: Optimization, Stabilization and SupportabilityHDFS: Optimization, Stabilization and Supportability
HDFS: Optimization, Stabilization and Supportability
 
Apache Spark At Scale in the Cloud
Apache Spark At Scale in the CloudApache Spark At Scale in the Cloud
Apache Spark At Scale in the Cloud
 
Prometheus - Intro, CNCF, TSDB,PromQL,Grafana
Prometheus - Intro, CNCF, TSDB,PromQL,GrafanaPrometheus - Intro, CNCF, TSDB,PromQL,Grafana
Prometheus - Intro, CNCF, TSDB,PromQL,Grafana
 
[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영[215]네이버콘텐츠통계서비스소개 김기영
[215]네이버콘텐츠통계서비스소개 김기영
 
Data profiling in Apache Calcite
Data profiling in Apache CalciteData profiling in Apache Calcite
Data profiling in Apache Calcite
 
[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)[211] HBase 기반 검색 데이터 저장소 (공개용)
[211] HBase 기반 검색 데이터 저장소 (공개용)
 
클린코드 16장
클린코드 16장클린코드 16장
클린코드 16장
 
L'algorithme du Recuit simule
L'algorithme du Recuit simuleL'algorithme du Recuit simule
L'algorithme du Recuit simule
 
Achieving 100k Queries per Hour on Hive on Tez
Achieving 100k Queries per Hour on Hive on TezAchieving 100k Queries per Hour on Hive on Tez
Achieving 100k Queries per Hour on Hive on Tez
 
hive HBase Metastore - Improving Hive with a Big Data Metadata Storage
hive HBase Metastore - Improving Hive with a Big Data Metadata Storagehive HBase Metastore - Improving Hive with a Big Data Metadata Storage
hive HBase Metastore - Improving Hive with a Big Data Metadata Storage
 
[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편
[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편
[오픈소스컨설팅]레드햇계열리눅스7 운영자가이드 - 기초편
 
mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교mongodb와 mysql의 CRUD 연산의 성능 비교
mongodb와 mysql의 CRUD 연산의 성능 비교
 
Completely Fair Scheduler (CFS)
Completely Fair Scheduler (CFS)Completely Fair Scheduler (CFS)
Completely Fair Scheduler (CFS)
 
Query and audit logging in cassandra
Query and audit logging in cassandraQuery and audit logging in cassandra
Query and audit logging in cassandra
 
Optimizing Hive Queries
Optimizing Hive QueriesOptimizing Hive Queries
Optimizing Hive Queries
 
Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016
Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016
Mikhail Serkov - Zabbix for HPC Cluster Support | ZabConf2016
 
[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기
[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기
[오픈소스컨설팅] 프로메테우스 모니터링 살펴보고 구성하기
 
HBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation Buffers
HBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation BuffersHBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation Buffers
HBase HUG Presentation: Avoiding Full GCs with MemStore-Local Allocation Buffers
 
[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?
[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?
[OpenStack Days Korea 2016] Track1 - 카카오는 오픈스택 기반으로 어떻게 5000VM을 운영하고 있을까?
 
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
[MLOps KR 행사] MLOps 춘추 전국 시대 정리(210605)
 

Similar to tsfresh_suman2

초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기ksdc2019
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템NAVER D2
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Taekyung Han
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competitionjdo
 
Apache UIMA & RUTA를 활용한 자연어 처리 엔진 개발
Apache  UIMA & RUTA를 활용한 자연어 처리 엔진 개발Apache  UIMA & RUTA를 활용한 자연어 처리 엔진 개발
Apache UIMA & RUTA를 활용한 자연어 처리 엔진 개발Hyunmin Lee
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명DACON AI 데이콘
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning Systemhoondong kim
 
Machine learning linearregression
Machine learning linearregressionMachine learning linearregression
Machine learning linearregressionHaYoungChoi17
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyDataya Nolja
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제NAVER D2
 
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSpark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSangHoon Lee
 
elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리Junyi Song
 
Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러Heungsub Lee
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.Adonis Han
 
weather-data-processing-using-python
weather-data-processing-using-pythonweather-data-processing-using-python
weather-data-processing-using-pythonmarc_kth
 
Opensource APM SCOUTER in practice
Opensource APM SCOUTER in practiceOpensource APM SCOUTER in practice
Opensource APM SCOUTER in practiceGunHee Lee
 

Similar to tsfresh_suman2 (20)

Openface
OpenfaceOpenface
Openface
 
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
초초초 (초고속 초저지연 초연결) 5G IoT 플랫폼 개발 이야기
 
인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템인공지능추천시스템 airs개발기_모델링과시스템
인공지능추천시스템 airs개발기_모델링과시스템
 
Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차Python을 활용한 챗봇 서비스 개발 2일차
Python을 활용한 챗봇 서비스 개발 2일차
 
Titanic kaggle competition
Titanic kaggle competitionTitanic kaggle competition
Titanic kaggle competition
 
Apache UIMA & RUTA를 활용한 자연어 처리 엔진 개발
Apache  UIMA & RUTA를 활용한 자연어 처리 엔진 개발Apache  UIMA & RUTA를 활용한 자연어 처리 엔진 개발
Apache UIMA & RUTA를 활용한 자연어 처리 엔진 개발
 
메이크챗봇 자연어기초
메이크챗봇 자연어기초메이크챗봇 자연어기초
메이크챗봇 자연어기초
 
파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석파이썬을 활용한 자연어 분석
파이썬을 활용한 자연어 분석
 
천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명천체 유형 분류 대회 1위 수상자 코드 설명
천체 유형 분류 대회 1위 수상자 코드 설명
 
서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료서울 R&D 캠퍼스 자연어 수업자료
서울 R&D 캠퍼스 자연어 수업자료
 
100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System100% Serverless big data scale production Deep Learning System
100% Serverless big data scale production Deep Learning System
 
Machine learning linearregression
Machine learning linearregressionMachine learning linearregression
Machine learning linearregression
 
How to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its DifficultyHow to Create Value from Data, and Its Difficulty
How to Create Value from Data, and Its Difficulty
 
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
[D2 COMMUNITY] Spark User Group - 스파크를 통한 딥러닝 이론과 실제
 
Spark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With SparkSpark Day 2017 Machine Learning & Deep Learning With Spark
Spark Day 2017 Machine Learning & Deep Learning With Spark
 
elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리elasticsearch_적용 및 활용_정리
elasticsearch_적용 및 활용_정리
 
Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러Profiling - 실시간 대화식 프로파일러
Profiling - 실시간 대화식 프로파일러
 
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
LDA : latent Dirichlet Allocation (Fairies NLP Series) - Korean Ver.
 
weather-data-processing-using-python
weather-data-processing-using-pythonweather-data-processing-using-python
weather-data-processing-using-python
 
Opensource APM SCOUTER in practice
Opensource APM SCOUTER in practiceOpensource APM SCOUTER in practice
Opensource APM SCOUTER in practice
 

More from suman_lim

KOOC Ch8. k-means & GMM
KOOC Ch8. k-means & GMMKOOC Ch8. k-means & GMM
KOOC Ch8. k-means & GMMsuman_lim
 
Kooc ch1 _suman
Kooc ch1 _sumanKooc ch1 _suman
Kooc ch1 _sumansuman_lim
 
Model interpretation
Model interpretationModel interpretation
Model interpretationsuman_lim
 
Lightgbm_suman
Lightgbm_sumanLightgbm_suman
Lightgbm_sumansuman_lim
 
Boosting_suman
Boosting_sumanBoosting_suman
Boosting_sumansuman_lim
 

More from suman_lim (6)

KOOC Ch8. k-means & GMM
KOOC Ch8. k-means & GMMKOOC Ch8. k-means & GMM
KOOC Ch8. k-means & GMM
 
Kooc ch1 _suman
Kooc ch1 _sumanKooc ch1 _suman
Kooc ch1 _suman
 
Shap
ShapShap
Shap
 
Model interpretation
Model interpretationModel interpretation
Model interpretation
 
Lightgbm_suman
Lightgbm_sumanLightgbm_suman
Lightgbm_suman
 
Boosting_suman
Boosting_sumanBoosting_suman
Boosting_suman
 

tsfresh_suman2

  • 1. 지난 주 궁금했던 것 1. Leaf-wise가 Level-wise에 비해 빠르다? -> 일정 성능에 도달하는 시간을 쟀을 때 더 빠르다 2. Ignoring sparse inputs -> Categorical feature 도 해당되는지? -> text data 언급된것으로 보아 그렇다. 3. Binning은 0부터 값이 배정되는가? -> default_bin 변수가 uint32_t로 선언되어 0이상으로 배정되지만 순서는 모르겠습니다. 4. Lgbm에서 categorical feature 대신 numeric으로 넣었을 때 성능 이 더 좋은데 그 이유? -> numeric 순서를 바꿔도 성능이 좋다면 binning의 효과..?
  • 2. Tsfresh Module (in python) 1. Tsfresh 란? 2. 생성되는 feature 목록 3. Feature Filtering
  • 3. 1. Tsfresh 란? - Time Series Data에서 Feature를 추출하고 검증해주는 패키지 Target Prediction, Classification 에 유리하다 Time Value
  • 4. 1. Tsfresh 란? - Time Series Data에서 Feature를 추출하고 검증해주는 패키지 Target Prediction, Classification 에 유리하다 Time
  • 5. 1. Tsfresh 란? - 예제 데이터 / Robot Execution Failures Data Set (UCI) Y : ID 별 고장여부 (88 x 2) X : ID, time 별 Numeric 값 변화 (1320 x 8) ID time F_x F_y F_z T_x T_y T_z 1 0 -1 -1 63 -3 -1 0 1 1 0 0 62 -3 -1 0 … … 1 14 -1 0 64 -2 -1 0 2 0 -1 -1 63 -2 -1 0 2 1 -1 -1 63 -3 -1 0 … … ID Target 1 True 2 True 3 True … … 88 False Y X
  • 6. 2. 생성되는 Feature 목록 - 64개 유형 (But, quantile이나 Lag 기준에 따라 더 많이 만들어짐) - 한 feature 에 700~800개 정도 생성 (Filtering 안할 시) - customizing 가능 (기준값 조절, 다른 유형 추출 등) - 간단 요약 1) 기초통계량 : 최대, 최소, 중앙값, 평균, 분산, 왜도, 첨도, 표준편차, 빈도, 백분위 등 2) 그 외 Time series 등 : 최대값 중복 수 , peak 수, autocorrealation Max 첫번째 출현 시기, 엔트로피, density, linear-trend, dickey_fuller 등 https://tsfresh.readthedocs.io/en/latest/text/feature_extraction_settings.html#for-the-ambitious-how-do-i-set-the- parameters-for-different-type-of-time-series
  • 7. 3. Feature Filtering 방법 - 전체 프로세스 Distributed and parallel time series feature extraction for industrial big data applications ID feature New_feature P-value FDR
  • 8. 3. Feature Filtering 방법 - Target을 기준으로 비모수검정 -> p-value 계산 Distributed and parallel time series feature extraction for industrial big data applications P-value FDR 1) Binary , Binary - Exact Fisher test of independence 2) Non-Binary , Binary - Kolmogorov-Smirnov test 4) Non-Binary , Non-Binary - Kendal rank test 3) Binary , Continuous - Kolmogorov-Smirnov test - Feature , Target 에 따른 비모수 검사유형 => P-value 획득
  • 9. 3. Feature Filtering 방법 Distributed and parallel time series feature extraction for industrial big data applications - 다중비교문제Imultiple Comparison Problem) 1) ANOVA test H0 : A, B, C반 평균 점수는 동일하다 -> 기각 (다르다) 2) 사후검정 H0 : A=B , H0 : B=C , H0 : A=C -> 어떤 그룹에서 차이가 나는지 확인 3) 문제점 : 비교그룹이 많아지면 계산 cost, False Positive 확률이 급격히 증가 -> 다중비교문제로 정의 4) Bonferroni 등 대부분 방법은 단순하고 유의수준이 너무 작아 검정력이 떨어짐
  • 10. 3. Feature Filtering 방법 Distributed and parallel time series feature extraction for industrial big data applications - False Discovery Rate (FDR) 유의하다고 판정한 가설 중 실제 유의하지 않은 가설의 비율을 조절하는 방법 유전학 연구에서 대량의 marker 중 질병과 연관성있는 것을 찾기 위해 많이 사용 - Benjamini and Hochberg based FDR 1) 개별 p-value를 오름차순으로 정렬 2) 순서에 따라 index를 주고 부등식을 만족하는 첫번째 k를 탐색 3) i보다 작은 p-value에 해당하는 검정만 기각
  • 11. - Tsfresh 특징 1) 간편함 (Data Format만 맞춰주면 됨) 2) Customizing (Feature extraction) 3) 병렬처리로 계산속도 빠름 4) sklearn , 파이프라인 연동가능