2. 2/22
TYPOWE KROKI W ANALIZIE DANYCH TYPU ML
▸ Data preprocessing (scaling)
▸ Data partitioning
▸ Feature selection/extraction
▸ Model fitting (on train-set)
▸ Model cross-validation (on test-set)
▸ Calculate model performance
▸ Statistical analyses of performance
▸ Optional: feature visualization
3. 3/22
SCALING
▸ Standaryzacja lub normalizacja
rozkładu pozwala na ujednolicenie
rozkładu.
▸ Oznacza to, że wszystkie voxele w
naszej analizie będą miały średnią
= 0 i jednorodną wariancję.
▸ W celu znormalizowania naszych
danych w pakiecie Scikit-learn
korzystamy z klasy StandardScaler.
5. 5/22
FEATURE SELECTION / EXTRACTION
▸ Features = zmienne, których używamy jako predyktorów
▸ Mogą je stanowić różne dane, np.
▸ surowe dane fMRI w czasie i przestrzeni
▸ dane fMRI uśrednione w bloku eksperymentalnym (np. dla
kategorii bodźca)
▸ wartości beta z analizy GLM (czyli wartości, które już mówią
nam o istotnych statystycznie efektach)
▸ średnia z grupy voxeli w ROI (region of interest)
6. 6/22
FEATURE SELECTION / EXTRACTION
▸ Zwykle w badaniach fMRI liczba naszych features jest dużo
większa niż liczba obserwacji (np. mamy 30 osób w
badaniu, ale każda z tych osób ma 280 000 voxeli w
mózgu!)
▸ Dlatego warto zredukować trochę liczbę zmiennych
poprzez wybór jakiegoś ograniczonego zbioru tych
zmiennych.
▸ Np. użycie tylko konkretnych ROI lub zmniejszenie liczby
wymiarów dzięki PCA.
8. 8/22
DOPASOWANIE MODELU NA ZBIORZE TRENINGOWYM
▸ Model należy najpierw zbudować!
▸ Robi się to za pomocą dopasowania wybranego
klasyfikatora (jeśli naszym celem jest analiza kategorii)
▸ lub dopasowanie współczynnika regresji (jeśli estymacji
ma podlegać zmienna ciągła, np. wiek, ocena na skali itp).
▸ Categorical vs. continuous prediction
10. 10/22
KLASYFIKATORY LINIOWE
▸ Regresja logistyczna (regresja
liniowa, logistic regression - LR)
▸ Gaussian Naive Bayes (GNB)
▸ Fisher’s Linear Discriminant
Analysis (LDA)
▸ Linear Support Vector Machines
(SVM)
▸ Drzewa klasyfikacji (classification
trees)
11. 11/22
SVM
▸ Maksymalizuje margines wokół rozdzielającej płaszczyzny
(jeśli płaszczyzna jest wielowymiarowa nazywamy ją
hiperpłaszczyzną - hiperplane).
▸ Czyli staramy się, żeby nasza ulica była najszersza jak to
tylko możliwe.
12. All figures come from this course on Coursera!
Check out this course!
13. 13/22
SEPARABLE
▸ Jeśli nasze dane dają się podzielić za pomocą liniowego
klasyfikatora, to mówimy, że są liniowo rozłączne (linearly
separable)
17. 17/22
WALIDACJA MODELU
▸ Żeby odpowiednio ocenić
predykcję klasyfikatora konieczna
jest aplikacja na nowych danych
(takich, których klasyfikator jeszcze
nigdy nie widział).
▸ Jednym z rozwiązań jest walidacja
krzyżowa (cross-validation).
18. 18/22
CROSS-VALIDATION
1. Podzielić zbiór danych na K podzbiorów.
2. Zostawić 1 podzbiór do późniejszego testowania.
3. Wytrenować klasyfikator na K-1 podzbiorów.
4. Dokonać predykcji na pozostawionym pojedynczym
podzbiorze.
5. Powtórzyć procedurę dla każdego z podzbiorów.
6. Obliczyć poprawność wszystkich przeprowadzonych predykcji.
19. 19/22
CROSS-VALIDATION
‣ Przy walidacji krzyżowej niezwykle ważne jest, żeby każdy
podzbiór zawierał wszystkie typy (klasy) obserwacji - to
znaczy wszystkie kategorie bodźców.
‣ Obecność klas w podzbiorach powinna być zbilansowana.
‣ Unikamy włączania skorelowanych obserwacji do jednego
podzbioru.
20. 20/22
CROSS-VALIDATION
‣ Np. jeśli 90% wszystkich obserwacji włożymy do klasy A, to
klasyfikator wykaże 100% skuteczności w predykcji tej
klasy.
‣ Niestety będzie miał 0% poprawności w predykcji klasy
B…
21. 21/22
OCENA JAKOŚCI WYNIKÓW
‣ Jednym z popularnych sposobów oceny poprawności
modelu jest podzielenie liczby poprawnych predykcji
przez liczbę wszystkich dokonanych predykcji (choć
istnieje jeszcze wiele innych sposobów!)
22. 22/22
OVERFITTING
▸ Jeśli model jest zbyt dobry (100% poprawności) prawdopodobnie
zapomnieliśmy oddzielić testowego zestawu danych od całości, na której
trenowaliśmy klasyfikator.
▸ Overfitting - nadmierne dopasowanie/przeuczenie - zachodzi, gdy model
statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na
podstawie której był konstruowany. Kiedy liczba stopni swobody modelu
przekracza zawartość informacyjną danych, dobór parametrów staje się w
dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do
przypadkowych błędów w danych uczących, i tym samym zanika jego
zdolność generalizacji i możliwość zastosowania modelu do innych
podobnych danych, czyli główny cel modelowania.