SlideShare a Scribd company logo
1 of 22
Download to read offline
MACHINE LEARNING W
ANALIZIE DANYCH FMRI
DR ILONA KOTLEWSKA-WAŚ
KATEDRA KOGNITYWISTYKI UMK, 16-05-2019
2/22
TYPOWE KROKI W ANALIZIE DANYCH TYPU ML
▸ Data preprocessing (scaling)
▸ Data partitioning
▸ Feature selection/extraction
▸ Model fitting (on train-set)
▸ Model cross-validation (on test-set)
▸ Calculate model performance
▸ Statistical analyses of performance
▸ Optional: feature visualization
3/22
SCALING
▸ Standaryzacja lub normalizacja
rozkładu pozwala na ujednolicenie
rozkładu.
▸ Oznacza to, że wszystkie voxele w
naszej analizie będą miały średnią
= 0 i jednorodną wariancję.
▸ W celu znormalizowania naszych
danych w pakiecie Scikit-learn
korzystamy z klasy StandardScaler.
DATA PARTITIONING:
PODZIAŁ DANYCH NA CZĘŚĆ
DO UCZENIA I DO TESTOWANIA
Training & Testing set
4/22
5/22
FEATURE SELECTION / EXTRACTION
▸ Features = zmienne, których używamy jako predyktorów
▸ Mogą je stanowić różne dane, np.
▸ surowe dane fMRI w czasie i przestrzeni
▸ dane fMRI uśrednione w bloku eksperymentalnym (np. dla
kategorii bodźca)
▸ wartości beta z analizy GLM (czyli wartości, które już mówią
nam o istotnych statystycznie efektach)
▸ średnia z grupy voxeli w ROI (region of interest)
6/22
FEATURE SELECTION / EXTRACTION
▸ Zwykle w badaniach fMRI liczba naszych features jest dużo
większa niż liczba obserwacji (np. mamy 30 osób w
badaniu, ale każda z tych osób ma 280 000 voxeli w
mózgu!)
▸ Dlatego warto zredukować trochę liczbę zmiennych
poprzez wybór jakiegoś ograniczonego zbioru tych
zmiennych.
▸ Np. użycie tylko konkretnych ROI lub zmniejszenie liczby
wymiarów dzięki PCA.
MODEL FITTING
DOPASOWANIE
MODELU
8/22
DOPASOWANIE MODELU NA ZBIORZE TRENINGOWYM
▸ Model należy najpierw zbudować!
▸ Robi się to za pomocą dopasowania wybranego
klasyfikatora (jeśli naszym celem jest analiza kategorii)
▸ lub dopasowanie współczynnika regresji (jeśli estymacji
ma podlegać zmienna ciągła, np. wiek, ocena na skali itp).
▸ Categorical vs. continuous prediction
9/22
KLASYFIKATORY
▸ Liniowe i nieliniowe
10/22
KLASYFIKATORY LINIOWE
▸ Regresja logistyczna (regresja
liniowa, logistic regression - LR)
▸ Gaussian Naive Bayes (GNB)
▸ Fisher’s Linear Discriminant
Analysis (LDA)
▸ Linear Support Vector Machines
(SVM)
▸ Drzewa klasyfikacji (classification
trees)
11/22
SVM
▸ Maksymalizuje margines wokół rozdzielającej płaszczyzny
(jeśli płaszczyzna jest wielowymiarowa nazywamy ją
hiperpłaszczyzną - hiperplane).
▸ Czyli staramy się, żeby nasza ulica była najszersza jak to
tylko możliwe.
All figures come from this course on Coursera!
Check out this course!
13/22
SEPARABLE
▸ Jeśli nasze dane dają się podzielić za pomocą liniowego
klasyfikatora, to mówimy, że są liniowo rozłączne (linearly
separable)
14/22
NIEPODZIELNE LINIOWO
▸ Jeśli dane nie dają się podzielić liniowo - wprowadzamy
dodatkowe wymiary.
15/22
NIEPODZIELNE LINIOWO
▸ Jeśli dane nie dają się podzielić liniowo - wprowadzamy
dodatkowe wymiary.
16/22
KLASYFIKACJA NIELINIOWA
17/22
WALIDACJA MODELU
▸ Żeby odpowiednio ocenić
predykcję klasyfikatora konieczna
jest aplikacja na nowych danych
(takich, których klasyfikator jeszcze
nigdy nie widział).
▸ Jednym z rozwiązań jest walidacja
krzyżowa (cross-validation).
18/22
CROSS-VALIDATION
1. Podzielić zbiór danych na K podzbiorów.
2. Zostawić 1 podzbiór do późniejszego testowania.
3. Wytrenować klasyfikator na K-1 podzbiorów.
4. Dokonać predykcji na pozostawionym pojedynczym
podzbiorze.
5. Powtórzyć procedurę dla każdego z podzbiorów.
6. Obliczyć poprawność wszystkich przeprowadzonych predykcji.
19/22
CROSS-VALIDATION
‣ Przy walidacji krzyżowej niezwykle ważne jest, żeby każdy
podzbiór zawierał wszystkie typy (klasy) obserwacji - to
znaczy wszystkie kategorie bodźców.
‣ Obecność klas w podzbiorach powinna być zbilansowana.
‣ Unikamy włączania skorelowanych obserwacji do jednego
podzbioru.
20/22
CROSS-VALIDATION
‣ Np. jeśli 90% wszystkich obserwacji włożymy do klasy A, to
klasyfikator wykaże 100% skuteczności w predykcji tej
klasy.
‣ Niestety będzie miał 0% poprawności w predykcji klasy
B…
21/22
OCENA JAKOŚCI WYNIKÓW
‣ Jednym z popularnych sposobów oceny poprawności
modelu jest podzielenie liczby poprawnych predykcji
przez liczbę wszystkich dokonanych predykcji (choć
istnieje jeszcze wiele innych sposobów!)
22/22
OVERFITTING
▸ Jeśli model jest zbyt dobry (100% poprawności) prawdopodobnie
zapomnieliśmy oddzielić testowego zestawu danych od całości, na której
trenowaliśmy klasyfikator.
▸ Overfitting - nadmierne dopasowanie/przeuczenie - zachodzi, gdy model
statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na
podstawie której był konstruowany. Kiedy liczba stopni swobody modelu
przekracza zawartość informacyjną danych, dobór parametrów staje się w
dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do
przypadkowych błędów w danych uczących, i tym samym zanika jego
zdolność generalizacji i możliwość zastosowania modelu do innych
podobnych danych, czyli główny cel modelowania.

More Related Content

Featured

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

Featured (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Machine learning w analizie fMRI

  • 1. MACHINE LEARNING W ANALIZIE DANYCH FMRI DR ILONA KOTLEWSKA-WAŚ KATEDRA KOGNITYWISTYKI UMK, 16-05-2019
  • 2. 2/22 TYPOWE KROKI W ANALIZIE DANYCH TYPU ML ▸ Data preprocessing (scaling) ▸ Data partitioning ▸ Feature selection/extraction ▸ Model fitting (on train-set) ▸ Model cross-validation (on test-set) ▸ Calculate model performance ▸ Statistical analyses of performance ▸ Optional: feature visualization
  • 3. 3/22 SCALING ▸ Standaryzacja lub normalizacja rozkładu pozwala na ujednolicenie rozkładu. ▸ Oznacza to, że wszystkie voxele w naszej analizie będą miały średnią = 0 i jednorodną wariancję. ▸ W celu znormalizowania naszych danych w pakiecie Scikit-learn korzystamy z klasy StandardScaler.
  • 4. DATA PARTITIONING: PODZIAŁ DANYCH NA CZĘŚĆ DO UCZENIA I DO TESTOWANIA Training & Testing set 4/22
  • 5. 5/22 FEATURE SELECTION / EXTRACTION ▸ Features = zmienne, których używamy jako predyktorów ▸ Mogą je stanowić różne dane, np. ▸ surowe dane fMRI w czasie i przestrzeni ▸ dane fMRI uśrednione w bloku eksperymentalnym (np. dla kategorii bodźca) ▸ wartości beta z analizy GLM (czyli wartości, które już mówią nam o istotnych statystycznie efektach) ▸ średnia z grupy voxeli w ROI (region of interest)
  • 6. 6/22 FEATURE SELECTION / EXTRACTION ▸ Zwykle w badaniach fMRI liczba naszych features jest dużo większa niż liczba obserwacji (np. mamy 30 osób w badaniu, ale każda z tych osób ma 280 000 voxeli w mózgu!) ▸ Dlatego warto zredukować trochę liczbę zmiennych poprzez wybór jakiegoś ograniczonego zbioru tych zmiennych. ▸ Np. użycie tylko konkretnych ROI lub zmniejszenie liczby wymiarów dzięki PCA.
  • 8. 8/22 DOPASOWANIE MODELU NA ZBIORZE TRENINGOWYM ▸ Model należy najpierw zbudować! ▸ Robi się to za pomocą dopasowania wybranego klasyfikatora (jeśli naszym celem jest analiza kategorii) ▸ lub dopasowanie współczynnika regresji (jeśli estymacji ma podlegać zmienna ciągła, np. wiek, ocena na skali itp). ▸ Categorical vs. continuous prediction
  • 10. 10/22 KLASYFIKATORY LINIOWE ▸ Regresja logistyczna (regresja liniowa, logistic regression - LR) ▸ Gaussian Naive Bayes (GNB) ▸ Fisher’s Linear Discriminant Analysis (LDA) ▸ Linear Support Vector Machines (SVM) ▸ Drzewa klasyfikacji (classification trees)
  • 11. 11/22 SVM ▸ Maksymalizuje margines wokół rozdzielającej płaszczyzny (jeśli płaszczyzna jest wielowymiarowa nazywamy ją hiperpłaszczyzną - hiperplane). ▸ Czyli staramy się, żeby nasza ulica była najszersza jak to tylko możliwe.
  • 12. All figures come from this course on Coursera! Check out this course!
  • 13. 13/22 SEPARABLE ▸ Jeśli nasze dane dają się podzielić za pomocą liniowego klasyfikatora, to mówimy, że są liniowo rozłączne (linearly separable)
  • 14. 14/22 NIEPODZIELNE LINIOWO ▸ Jeśli dane nie dają się podzielić liniowo - wprowadzamy dodatkowe wymiary.
  • 15. 15/22 NIEPODZIELNE LINIOWO ▸ Jeśli dane nie dają się podzielić liniowo - wprowadzamy dodatkowe wymiary.
  • 17. 17/22 WALIDACJA MODELU ▸ Żeby odpowiednio ocenić predykcję klasyfikatora konieczna jest aplikacja na nowych danych (takich, których klasyfikator jeszcze nigdy nie widział). ▸ Jednym z rozwiązań jest walidacja krzyżowa (cross-validation).
  • 18. 18/22 CROSS-VALIDATION 1. Podzielić zbiór danych na K podzbiorów. 2. Zostawić 1 podzbiór do późniejszego testowania. 3. Wytrenować klasyfikator na K-1 podzbiorów. 4. Dokonać predykcji na pozostawionym pojedynczym podzbiorze. 5. Powtórzyć procedurę dla każdego z podzbiorów. 6. Obliczyć poprawność wszystkich przeprowadzonych predykcji.
  • 19. 19/22 CROSS-VALIDATION ‣ Przy walidacji krzyżowej niezwykle ważne jest, żeby każdy podzbiór zawierał wszystkie typy (klasy) obserwacji - to znaczy wszystkie kategorie bodźców. ‣ Obecność klas w podzbiorach powinna być zbilansowana. ‣ Unikamy włączania skorelowanych obserwacji do jednego podzbioru.
  • 20. 20/22 CROSS-VALIDATION ‣ Np. jeśli 90% wszystkich obserwacji włożymy do klasy A, to klasyfikator wykaże 100% skuteczności w predykcji tej klasy. ‣ Niestety będzie miał 0% poprawności w predykcji klasy B…
  • 21. 21/22 OCENA JAKOŚCI WYNIKÓW ‣ Jednym z popularnych sposobów oceny poprawności modelu jest podzielenie liczby poprawnych predykcji przez liczbę wszystkich dokonanych predykcji (choć istnieje jeszcze wiele innych sposobów!)
  • 22. 22/22 OVERFITTING ▸ Jeśli model jest zbyt dobry (100% poprawności) prawdopodobnie zapomnieliśmy oddzielić testowego zestawu danych od całości, na której trenowaliśmy klasyfikator. ▸ Overfitting - nadmierne dopasowanie/przeuczenie - zachodzi, gdy model statystyczny ma zbyt dużo parametrów w stosunku do rozmiaru próby, na podstawie której był konstruowany. Kiedy liczba stopni swobody modelu przekracza zawartość informacyjną danych, dobór parametrów staje się w dużym stopniu kwestią przypadku. Model zaczyna dopasowywać się do przypadkowych błędów w danych uczących, i tym samym zanika jego zdolność generalizacji i możliwość zastosowania modelu do innych podobnych danych, czyli główny cel modelowania.