Your SlideShare is downloading. ×
  • Like
Kolokwium habilitacyjne
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply
Published

 

Published in Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
576
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
6
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n

Transcript

  • 1. Przewidywania funkcji biomolekułdr Dariusz Plewczyński ICM UW 1
  • 2. A A Fig F External Int External environment RNA In environment RNA modification Pr RNA modification Ribosome P assembly Terminal organelle (A) RNA decay Metabolism Ribosome assembly Terminal organelle decay assembly (A Metabolism tRNA Protein assembly mo aminoacylation translocation Protein m RNA processing tRNA Protein translocation Host as aminoacylation processing interaction Host a RNA processing Protein (bluCzym jest bioinformatyka? processing interaction Host epithelium M. (b Transcription Host epithelium M like Transcription Transcriptional Macromolecular Translation regulation complexation co li DNA Protein Translation Transcriptional Macromolecular modification supercoiling ch c regulation complexation Protein DNA Protein Protein folding gre supercoiling activation modification cBioinformatyka jest młodą DNA Protein Protein (B)g repair DNA activation folding damage mo DNA (Bdziedziną badawczą, która repair DNA Protein Metabolites are damage decay m RNA cyc Protein Metabolites aprzez zebranie i analizę decay Protein (da Chromosome RNA DNA cu c condensation Protein (dmasowych danych the Replication Chromosome DNA initiation condensation DNA ce c replicationdoświadczalnych stanowi FtsZ varth Replication polymerization DNA initiation du c replication Cytokinesis Chromosomenaturalne zaplecze segregation FtsZ ce v polymerization ph d Cytokinesisteoretyczne i metodologiczne Chromosome proc segregation (bla pNauk o życiu. sub B Update time & p ea cell variables (b wit Chromosome Condensation (3) s RNA DNA Fin B Update time & Segregation (7) e Transcript cell variables sio Damage (0) w graZapewnia ona funkcjonalną Chromosome Repair (18) Condensation (3) RNA DNA DNA RNA F Supercoiling (5) Segregation (7) s Damage (0) (10) Replicationcharakteryzację białek, Transcript Polypeptide g Repair (18) initiation (1) Replication DNA RNA Transcriptional reg. (5)metabolitów, cząsteczek Protein mon. Supercoiling (5) Transcription (8) Polypeptide Complex Replication (10) Processing (6) RN ProteinRNA/DNA i innych typów Replication initiation (1) RNA Modification (14) mo Protein mon. pol RNA Transcriptional reg. (5) Aminoacylation (25)biomolekuł występujących w Transcription (8) No: Decay (2) repeat Ribosome Send cell Complex Processing (6) Translation (103) int R Protein Initialize variables Cell Yes: RNAkomórkach organizmów FtsZ ring Modification (14) Processing I (2) divided? terminate mom RNA pol Aminoacylation (9) Translocation (25) No: pr Metaboliteżywych. Metabolic rxn Processing II (2) Decay (2) repeat Ribosome Send cell Folding (6) grin Initialize variables Translation (103) Yes: Cell Protein Metabolite Modification (3) Processing I (2) an FtsZ ring divided? terminate m Complexation (0) et Geometry Translocation (9) p Ribosome assembly (6) Metabolite Metabolic rxn Processing II (2) an Term. org. assembly (8) g Host Folding (6) (0) Activation inv Protein Other Metabolite Modification (3) Decay (9) a tio Other Mass Complexation (0) FtsZ polymerization (1) e tha Geometry Ribosome assembly (6) Karr, Covert et al. Cell 150, 389-401 (2012) Stimulus Metabolism (140) Term. org. assembly (8) Cytokinesis (1) nea Host Time Activation (0) Host interaction (16) 2 in tha Decay (9) t ind ther CellMass variables Cell process submodels
  • 3. • Celem bioinformatyki jest zatem dostarczenie języka badawczego do zrozumienia biologii • analiza informacji o bio-molekułach, z których zbudowany jest cały żywy organizm. Knownproteinsequences 16,393,342( 16( 90" Structures)in)PDB) 84,508" 80" 14( 70" 12( 60"Millions 10( 50" Thousands) 8( 40" 6( 30" 4( 20" 2( 10" 0( 0" 2003( 2004( 2005( 2006( 2007( 2008( 2009( 2010( 2011( 2012( 1990" 1992" 1994" 1996" 1998" 2000" 2002" 2004" 2006" 2008" 2010" 2012" 3
  • 4. • Potrzeba dalszego rozwoju i opracowywania nowych metod przewidywania funkcji białek• Modelowanie i analiza wybranych układów o istotnym znaczeniu w chemii, biologii i medycynie.• Poruszane zagadnienia interdyscyplinarne: – bioinformatyka, – chemoinformatyka, projektowanie leków, – wirtualne przesiewanie, – sekwencja i struktura białek, – modyfikacje po-translacyjne (fosforylacja,...), – eksploracja i analiza masowych danych, – uczenie maszynowe, analiza skupień, meta-uczenie, uczenie konsensusowe, – wizualizacja danych. 4
  • 5. Motywacjabadawcza 5
  • 6. Współczesna biologia molekularna zapewniaduże ilości danych doświadczalnych pochodzącychm.in. z badań wielko-skalowych:projekt genomu ludzkiego (ang. Human GenomeProject);sekwencjonowanie następnej generacji;genomika strukturalna (ang. structural genomics);doświadczenia mikromacierzowe, spektroskopia Novel SGNH hydrolases in Leptospiramasowa;wirtualne przesiewanie. E. UT RIB D IST OT ON .D CE IEN Figure 1. For figure legend, see page 2. SC classification of proteins SCOP16 currently defines six different glycine (block II) and asparagine (block III) residues (e.g., S47, BIO families in SGNH hydrolase superfamily: (i) esterase that hydrolyses G71, N104, D192, H195 in pdb|1bwp10). In contrast to canonical ester bonds in lipid cover of the plant tubers (associated with a α/β hydrolases (e.g., common lipases), members of SGNH super- scrab disease),17 (ii) haemagglutinin esterase responsible for binding family do not have “nucleophile elbow” (motif GXSXG). Invariant ES and lysing membrane receptors,18 (iii) acetylhydrolase regulating serine (block I) serves as the nucleophile and a proton donor to the platelet-activating factors through hydrolysis of phospholipids (signal oxyanion hole, histidine (block V) acts as a base to make serine more ND termination),19 (iv) rhamnogalacturonan acetylesterase critical for nucleophilic by deprotonating its hydroxyl group, while aspartic acid degradation of polysaccharides,11 (v) thioesterase I, TAP20 with liso- (block V) promotes formation of HisH+. Less conserved residues LA phospholipase activity and (vi) a putative lipase alr1529. (e.g., absent in pdb|1u8u20) in blocks II (Gly) and III (Asn) serve SGNH hydrolases have flavodoxin-like fold structure that is char- as two additional proton donors to the oxyanion hole. During the 08 acterized by the presence of a central five-stranded parallel β-sheet general catalytic mechanism, a non-covalent Michaelis complex with (with β2β1β3β4β5 strand order) flanked by α-helices on both sides. substrate is formed, while serine hydroxyl group attacks the substrate 20 The active site is situated at the bottom of open cleft that is easily carbonyl groups. This is followed by formation of acyl-enzyme accessible to large substrates. This site is relatively flexible and suscep- intermediate and hydrophilic attack of positioned water molecule © tible to conformational changes, thus exhibiting highly versatile on ester carbonyl group resulting in restoration of free enzyme. In functional roles such as protease, thioesterase, acetylhydrolase and order to support substrate binding, the cleft is also equipped with acetylesterase. Conserved residues from characteristic four sequence positively charged residues (e.g., R141 in pdb|1bwp) to interact with motifs (blocks I, II, III, V; numbering nomenclature follows ref. the substrate carboxylate groups. 21) are critical for the formation of the active site and catalysis in As shown in Figure 1, the catalytic triad (S77, D328, H333 in SGHN hydrolase superfamily. Specifically, the active site is defined gi|116332481) is fully conserved in DUF1574 proteins. Additionally, by the catalytic triad: serine (block I, motif GXS), aspartic acid and the predicted secondary structure pattern is consistent with that of 6 histidine (block V, motif DXXH), which are usually supported by SGNH hydrolase fold core (βαβαβαβαβα). Less conserved proton www.landesbioscience.com Cell Cycle 2
  • 7. Masowe dane doświadczalne są niezwyklekosztowne i trudne w dalszej interpretacji.bardzo wysoki poziom błędów;szum informacyjny;nieliniowe zależności w danych i cechach;niepewność co do właściwej charakteryzacjibiomolekuł.Metody informatyczne, takie jak uczeniemaszynowe, zapewniają naturalny język opisutak zebranych danych, dodatkowo umożliwiającwspomaganie tworzenia hipotez badawczychprzez zespoły badawcze. 7
  • 8. Metodologia badawcza INPUT: objects & features Representations annotations generation Similarity Text External External External Structure PCA/ICA Properties Mining Tools Annotations Databases … SQL Training Database feature decomposition Scores, Structural Features Thresholds Similarity Similarity OUTPUT: Support Model Vector Neural Random Decision Networks Forest Trees Features Machine Decision Reliability Score machine learning MLcons consensus 8
  • 9. Publikacje habilitacyjne skupiają się na zastosowaniach metod uczenia maszynowego, metod fizyko-chemicznych, oraz metod hybrydowych do analizy danych biologicznych. Typowym przykładem współpracy między metodami informatycznymi, narzędziami fizyko- chemicznymi, oraz wiedzą biologiczną jest zagadnienie przewidywania funkcji białka na postawie jego sekwencji aminokwasowej. 1 RPDFCLEPPY 1011 TGPCKARIIR 2021 YFYNAKAGLC 3031 QTFVYGGCRA 40 FUNCTION41 KRNNFKSAED 5051 CMRTCGGA 58 9
  • 10. Zastosowanie metod komputerowych do analizydanych pochodzących ze złożonych systemówbiologicznych wymaga:• zebrania danych treningowych;• wyróżnieniu lokalnych cech fizyko-chemicznych;• oceny jakości modeli;• stworzenia meta-modelu;• przeprowadzenie pełnej charakteryzacji układu biologicznego.Training data Model 10
  • 11. Zastosowanie metod komputerowych do analizydanych pochodzących ze złożonych systemówbiologicznych wymaga:• zebrania danych treningowych;• wyróżnieniu lokalnych cech fizyko-chemicznych;• oceny jakości modeli;• stworzenia meta-modelu;• przeprowadzenie pełnej charakteryzacji układu biologicznego.Training data Discovery Model Process Existing Knowledge 10
  • 12. Sposób budowy meta-modeli (meta-serwisów, meta-narzędzi) ich zastosowaniew bioinformatyce.Proces tworzenia meta-narzędzi może byćwielo-skalowy:mikroskala;mezoskala;makroskala. 11
  • 13. Wyniki badań 12
  • 14. Teoria meta-uczenia w granicynieskończonego zespołu statystycznego zespół oddziałujących algorytmówindywidualnych (automaty komórkowe); różnice między algorytmami, danymi,cechami; różnorodność zarówno metodologicznajak i reprezentacyjna [DMP1] “Landau Theory of Meta-Learning” D. Plewczynski in Springer Lecture Notes in Computer Science (LNCS) P. Bouvry et al. (Eds.): SIIS 2011, LNCS 7053, pp. 13 142--153. Springer, Heidelberg (2011);
  • 15. metoda fuzji (ang. data fusion).Dane wielko-skalowe pochodzące z wieluheterogenicznych źródeł;przedstawienie przepływu informacji między bazami;ocena jakości tak zgromadzonej informacji [DMP3] “Protein-protein interaction and pathway databases, a graphical review” T. Klingström and D. Plewczynski. Briefings in Bioinformatics Epub Sep 17(2010); 14
  • 16. Wirtualne przesiewanie: brak wiedzy o strukturze trójwymiarowej celu terapeutycznego.[DMP4] “Performance of machine learning methods for ligand-based virtualscreening” by D. Plewczynski, S. Spieser and U. Koch. Combinatorial Chemistry &High Throughput Screening CCHTS 12(4): 358-68 (2009);[DMP5] “Assessing Different Classification Methods for Virtual Screening” by D. 15Plewczynski, S. Spieser, U. Koch. J. Chem. Inf. Model. 46(3), p.1098-106 (2006);
  • 17. Wirtualne przesiewanie: znana strukturatrójwymiarowa białka -> metody fizykochemiczne,budowa meta-serwera [DMP6] “VoteDock: consensus docking method for prediction of protein-ligand interactions” D. Plewczynski, M. Łaźniewski, M. von Grotthuss, L. Rychlewski and K. 16 Ginalski. Journal Computational Chemistry (2010);
  • 18. Zbiór 1300 par białko-ligand z bazy PDBbind wersja 2007 (znanaprawdziwa struktura kompleksu jak i jego siła wiązania).Meta-narzędzie poprawnie przewiduje konformację trójwymiarową aż 20%więcej kompleksów niż pojedyncze metody, oraz 10% więcej niżnajlepszy z rozważanych siedmiu programów fizyko-chemicznych. [DMP6] “VoteDock: consensus docking method for prediction of protein-ligand interactions” D. Plewczynski, M. Łaźniewski, M. von Grotthuss, L. Rychlewski and K. 17 Ginalski. Journal Computational Chemistry (2010);
  • 19. Poprawa wartości odchylenia o około 0.5Å między przewidzianą aprawdziwą strukturą.Poprawa współczynnika korelacji Perason’a między przewidzianą arzeczywistą siłą wiązania do wartości 0.5 przy użyciu metod regresjiliniowej bazującej na wynikach dokowania poszczególnych programów. [DMP6] “VoteDock: consensus docking method for prediction of protein-ligand interactions” D. Plewczynski, M. Łaźniewski, M. von Grotthuss, L. Rychlewski and K. 18 Ginalski. Journal Computational Chemistry (2010);
  • 20. Poprawa wartości odchylenia o około 0.5Å między przewidzianą aprawdziwą strukturą.Poprawa współczynnika korelacji Perason’a między przewidzianą arzeczywistą siłą wiązania do wartości 0.5 przy użyciu metod regresjiliniowej bazującej na wynikach dokowania poszczególnych programów. [DMP6] “VoteDock: consensus docking method for prediction of protein-ligand interactions” D. Plewczynski, M. Łaźniewski, M. von Grotthuss, L. Rychlewski and K. 18 Ginalski. Journal Computational Chemistry (2010);
  • 21. Poprawa wartości odchylenia o około 0.5Å między przewidzianą aprawdziwą strukturą.Poprawa współczynnika korelacji Perason’a między przewidzianą arzeczywistą siłą wiązania do wartości 0.5 przy użyciu metod regresjiliniowej bazującej na wynikach dokowania poszczególnych programów. [DMP6] “VoteDock: consensus docking method for prediction of protein-ligand interactions” D. Plewczynski, M. Łaźniewski, M. von Grotthuss, L. Rychlewski and K. 18 Ginalski. Journal Computational Chemistry (2010);
  • 22. Poprawa wartości odchylenia o około 0.5Å między przewidzianą aprawdziwą strukturą.Poprawa współczynnika korelacji Perason’a między przewidzianą arzeczywistą siłą wiązania do wartości 0.5 przy użyciu metod regresjiliniowej bazującej na wynikach dokowania poszczególnych programów. [DMP6] “VoteDock: consensus docking method for prediction of protein-ligand interactions” D. Plewczynski, M. Łaźniewski, M. von Grotthuss, L. Rychlewski and K. 18 Ginalski. Journal Computational Chemistry (2010);
  • 23. Poprawa wartości odchylenia o około 0.5Å między przewidzianą aprawdziwą strukturą.Poprawa współczynnika korelacji Perason’a między przewidzianą arzeczywistą siłą wiązania do wartości 0.5 przy użyciu metod regresjiliniowej bazującej na wynikach dokowania poszczególnych programów. [DMP6] “VoteDock: consensus docking method for prediction of protein-ligand interactions” D. Plewczynski, M. Łaźniewski, M. von Grotthuss, L. Rychlewski and K. 18 Ginalski. Journal Computational Chemistry (2010);
  • 24. Dalszy rozwój metody: zintegrowanie obu klasmetod obliczeniowych w celu poprawy ichszybkości i dokładności, oraz określenie jak takpowstałe hybrydowe meta-narzędzie komputerowebędzie się sprawdzało w wielko-skalowychprojektach farmaceutycznych.Metoda lasówlosowych (RF)połączona zmetodądokowania dla 5celówbiałkowychumożliwiaznalezienie 60%aktywnychinhibitorówdokując tylko10% związków zcałej kolekcjileków (MDDR). [DMP7] “Virtual High-Throughput Screening using combined Random Forest and Flexible Docking” by D. Plewczynski, L. Rychlewski, Marcin von Grotthuss, and 19 Krzysztof Ginalski. Combinatorial Chemistry & High Throughput Screening, CCHTS
  • 25. Brainstorming: poprawa wyników przez jednoczesne zastosowanie wielu metod uczenia maszynowego.meta-metodapolepsza wynikiklasyfikacji o ok. 10%w porównaniu dometod pojedynczych. [DMP8] “Brainstorming: weighted voting prediction of inhibitors for protein targets” D. Plewczynski. Journal of Molecular Modelling Epub, Sep 21(2010); 20
  • 26. Modyfikacje post-translacyjne białek: lokalna analiza sekwencji istruktury białek w celu określenia ich funkcji biologicznej.Wystarczy wybrać liniowe i lokalne otoczenie modyfikowanegoaminokwasu, oraz ustalić naturalną reprezentację (zestaw cech) dlatakiego krótkiego fragmentu sekwencji.bardzo szybkie i skuteczne przeszukiwanie całych proteomów w celuautomatycznej identyfikacji modyfikacji w nowych białkach. [DMP10] “AMS 3.0: prediction of post-translational modifications” S. Basu and D. Plewczynski. BMC Bioinformatics (2010), Apr 28, 11:210; [DMP11] “AutoMotif Server: prediction of single residue post-translational 21 modifications in proteins” by D. Plewczynski, A. Tkacz, L. Wyrwicz and L. Rychlewski.
  • 27. Analiza celów terapeutycznychod przewidywania biologicznej aktywności małych cząsteczekchemicznych (tj. metabolitów, czy inhibitorów) do funkcji większychbiomolekuł (białka).metoda wyboru białek związanych z procesami chorobowymi.pojęcie podobieństwa sekwencyjnego.podobieństwo strukturalne w celu określenia ich numeruenzymatycznego. Obie metody, t strukturalna wz ale też są od s białka o podob aminokwasowy globalną strukt metody struktu ok. dwa razy w homologicznyc poziomie osza statystycznego [DMP9] “Meta-basic estimates the size of druggable human genome” by D. Plewczynski and L. Rychlewski. Journal of Molecular Modelling 15, 695-699 (2009); 22
  • 28. Algorytm łączący lokalny opis sekwencyjny z charakteryzacją strukturalną łańcucha białkowego. Przewidywanie lokalnej konformacji trójwymiarowej białka wykorzystując tylko informację o jego sekwencji aminokwasowej. Mimo, iż lokalna struktura łańcucha białkowego jest przewidziana wyłącznie na podstawie sekwencji, to jednak użycie jednoczesne obu tych informacji znacząco poprawia jakość dopasowania między białkami[DMP12] “SEA and FRAGlib – an Integrated Web Service for Improving the AlignmentQuality based on Segments Comparison” by D. Plewczynski, L. Rychlewski, L. 23Jaroszewski, Y. Ye, A. Godzik. BMC Bioinformatics 5(1):98 (2004);
  • 29. Podsumowanie & podziekowania 24 29
  • 30. Na przedstawioną rozprawę habilitacyjną składa się cykl 12publikacji, które zostały opublikowane w latach 2004-2011.Prace te dotyczą zastosowania metod komputerowych,uczenia maszynowego i analizy danych w bioinformatyce, wszczególności modelowaniu i analizie biomolekuł.Cel: wspomaganie badań biologicznych, chemicznychoraz medycznych.Główną wynikiem badawczym jest pokazanie, że wprzypadku wielu zastosowań meta-algorytmów uzyskiwanajest znacząca poprawa wyników w porównaniu dopojedynczych metod (nawet do 10% lepszej jakościprzewidywania na bioinformatycznych zbiorach testowych).Zauważalna poprawa procesu klasyfikacji danych wielko-skalowych dzięki równoczesnemu użyciu heterogenicznychmetod (zarówno fizyko-chemicznych jak i uczeniamaszynowego). 25
  • 31. Dziękuję za uwagę! CuraGen Corporation Science, 2003 26
  • 32. Ocena ROC graphs 4 3 Tom Fawcett ROC graphs 13 klasyfikatorów True class 1.0 Algorithm 2 Efficient method for generating ROC points p D Inputs: L, the set of test examples; f (i), the probabilistic classifier’s estimate n that example i is positive; P and N , the number of positive and negative B True Positive rate examples. 0.8 Outputs: R, a list of ROC points increasing by fp rate. Require: P > 0 and N > 0 C Y True False A 1: Lsorted ← L sorted decreasing by f scores 0.6 Positives Positives 2: F P ← T P ← 0 3: R ← Hypothesized 4: fprev ← −∞ 5: i ← 1 0.4 class 6: while i ≤ |Lsorted | do 7: if f (i) = fprev then False True 8: push F P , TP onto R P E N Negatives 9: N fprev ← f (i)0.2 Negatives 10: end if 11: if Lsorted [i] is a positive example then 12: T P ← T P +0 1 13: else /* i is a negative example */ 14: FP ← FP + 1 0 0.2 0.4 0.6 0.8 1.0 Column totals: P N 15: end if False Positive rate 16: i←i+1 Figure 2. A basic ROC graph showing five discrete classifiers. 17: end while FP TP 18: push F P , T P onto R /* This is (1,1) */ fp rate = N tp rate = P 19: end N P The false positive rate (also called false alarm rate) of the classi- TP TP fier is: at The new algorithm is shown in algorithm 2. T P and F P both every start precision = T P +F P recall = P zero. For each positive instance we increment T P and for negative instance we increment F P . We maintain a stack R of ROC points, pushing a new point onto R after each instanceclassified negatives incorrectly is processed. accuracy = T P +T N F-measure = 2 fp rate ≈ The final output is the stack R, which will contain points on the ROC P +N 1/precision+1/recall total negatives curve. Let n be the number of points in the test set. This algorithm requiresFigure 1. Confusion matrix and common performance metrics calculated from it Additional termsfollowed by an O(n) scanROCthe list, resulting in an O(n log n) sort associated with down curves are: O(n log n) total complexity. sensitivity = recall 4.1. Equally scored instancesconstructed representing the dispositions of the set of instances. This True negativesmatrix forms the basis for many common metrics. specificity = Statements 7–10 need some explanation. These are necessary in order False positives + True negatives to correctly handle sequences of equally scored instances. Consider the Figure 1 shows a confusion matrix and equations of several common T. Fawcett (2004) ROC curve shown in figure 6. Assume − fp rate = 1 we have a test set in whichmetrics that can be calculated from it. The numbers along the major there is a sequence of instances, four negatives and six positives, alldiagonal represent the correct decisions made, and the numbers off positive predictive value line 1precision 2 does not impose 27 scored equally by f . The sort in = of algorithm
  • 33. Ensembles Statistical Computational H H h2 h1 h1 f f h2 h4 h3 h3 Representational H h1 f h2 h3 Comparing Supervised Classification Learning Algorithms 1917 Figure 1: A taxonomy of statistical questions in machine learning. The boxed 1914 node (Question 8) is the subject of this article. Thomas G. Dietterich ples) are drawn independently from a fixed probability distribution defined by the particular application problem. Question 1: Suppose we are given a large sample of data and a classifier C. The classifier C may have been constructed using part of the data, but there are enough data remaining for a separate test set. Hence, we can measure the accuracy of C on the test set and construct a binomial confidence interval (Snedecor & Cochran, 1989; Efron & Tibshirani, 1993; Kohavi, 1995). Note that in Question 1, the classifier could have been produced by any method (e.g., interviewing an expert); it need not have been produced by a learning algorithm. Question 2: Given a small data set, S, suppose we apply learning algo- rithm A to S to construct classifier CA . How accurately will CA classify new examples? Because we have no separate test set, there is no direct way to answer this question. A frequently applied strategy is to convert this ques- tion into Question 6: Can we predict the accuracy of algorithm A when it is trained on randomly selected data sets of (approximately) the same size asT. Dietterich (1998, 2000) Figure 5: Probability of type I error for each statistical test. The four adjacent S? If so, then we can predict the accuracy of CA , which was obtained from bars for each test represent the probability of type I error for ✏ = 0.10, 0.20, 0.30, and 0.40. Error bars show 95% confidence intervals for these probabilities.on S. training The horizontal dotted line shows the target probability of 0.05. 28 Figure 7: Type I error rates for four statistical tests. The three bars within each Question 3: Given two classifiers CA and CB and enough data for a sep- bars test correspond to the EXP6, letter recognition, and Pima data sets. Error
  • 34. Testing on multiple ˇ D EM S AR 1999 2000 2001 2002 2003 Total number of papers 54 152 80 87 118 datasets Relevant papers for our study 19 45 25 31 54 Sampling method [%] cross validation, leave-one-out 22 49 44 42 56 random resampling 11 29 44 32 54 separate subset 5 11 0 13 9 Score function [%] classification accuracy 74 67 84 84 70 classification accuracy - exclusively 68 60 80 58 67 recall, precision. . . 21 18 16 25 19 S TATISTICAL C OMPARISONS OF C LASSIFIERS OVER M ULTIPLE DATA S ETS ROC, AUC 0 4 4 13 9 deviations, confidence intervals 32 42 48 42 19 Overall comparison of classifiers [%] 53 44 44 26 45 averages over the data sets 0 4 6 0 10 C4.5 C4.5+m difference rank t-test to compare two algorithms 16 11 4 6 7 adult (sample) 0.763 0.768 +0.005 3.5 pairwise t-test one vs. others 5 11 16 3 7 breast cancer 0.599 0.591 −0.008 7 pairwise t-test each vs. each 16 13 4 6 4 breast cancer wisconsin 0.954 0.971 +0.017 9 counts of wins/ties/losses 5 4 0 6 9 cmc 0.628 0.661 +0.033 12 counts of significant wins/ties/losses 16 4 8 16 6 ionosphere 0.882 0.888 +0.006 5 iris 0.936 0.931 −0.005 3.5 liver disorders 0.661 0.668 +0.007 6 lung cancer 0.583 0.583 0.000 1.5Table 1: An overview of the papers accepted to International Conference on Machine Learning lymphography 0.775 0.838 +0.063 14 in years 1999—2003. The reported percentages (the third line and below) apply to the mushroom 1.000 1.000 0.000 1.5 number of papers relevant for our study. primary tumor 0.940 0.962 +0.022 11 rheum 0.619 0.666 +0.047 13 voting 0.972 0.981 +0.009 8are compared, one method (a new method or the base method) is compared to the others, or all wine 0.957 0.978 +0.021 10methods are compared to each other. Despite the repetitive warnings against multiple hypothesestesting, the Bonferroni correction is used only in a few ICML papers annually. A common of AUC for C4.5 with m = 0 and C4.5 with m tuned for the optimal AUC. The Table 2: Comparison non- columns on the right-hand illustrate the computation and would normally not be publishedparametric approach is to count the number of times an algorithm performs better, worse or equally J. Demsar (2006) in an actual paper.to the others; counting is sometimes pairwise, resulting in a matrix of wins/ties/losses count, and thealternative is to count the number of data sets on which the algorithm outperformed all the others. 29Some authors prefer to count only the differences that were statistically significant; for verifying