Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Eoy

386 views

Published on

  • Be the first to comment

  • Be the first to like this

Eoy

  1. 1. Finding Contradictions, Contrasts and  Negations in Protein­Protein Interactions in the Biomedical Literature Using Text Mining Farzaneh Sarafraz COMP7000 Presentation Text Mining Group Supervised by Dr. Goran Nenadić 28 November 2008    
  2. 2. Natural Language Processing a.k.a Computational Linguistics    
  3. 3. Natural Language Processing    
  4. 4. Natural Language Processing    
  5. 5. Text Easily shared  Primary information source  Most up­to­date  Unstructured  No explicit data     
  6. 6. Text Mining IE IR DM    
  7. 7. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  8. 8. Text Mining in Biomedicine Biomedical Scientific Literature  >17M articles from >5K journals   since 1950s adding 2000 every day Impossible for humans to manage  Specific (rather peculiar) language     
  9. 9. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  10. 10. Protein­Protein Interactions    
  11. 11. Protein­Protein Interactions    
  12. 12. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  13. 13. Example quot;Our results indicate that gp120 from two   different strains of HIV binds to a larger  region of the CD4 protein than previously  described.quot;    
  14. 14. Example gp120 synonyms  − gp41 − Transmembrane Glycoprotein − TM − Envelope Glycoprotein − ENV − Surface Glycoprotein − HIV­1 gp8 − SU − gp160 − Envelope Surface Glycoprotein gp160 Precursor    
  15. 15. Example Binds is almost the same as  − Interacts with − Frictionates − Associates with − Activates − Colocalizes with − Cleaves    
  16. 16. Example CD4 can be expressed as  CD4+ T T4(CD) CD4+ (T) CD4(+) T cell CD4­, T CD4 (T) CD4(T) CD4 T­cell T CD4 CD4(+)T CD(4+) T CD4(+) T­cell CD4(+) T CD4+­T CD4­ T CD4(+)T cell CD4 T CD4(+)­T CD4+ T cell CD4+­T­cell T4+ (CD) CD4+T CD4­, T cell CD4(+)­T­cell T4 (CD) T (CD4) CD4+ T­cell CD4 T cell    
  17. 17. Even after all this... The chimpanzee­based CD4(81­92) peptide,   however, which differs from the human peptide  by a single amino acid substitution (E for G) at  position 87, was considerably less potent than  the human CD4(81­92)­based peptide congener  to inhibit HIV­1­induced cell­cell fusion.    
  18. 18. Contradiction and Contrasts Author A reports p  Author B reports ¬p  We have p under conditions q  But we have ¬p under conditions q'     
  19. 19. Negations Linguistic  − quot;Protein A does not interact with protein B.quot; − quot;We lack evidence that A interacts with B.quot; Biological  − quot;Protein A inhibits protein B.quot; − dephosphorylates / depolymerizes − downregulates (vs. upregulates)     − etc.
  20. 20. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  21. 21. Framework HIV­1 and Human Protein­Protein interactions  − Manually over 7 years − >3000 journal papers − >5000 tuples − Gold standard Other negative reports  − Journal of Negative Results in BioMedicine Other gold standards     
  22. 22. Detecting Protein­Protein Interactions Recognize gene/protein names  − State of the art ~ 87% Identify gene/protein names  Detect the interaction and its qualities  − 70 quot;differentquot; interactions in reference DB    
  23. 23. Protein Name Identification 1500 human proteins  − State of the art ~ 87% − Available tools ~ 15% − Our method ~ 35% 20 HIV proteins  − No available tool − Our method ~ 95%    
  24. 24. Applications Contradictions and  Negations   Contrast Other diseases New HIV­1 literature      
  25. 25. Achieved so far & plan for future Reproduce the HIV­1 interactions database  Designed an interaction ontology  Identify patterns of negation, contradiction,   contrast Use the above data to increase the annotation   accuracy    
  26. 26. Evaluation Widely used evalutation measures  − Precision, Recall, F­Score − Sensitivity and Specificity Benchmarks and datasets used in challenges  Manually annotated gold standards     
  27. 27. Summary Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    

×