Finding Contradictions, Contrasts and 
Negations in Protein­Protein Interactions
in the Biomedical Literature
Using Text M...
Natural Language Processing
a.k.a Computational Linguistics




                    
Natural Language Processing




                   
Natural Language Processing




                   
Text

        Easily shared
    



        Primary information source
    



        Most up­to­date
    




       ...
Text Mining




                   IE
          IR            DM




                
Finding Contradictions, Contrasts and 
Negations in Protein­Protein 
Interactions
in the Biomedical Literature
Using Text ...
Text Mining in Biomedicine

        Biomedical Scientific Literature




        >17M articles from >5K journals 



   ...
Finding Contradictions, Contrasts and 
Negations in Protein­Protein 
Interactions
in the Biomedical Literature
Using Text ...
Protein­Protein Interactions




                     
Protein­Protein Interactions




                     
Finding Contradictions, Contrasts and 
Negations in Protein­Protein 
Interactions
in the Biomedical Literature
Using Text ...
Example

        quot;Our results indicate that gp120 from two 
    


        different strains of HIV binds to a larger...
Example

        gp120 synonyms
    


                                           −   gp41
        −   Transmembrane Glyc...
Example

        Binds is almost the same as
    


        −   Interacts with
        −   Frictionates
        −   Assoc...
Example

        CD4 can be expressed as
    




         CD4+ T     T4(CD)     CD4+ (T)       CD4(+) T cell
         CD...
Even after all this...

        The chimpanzee­based CD4(81­92) peptide, 
    


        however, which differs from the ...
Contradiction and Contrasts

        Author A reports p
    



        Author B reports ¬p
    




        We have p u...
Negations

        Linguistic
    


        −   quot;Protein A does not interact with protein B.quot;
        −   quot;W...
Finding Contradictions, Contrasts and 
Negations in Protein­Protein 
Interactions
in the Biomedical Literature
Using Text ...
Framework

        HIV­1 and Human Protein­Protein interactions
    


        −   Manually over 7 years
        −   >300...
Detecting Protein­Protein Interactions

        Recognize gene/protein names
    


        −   State of the art ~ 87%
  ...
Protein Name Identification

        1500 human proteins
    


        −   State of the art ~ 87%
        −   Available ...
Applications

        Contradictions and            Negations
                                 


        Contrast
     ...
Achieved so far & plan for future

        Reproduce the HIV­1 interactions database
    



        Designed an interact...
Evaluation

        Widely used evalutation measures
    


        −   Precision, Recall, F­Score
        −   Sensitivit...
Summary



Finding Contradictions, Contrasts and 
Negations in Protein­Protein 
Interactions
in the Biomedical Literature
...
Upcoming SlideShare
Loading in …5
×

Eoy

260 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
260
On SlideShare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Eoy

  1. 1. Finding Contradictions, Contrasts and  Negations in Protein­Protein Interactions in the Biomedical Literature Using Text Mining Farzaneh Sarafraz COMP7000 Presentation Text Mining Group Supervised by Dr. Goran Nenadić 28 November 2008    
  2. 2. Natural Language Processing a.k.a Computational Linguistics    
  3. 3. Natural Language Processing    
  4. 4. Natural Language Processing    
  5. 5. Text Easily shared  Primary information source  Most up­to­date  Unstructured  No explicit data     
  6. 6. Text Mining IE IR DM    
  7. 7. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  8. 8. Text Mining in Biomedicine Biomedical Scientific Literature  >17M articles from >5K journals   since 1950s adding 2000 every day Impossible for humans to manage  Specific (rather peculiar) language     
  9. 9. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  10. 10. Protein­Protein Interactions    
  11. 11. Protein­Protein Interactions    
  12. 12. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  13. 13. Example quot;Our results indicate that gp120 from two   different strains of HIV binds to a larger  region of the CD4 protein than previously  described.quot;    
  14. 14. Example gp120 synonyms  − gp41 − Transmembrane Glycoprotein − TM − Envelope Glycoprotein − ENV − Surface Glycoprotein − HIV­1 gp8 − SU − gp160 − Envelope Surface Glycoprotein gp160 Precursor    
  15. 15. Example Binds is almost the same as  − Interacts with − Frictionates − Associates with − Activates − Colocalizes with − Cleaves    
  16. 16. Example CD4 can be expressed as  CD4+ T T4(CD) CD4+ (T) CD4(+) T cell CD4­, T CD4 (T) CD4(T) CD4 T­cell T CD4 CD4(+)T CD(4+) T CD4(+) T­cell CD4(+) T CD4+­T CD4­ T CD4(+)T cell CD4 T CD4(+)­T CD4+ T cell CD4+­T­cell T4+ (CD) CD4+T CD4­, T cell CD4(+)­T­cell T4 (CD) T (CD4) CD4+ T­cell CD4 T cell    
  17. 17. Even after all this... The chimpanzee­based CD4(81­92) peptide,   however, which differs from the human peptide  by a single amino acid substitution (E for G) at  position 87, was considerably less potent than  the human CD4(81­92)­based peptide congener  to inhibit HIV­1­induced cell­cell fusion.    
  18. 18. Contradiction and Contrasts Author A reports p  Author B reports ¬p  We have p under conditions q  But we have ¬p under conditions q'     
  19. 19. Negations Linguistic  − quot;Protein A does not interact with protein B.quot; − quot;We lack evidence that A interacts with B.quot; Biological  − quot;Protein A inhibits protein B.quot; − dephosphorylates / depolymerizes − downregulates (vs. upregulates)     − etc.
  20. 20. Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    
  21. 21. Framework HIV­1 and Human Protein­Protein interactions  − Manually over 7 years − >3000 journal papers − >5000 tuples − Gold standard Other negative reports  − Journal of Negative Results in BioMedicine Other gold standards     
  22. 22. Detecting Protein­Protein Interactions Recognize gene/protein names  − State of the art ~ 87% Identify gene/protein names  Detect the interaction and its qualities  − 70 quot;differentquot; interactions in reference DB    
  23. 23. Protein Name Identification 1500 human proteins  − State of the art ~ 87% − Available tools ~ 15% − Our method ~ 35% 20 HIV proteins  − No available tool − Our method ~ 95%    
  24. 24. Applications Contradictions and  Negations   Contrast Other diseases New HIV­1 literature      
  25. 25. Achieved so far & plan for future Reproduce the HIV­1 interactions database  Designed an interaction ontology  Identify patterns of negation, contradiction,   contrast Use the above data to increase the annotation   accuracy    
  26. 26. Evaluation Widely used evalutation measures  − Precision, Recall, F­Score − Sensitivity and Specificity Benchmarks and datasets used in challenges  Manually annotated gold standards     
  27. 27. Summary Finding Contradictions, Contrasts and  Negations in Protein­Protein  Interactions in the Biomedical Literature Using Text Mining    

×