Your SlideShare is downloading. ×
0
Multi­way Relation Classification:
Application to Protein­Protein Interactions


 Barbara Rosario
 Marti A. Hearst
 2005
F...
HIV­1 Human Protein Interactions 
Database
        Pair of Proteins
    



        Interaction type(s) between them
    ...
Data

        2224 records (now 5134)
    



        65 interaction types (now 68)
    



        809 proteins (now 14...
Goal

        For every “triple”
    



            PP
        −

            A (Article with unique pmid)
        −

  ...
NER

        LocusLink
    



        “Conservative” approach
    



        No co­reference analysis
    



       ...
Method – assuming one interaction

    For a subset of all the PPs (45%)




        Get all full text articles
    −

  ...
Training Data Construction

        “papers”
    



            0.5 sentence per triple (max 79)
        −

            ...
Interaction Types




                     
Task

        Given a PPA triple
    



        Extract sentences that have PP
    



        Predict for the entire P...
Models

        Generative
    



            Dynamic Graphical Model
        −

            Simple Naïve Bayes Classifi...
Dynamic Graphical Model

        Based on previous work
    



        Roles: PROTEIN, NULL
    



        Features: w...
DM – Assumptions 

        There is an interaction
    



        Single interaction per sentence
    



        As ma...
Evaluation

        Document­level
    



            (Not all the sentences describe an interaction)
        −

       ...
Mj

        for each triple
    



            for each sentence of the triple
        −

                 find the inte...
Cf

        get all conditional probabilities (do not assign 
    


        per sentence)
        for each triple
    
...
Results




           
Comparison

        Trigger word
    



            70 triggers for 10 interactions
        −

            Co­occurrence...
Comparison
    




            Key(B): trigger word (backoff)
        −

            Base: the most frequent interaction...
Sentence­Level Experiments

        Manual annotation of 2114 sentences
    



        68.3% disagreed with HIV database...
Sentence­Level Evaluation




                   
Thank you.




              
Upcoming SlideShare
Loading in...5
×

Rosario Hearst

307

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
307
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Rosario Hearst"

  1. 1. Multi­way Relation Classification: Application to Protein­Protein Interactions Barbara Rosario Marti A. Hearst 2005 Farzaneh Sarafraz 30 April 2009    
  2. 2. HIV­1 Human Protein Interactions  Database Pair of Proteins  Interaction type(s) between them  PubMed ID  (etc.)     
  3. 3. Data 2224 records (now 5134)  65 interaction types (now 68)  809 proteins (now 1434 + 9 and 2295 pairs)  984 articles (now 3099)  Average 1.9 interactions per PP (max = 23)  Average 5.9 interactions per article (max = 90)     
  4. 4. Goal For every “triple”  PP − A (Article with unique pmid) − Find the interaction type  (ignore 7.7% of the triples with > 1 interaction) −    
  5. 5. NER LocusLink  “Conservative” approach  No co­reference analysis  Not good recall  High precision     
  6. 6. Method – assuming one interaction For a subset of all the PPs (45%)  Get all full text articles − Get the sentences that have both PP − Group as “papers” − Also for a tripe PPA  Get the papers that cite A − Get the sentences that have PP and mention A − Group as “citances” −    
  7. 7. Training Data Construction “papers”  0.5 sentence per triple (max 79) − 50.6 sentences per interaction type (max 119) − “citances”  0.4 sentence per triple (max 105) − 49.2 sentences per interaction type (max 162) − Include an interaction type if >40 in both     
  8. 8. Interaction Types    
  9. 9. Task Given a PPA triple  Extract sentences that have PP  Predict for the entire PPA one of 10 interaction   types    
  10. 10. Models Generative  Dynamic Graphical Model − Simple Naïve Bayes Classifier − Discriminative  Neural Network (feed­forward, conjugate gradient) −    
  11. 11. Dynamic Graphical Model Based on previous work  Roles: PROTEIN, NULL  Features: words     
  12. 12. DM – Assumptions  There is an interaction  Single interaction per sentence  As many role states as words  Words = features  One feature node per role − Roles are hidden − Protein names may be masked −    
  13. 13. Evaluation Document­level  (Not all the sentences describe an interaction) − For every triple an interaction is assigned to the  − whole document Using two methods: − Mj  Cf     
  14. 14. Mj for each triple  for each sentence of the triple − find the interaction that maximises the posterior   probability of the interaction given features assign to all sentences of the triple the most   frequent interaction    
  15. 15. Cf get all conditional probabilities (do not assign   per sentence) for each triple  choose the interaction that maximises the sum over  − all the triple's sentences    
  16. 16. Results    
  17. 17. Comparison Trigger word  70 triggers for 10 interactions − Co­occurrence − Choose the “most specific” type − If both specific or no trigger, choose nothing − Back­off: if in doubt, choose the most frequent  − interaction    
  18. 18. Comparison  Key(B): trigger word (backoff) − Base: the most frequent interaction −    
  19. 19. Sentence­Level Experiments Manual annotation of 2114 sentences  68.3% disagreed with HIV database  Contacted some of the authors  DB error − Contradiction − “require” but under certain conditions “inhibit”     
  20. 20. Sentence­Level Evaluation    
  21. 21. Thank you.    
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×