6. 6
47.8% of adverse events
are due to drugs, of
which 3.5% result from
DDI1.
Medication errors kill
7,000 patients per
annum in USA2.
High incidence in certain
patient groups (3-20%).
Increase the Healthcare
costs
Things can get complicated...
1. APEAS Estudio sobre la seguridad de los pacientes en Atención primaria de salud.
Madrid: Ministerio de Sanidad y Consumo, 2008
2. Kohn et al., 2000. “To Err is Human”.
Introduction
9. 9
How does Information Extraction help?
Triamterene, metformin and amiloride
should be co-administered with care
as they might increase dofetilide levels.
DDI ( TRIAMTERENE, DOFETILIDE)
DDI ( METFORMIN, DOFETILIDE)
DDI ( AMILORIDE, DOFETILIDE)
Introduction
11. 11
Thesis specific goals
Creation of an annotated corpus of DDI.
Introduction
Study the main approaches for biomedical IE.
Develop a framework that allows the study
and combination of different techniques IE.
Propose a method to resolve the anaphoric
expressions involving drugs.
Integration of biomedical resources and
nomenclature standards.
Propose a method to identify and classify
drugs.
12. 12
Thesis specific goals
Introduction
Combine the resolution of complex syntactic
constructions and a set of lexical patterns
defined by a pharmacist in order to extract
DDIs.
Study the performance of a machine
learning method to detect DDIs.
Compare both previous approaches and
analyze the results.
14. State of the Art
Approaches
14
State of the Art
Relation
Extraction
In biomedicine
1
Linguisticbased
approaches
2
3
Patternbased
approaches
Machine Learning
based approaches
4
Hybrid approaches
15. State of the Art
Approaches
15
State of the Art
Relation
Extraction
In biomedicine
1
Linguisticbased
approaches
2
3
Featuresbased
approaches
Kernelsbased
approaches
Patternbased
approaches
Machine Learning
based approaches
16. State of the Art
Unsolved Issues in BNER
16
State of the Art
Few approaches dealing with Drug Name
recognition.
New drugs are continually approved.
Synonyms.
Anaphoric expressions.
Ambiguity.
Abbreviations.
17. State of the Art
Unsolved Issues in Biomedical RE
17
State of the Art
No approaches for DDI extraction.
No annotated corpus for DDI.
Abstracts MedLine.
Sentence Level.
18. State of the Art
Unsolved Issues in Biomedical RE
18
State of the Art
Modality and negation are usually ignored.
Clauses, adverbial and prepositional
phrases are not usually addressed.
Performance depends heavily on results
from previous.
Huge gap among life science researches,
healthcare professionals and computer
scientists.
21. 21
Text Analysis by MetaMap program
Corpus TXT
XML annotated with shallow
syntactic and semantic
information from UMLS
UMLS MetaMap
(MMTx):
Text analysis
Unified
Medical
Language
System
(UMLS)
Proposal: Corpus DrugDDI
DrugBank
24. 24
Annotation of Corpus DrugDDI
Total
Avg .
per
doc
DDIs 3,160 5.5
Sentences 5,806 10.2
Sentences with
at least one DDI
2,044
3.5
Drugs 14,930 25.7
Documents 579
Proposal: Corpus DrugDDI
27597 90%
3160 10%
Non-DDI
DDIs
26. 26
IE System for DDI
Corpus TXT
Text analysis
XML annotated
with shallow
syntactic and
semantic
information
Drug Name
Recognition
Anaphora
Resolution
DDI Extraction
+
drugs and other
biomedical
concepts
+
anaphoras
+
Drug
interactions
Biomedical Resources
Proposal: DrugDDI system
28. 28
Drug Name Recognition (DrugNer)
Corpus TXT
+
drugs and other
biomedical
concepts
+
anaphoras
+
DrugDrug
interactions
WHOINN
affixes
UMLS
XML annotated
with shallow
syntactic and
semantic
information
Proposal: DrugDDI system
Drug Name
Recognition
Anaphora
Resolution
DDI Extraction
Text analysis
29. 29
WHO affixes
for identifying and classifying drugs
Affixes
WHOINN
Drug Family Pattern Drugs
pristin Antibacterials,
pristinamycin
derivatives
[AZaz09]*[pristin] Efepristin
gatran Antithrombotic
agents
[AZaz09]*[gatran] Dabigatran
-tinib Antineoplastic
agents
[AZaz09]*[tinib] Dasatinib,
Sunitinib,
Nilotinib
-mycin -Antibiotics [AZaz09]*[mycin] Tanespimycin
Proposal: DrugDDI system
30. 30
Evaluation of DrugNer
Precision Recall F-measure
0.9
0.91
0.92
0.93
0.94
0.95
0.96
0.97
0.98
0.99
1
MMTx
MMTx + affixes
Affix-based classification obtains an accuracy
rate of 75%
Number of drugs in the DrugNer
corpus (849 Medline abstracts)
Detected by MMTx
8,093
(97.6%)
Only detected by affixes 181 (2.2%)
Detected neither by
MMTx nor affixes
20 (0,2%)
Total 8,294
Proposal: DrugDDI system
31. 31
Drug Anaphora Resolution
Corpus TXT
Biomedical Resources
Proposal: DrugDDI system
Drug Name
Recognition
Anaphora
Resolution
DDI Extraction
Text analysis
+
drugs and other
biomedical
concepts
+
anaphoras
+
DrugDrug
interactions
XML annotated
with shallow
syntactic and
semantic
information
32. 32
Levofloxacin is one of the most commonly prescribed
antibiotics in clinical practice.
Several case reports have indicated that this drug may
signicantly potentiate the anticoagulation effect of
warfarin.
DDI MAY POTENTIATE( LEVOFLOXACIN , WARFARIN )
How does Anaphora Resolution help?
Proposal: DrugDDI system
34. 34
Approaches for Drug anaphora resolution
Baseline
Scoring-based method
Linguistic rules-based
method (Centering theory)
Proposal: DrugDDI system
35. 35
Drug anaphora resolution results
Pronominal Nominal
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Baseline
Scoring-based approach
Linguistic Rules-based
approach
Proposal: DrugDDI system
F-measure
36. 36
Drug-Drug Interaction Extraction
Corpus TXT
Biomedical Resources
Proposal: DrugDDI system
Drug Name
Recognition
Anaphora
Resolution
DDI Extraction
Text analysis
+
drugs and other
biomedical
concepts
+
anaphoras
+
DrugDrug
interactions
XML annotated
with shallow
syntactic and
semantic
information
37. 37
Approaches for DDI Detection
DDI Extraction Drug interactions
Proposal: DrugDDI system
Syntactic Information
+ Lexical Patterns
Machine Learning
1
2
38. 38
Approaches for DDI Detection
DDI Extraction Drug interactions
Proposal: DrugDDI system
Syntactic Information
+ Lexical Patterns
Machine Learning
1
2
40. 40
1st approximation: Syntactic
Information + Lexical Patterns
Proposal: DrugDDI system
XML annotated with
shallow syntactic and
semantic information,
drugs and other
biomedical concepts,
anaphoras
DrugDrug
interactions
Detection of
coordinate structures
Detection of
appositions
Pattern
Matching
Clause Splitting
Rules for sentence
simplification
41. Allopurinol interacts with anisindione, azathioprine and cyclosporine
How does syntactic information help?
Detecting coordinate structures
Proposal: DrugDDI system
42. Allopurinol interacts with anisindione, azathioprine and cyclosporine
Detection of
Coordinate structures
COORD := ([NP|PP|AJD|UNK],)* [NP|PP|
ADJ|UNK] CONJ [NP|PP|ADJ|UNK]
Allopurinol interact with COORD
Detecting coordinate structures
Proposal: DrugDDI system
How does syntactic information help?
43. Allopurinol interacts with anisindione, azathioprine and cyclosporine
Detection of
Coordinate structures
COORD := ([NP|PP|AJD|UNK],)* [NP|PP|
ADJ|UNK] CONJ [NP|PP|ADJ|UNK]
Allopurinol interacts with COORD
Drug Name Recognition
DRUG.1 interacts with COORD
Detecting coordinate structures
Proposal: DrugDDI system
How does syntactic information help?
44. Allopurinol interacts with anisindione, azathioprine and cyclosporine
DDI := <DRUG1|COORD|APPOSITION>
INTERACTS WITH
<DRUG2|COORD|APPOSITION>.
Detection of
Coordinate structures
Pattern Matching
COORD := ([NP|PP|AJD|UNK],)* [NP|PP|
ADJ|UNK] CONJ [NP|PP|ADJ|UNK]
Allopurinol interacts with COORD
Drug Name Recognition
DRUG.1 interacts with COORD
Detecting coordinate structures
Proposal: DrugDDI system
How does syntactic information help?
45. Allopurinol interacts with anisindione, azathioprine and cyclosporine
DDI := <DRUG1|COORD|APPOSITION>
INTERACTS WITH
<DRUG2|COORD|APPOSITION>.
Detection of
Coordinate structures
Pattern Matching
DRUG-DRUG INTERACTION:
Drug 1: Allopurinol
Drug 2: anisindione
COORD := ([NP|PP|AJD|UNK],)* [NP|PP|
ADJ|UNK] CONJ [NP|PP|ADJ|UNK]
Allopurinol interacts with COORD
Drug Name Recognition
DRUG.1 interacts with COORD
DRUG-DRUG INTERACTION:
Drug 1: Allopurinol
Drug 2: azathioprine
DRUG-DRUG INTERACTION:
Drug 1: Allopurinol
Drug 2: cyclosporine
Detecting coordinate structures
Proposal: DrugDDI system
How does syntactic information help?
57. 57
Imbalanced dataset
Proposal: DrugDDI system
27597 90%
3160 10%
Non-DDI
DDIs
Dataset Docs Sents. Drugs
Training 437 4,578 2,650
Testing 142 1,228 753
Total 579 5,806 3,313
Dataset Exa. Pos. Neg.
Training 25,209 2,433 22,776
Testing 5,548 726 4,821
Total 30,757 3,160 27,597
58. 58
Shallow Linguistic Relational kernel
(Giuliano et al., 2006)
Proposal: DrugDDI system
Shallow representation of sentences (no syntax)
Global Context Kernel.
Local Context Kernel.
59. 59
Global Context: Fore-Between
Concurrent administration of a TNF antagonist with ORENCIA
has been associated with an increased risk of serious
infections and no significant additional efficacy over use of the
TNF antagonists alone.
KGlobalContext
(R1
,R2
)=KFore-Between
(R1
,R2
)
Proposal: DrugDDI system
60. 60
Global Context: Between
Concurrent administration of a TNF antagonist with ORENCIA
has been associated with an increased risk of serious
infections and no significant additional efficacy over use of the
TNF antagonists alone.
Proposal: DrugDDI system
KgoblalContext
(R1
,R2
)=KFore-Between
(R1
,R2
) +
KBetween
(R1
,R2
)
61. 61
Global Context: Between-After
Concurrent administration of a TNF antagonist with ORENCIA
has been associated with an increased risk of serious
infections and no significant additional efficacy over use of the
TNF antagonists alone.
Proposal: DrugDDI system
KGlobalContext
(R1
,R2
)=KFore-Between
(R1
,R2
) +
KBetween
(R1
,R2
) +
KBetween-After
(R1
,R2
)
62. KGlobal context
(R1
, R2
)=?
KGlobal context(
“Coadministration of DRUG with DRUG may increase the risk of
toxicity”,
“Coadministration of DRUG with DRUG may increase OTHER
exposure”)
=
How many ngrams do both examples share?
Proposal: DrugDDI system
Global Context Kernel (n-gram)
63. KGlobal context
(R1
, R2
)=?
KGlobal context(
“Coadministration of DRUG with DRUG may increase the risk of
toxicity”,
“Coadministration of DRUG with DRUG may increase OTHER
exposure”)
= KFore-Between
(R1
,R2
) + KBetween
(R1
,R2
) + Kbetween-After
(R1
,R2
)
= 2
Proposal: DrugDDI system
Global Context Kernel (n-gram=2)
64. KGlobal context
(R1
, R2
)=?
KGlobal context(
“Coadministration of DRUG with DRUG may increase the risk of
toxicity”,
“Coadministration of DRUG with DRUG may increase OTHER
exposure”)
= KFore-Between
(R1
,R2
) +
KBetween
(R1
,R2
) +
KBetween-After
(R1
,R2
)
Proposal: DrugDDI system
Global Context Kernel (n-gram=1)
65. KGlobal context
(R1
, R2
)=?
KGlobal context(
“Coadministration of DRUG with DRUG may increase the risk of
toxicity”,
“Coadministration of DRUG with DRUG may increase OTHER
exposure”)
=7
Proposal: DrugDDI system
Global Context Kernel (n-gram=1)
with
with
with
with
66. Aspirin may decrease the effects of probenecid, sulfinpyrazone
and phenylbutazone
Local Context Kernel (window-size =2 )
Proposal: DrugDDI system
67. LEFT
Aspirin may decrease the effects of probenecid, sulfinpyrazone
and phenylbutazone
Proposal: DrugDDI system
Local Context Kernel (window-size =2 )
85. Future Work: DrugDDI corpus
85
Future Work
Increase the quality of the DrugDDI corpus.
86. Future Work: Drug Classification
86
Future Work
Improve the drug classification considering the
ATC system.
87. Future Work: Language
87
Future Work
Handle the mistakes made by MMTx.
Improve the clause splitting process.
Treatment of negation and modality.
Use the drug families to resolve nominal
anaphora.
88. Future Work: DDI Extraction
88
Future Work
Integrate the drug anaphora resolution in
the DDI extraction.
Use the SPINDEL [De Pablo-Sánchez et al.,
2009] system to acquire new patterns.
Extract relevant information about each
DDI.
89. Future Work: Relational Kernel
89
Future Work
Semantic Kernel (drug family, semantic
types, WordNet, etc).
Parse tree or dependency graph kernels.
Study other solutions for imbalanced
learning.
91. Projects
91
Projects
This work has been partially supported by the Spanish research
projects:
MAVIR consortium (S-0505/TIC-0267, www.mavir.net), a network
of excellence funded by the Madrid Regional Government.
ISSE: Semantic Interoperability in Electronic Healthcare (FIT-
350300-2007-75).
BRAVO: Advanced Multimodal and Multilingual Question
Answering. (TIN2007-67407-C03-01).
MULTIMEDICA: Multilingual Information Extraction in Health
domain and application to scientific and informative
documents. Propuesta Plan Nacional de I+D 2009. UC3M, UPM,
UAM.
92. Dissemination
92
Dissemination
Isabel Segura-Bedmar, Mario Crespo, Cesar de Pablo-Sánchez,
Paloma Martínez. (2010). Resolving anaphoras for the
extraction of drug-drug interactions in pharmacological
documents. BMC BioInformatics, 11(Suppl 2):S1.
César de Pablo-Sanchez, Juan Perea, Isabel Segura-Bedmar,
Paloma Martinez. (2009). The UC3M team at the Knowledge
Base Population task. TAC 2009.
Isabel Segura-Bedmar, Mario Crespo, Cesar de Pablo-Sánchez,
Paloma Martínez. (2009) DrugNerAR: Linguistic Rule-Based
Anaphora Resolver for Drug-Drug Interaction Extraction
in Pharmacological Documents. ACM DTMBIO 09.
Isabel Segura-Bedmar, Mario Crespo, Cesar de Pablo-Sánchez.
(2009) Score-based approach for Anaphora Resolution in
Drug-Drug Interactions Documents. NLDB 2009.
93. Dissemination
93
Dissemination
Isabel Segura-Bedmar, Paloma Martínez, María Segura-
Bedmar. (2008). Drug Name Recognition and classification
in biomedical texts. Drug Discovery Today. 2008 Sep;13(17-
18).
Isabel Segura-Bedmar, Paloma Martínez, Doaa Samy. (2008) A
preliminary approach to recognize generic drug names
by combining UMLS resources and USAN naming
conventions. ACL BIONLP'08.
Isabel Segura-Bedmar, Paloma Martínez, Doaa Samy. (2008)
Detección de fármacos genéricos en textos biomédicos.
Revista SEPLN.
94. Dissemination
94
Dissemination
Isabel Segura Bedmar, Doaa Samy, José L. Martínez-
Fernández, Paloma Martínez. (2007) Detecting Semantic
Relations between Nominals using Support Vector
Machines and Linguistic-Based Rules. OTM 2007.
Isabel Segura Bedmar, Doaa Samy y José L. Martínez-
Fernández. (2007) UC3M: Classification of Semantic
Relations between Nominals using Sequential Minimal
Optimization. ACL SEMEVAL 2007.
Isabel Segura Bedmar, José L. Martínez-Fernández, Paloma
Martínez. (2006) Including deeper semantic information in
the Lexical Markup Framework: a aproposal. Fifth
Slovenian and First International Language Technologies
Conference, IS-LTC 2006.
Isabel Segura Bedmar, José L. Martínez-Fernández, Paloma
Martínez. (2006) Una Propuesta para el Etiquetado
Automático de Roles Semánticos. Revista SEPLN.
95. Dissemination
95
Dissemination
Isabel Segura-Bedmar, Paloma Martínez, Cesar de Pablo-
Sánchez (2010). Extracting drug-drug interactions from
biomedical texts. Accepted at BioTM 2010 (Workshop on
Advances in Bio Text Mining). BMC BioInformatics.
Roxana Danger, Isabel Segura-Bedmar, Paloma Martínez,
Paolo Rosso. (2009). A comparison of machine learning
techniques for detection of drug target articles..
Submitted to Journal of Biomedical Informatics.
99. 99
The pressor effects of [catecholamines
such as dopamine or norepinephrine]_APOS
are enhanced by Bretylium Tosylate.
which can be interpreted as:
1) The pressor effects of catecholamines are enhanced by Bretylium
2) The pressor effects of dopamine are enhanced by Bretylium
3) The pressor effects of norepinephrine are enhanced by Bretylium
How syntactic information helps?
<DRUG EFFECT> OF (DRUG|APOS) BE
<INTERACT_VERB> BY (DRUG|APOS)
1) DDI increase ( BRETYLIUM TOSYLATE, CATECHOLAMINES )
2) DDI increase (BRETYLIUM TOSYLATE, DOPAMINE)
3) DDI increase (BRETYLIUM TOSYLATE, NOREPINEPHRINE)
Detecting appositive structures
Proposal: DrugDDI prototype
100. Catecholamine-depleting drugs, such as reserpine, may have an additive
effect when given with beta-blocking agents.
DDI := <DRUG1|APPOSITION>
(HAVE|INCREASE|...) <EFFECT>
WHEN GIVEN WITH
<DRUG2|APPOSITION>.
Detection of
Appositions
Pattern Matching
DRUG-DRUG INTERACTION:
Drug 1: Catecholamine-depleting drugs
Drug 2: beta-blocking agents
Property|Effect: additive
DRUG-DRUG INTERACTION:
Drug 1: Reserpine
Drug 2: beta-blocking agents
Property|Effect: additive
APPOSITION may have an additive effect when given with DRUG.
APPOSITION := <APPOSITIVE>
MARKER <APOSITIVE>
How syntactic information helps?
Proposal: DrugDDI prototype
Detecting appositions
101. Concomitant administration of corticosteroids with Aspirin may increase the risk of
gastrointestinal ulceration and may reduce serum salicylate levels.
Concomitant administration of
corticosteroids with Aspirin may
increase the risk of
gastrointestinal ulceration
Concomitant administration of
corticosteroids with Aspirin may
reduce serum salicylate levels.
PATTERN: ADMINISTRATION
OF <DRUG1> WITH
<DRUG2>
MAY (INCREASE|REDUCE)...
Clause splitting
Pattern Matching
DRUG-DRUG INTERACTION:
Drug 1: Corticosteroids
Drug 2: Aspirin
Action: increase
Property|Effect: Gastrointestinal
ulceration
DRUG-DRUG INTERACTION:
Drug 1: Corticosteroids
Drug 2: Aspirin
Action: reduce
Property|Effect: serum salicylate
levels
Proposal: DrugDDI prototype
Detecting clauses
How syntactic information helps?
103. RIGHT
Aspirin may decrease the effects of probenecid, sulfinpyrazone
and phenylbutazone
ΦRIGHT(R)=
Local Context Kernel
Proposal: DrugDDI prototype
104. 104
[The Cmax of norethindrone was 13% higher] when
[it was coadministered with gabapentin]
What is the problem?
Complex sentences: Interactions could
span several clauses
In a pharmacokinetic substudy in patients with
congestive heart failure receiving
furosemide or digoxin in whom therapy with FLOLAN
was initiated, apparent oral clearance values
for furosemide (n = 23) and digoxin (n= 30)
were decreased by 13% and 15%, respectively,
on the second day of therapy and had returned
to baseline values by day 87.
Proposal: DrugDDI prototype
105. 105
Therefore,
[when MIDAMOR and non-steroidal
anti-inflammatory agents
are used concomitantly],
[the patient should be observed closely to determine
if thedesired effect of the diuretic is obtained].
Interactions could span several clauses
What is the problem?
The most sentenses are complex
sentences.
106. 106
In subjects who had received 21 days of
40 mg/day racemic citalopram, com-
bined administration of 400 mg/day cimetidine
for 8 days resulted in an
increase in citalopram AUC and
Cmax of 43% and 39%, respectively.
What is the problem?
Patterns are not enough for detecting
other interactions
107. KGlobal context
(R1
, R2
)=?
KGlobal context(“DRUG may interact with DRUG”,
“DRUG may interact with DRUG, OTHER, OTHER”)=2
KGlobal context(“DRUG may interact with DRUG”,
“DRUG may decrease the effect of DRUG, OTHER, and OTHER”)=0
KGlobal context(“Coadministration of DRUG with DRUG may increase the
risk of toxicity”, “Coadministration of DRUG with DRUG may increase
OTHER exposure”, )=2
Proposal: DrugDDI prototype
Global Context Kernel (n-gram=2)
113. 113
1st
Experiment: Baseline
Proposal: DrugDDI system
XML annotated with
shallow syntactic and
semantic information,
drugs and other
biomedical concepts,
anaphoras
DrugDrug
interactions
Pattern
Matching
114. 114
2nd Experiment: Coordinate structures
and appositions
Proposal: DrugDDI system
XML annotated with
shallow syntactic and
semantic information,
drugs and other
biomedical concepts,
anaphoras
DrugDrug
interactions
Detection of
coordinate structures
Detection of
appositions
Pattern
Matching
Clause Splitting
Rules for sentence
simplification
115. 115
3th Experiment: Coordinate structures,
appositions and clauses
Proposal: DrugDDI prototype
XML annotated with
shallow syntactic and
semantic information,
drugs and other
biomedical concepts,
anaphoras
DrugDrug
interactions
Detection of
coordinate structures
Detection of
appositions
Pattern
Matching
Clause Splitting
Rules for sentence
simplification
116. 116
Evaluation 2nd
Approximation
(n=3, w=1)
(n=1, w=2)
(n=2, w=3)
(n=3, w=3)
(n=4, w=3)
(n=5, w=3)
0
2000
4000
6000
8000
10000
12000
14000
16000
sg.
Proposal: DrugDDI prototype
ngram=3, windowsize=1
minimizes the training time
and maximizes the precision
ngram=1, windowsize=2
minimizes the training time
and maximizes the recall
Training Time
118. 118
Experiment results on imbalanced
and balanced datasets
Precision Recall F-measure
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.55
0.82
0.66
0.36
0.91
0.52
0.82
0.91
0.86
Imbalanced datasets
Balanced training dataset &
Imbalanced testing dataset
Balanced training and testing
datasets
Proposal: DrugDDI prototype
119. 119
Rules for syntactic simplification
Rules based on [Shiddahartan, 2006]:
Rules for Appositive Clause Simplification
S = [V][W][X apos of V][Z] => S1=[V][W][Z],
S2=[V] is/are [X apos of V]
Rules for Coordinative Clause Simplification
S=CONJ [X], [Y] => S1 = X, S2 = Y
S = [IF] [X] [THEN|,] [Y] => S1 = X, S2 = Y
S = [X] [,]? [CONJ] [Y] => S1 = X, S2 = Y
Rules for Relative Clause Simplification
S = [W] [X][Y relative W] [Z].=>S1 = W X Z.
S2 = W Y.
....
123. 123
Experiment results on imbalanced
and balanced datasets
F-measure Recall F-measure
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.66
0.82
0.66
0.52
0.91
0.52
0.82
0.91
0.86
Baseline
Imbalanced datasets
Balanced training dataset &
Imbalanced testing dataset
Balanced training and testing
datasets
Proposal: DrugDDI system
124. 124
Experiment results on imbalanced
and balanced datasets
Precision Recall F-measure
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.55
0.82
0.66
0.36
0.91
0.52
0.82
0.91
0.86
Imbalanced datasets
Balanced training dataset &
Imbalanced testing dataset
Balanced training and testing
datasets
Proposal: DrugDDI system
Editor's Notes
Buenos días, señor presidente, señora secretaria, señores miembros del tribunal.
Mi nombre es Isabel Segura y voy a presentar la defensa de mi tesis doctoral dirigida por la Dra. Paloma Martínez. Está tesis trata sobre la aplicación de técnicas de EI al dominio farmacológico, en particular, a la extracción de DDI.
En esta presentación, comenzaré con una introducción al problema tratado en la tesis.
A continuación, presentaré los principales enfoques en Extracción de Información en el dominio biomédico.
Y pasaré a describir la propuesta presentada
en esta tesis junto con su evaluación.
Finalmente, daré las principales conclusiones y líneas de trabajo futuro.
Debo comenzar explicándo que es una DDI. Una DDI ocurre cuando los efectos de un fármaco son alterados por la presencia de otro fármaco. Es decir, es una reacción entre dos o más fármacos tomados en el mismo periodo de tiempo.
Algunas de estas interacciones son beneficiosas, de hecho, una practica generalizada es la combinación de dos o más fármacos para obtener fármacos más potentes, como es el caso de los antirretrovirales.
Pero desgraciadamente, en muchas ocasiones, estas interacciones producen efectos adversos, llegando incluso a causar la muerte del paciente.
De hecho, numerosos estudios han demostrado que las DDIs son un grave problema para la seguridad del paciente.
En españa, el estudio APEAS demostró que casi la mitad de los eventos adversos son errores de medicación, de los cuales el 3.5% son DDIs.
Otro estudio relevante en el área de la seguridad del paciente, Errar es humano, muestra que al año mueren 7000 pacientes debido a estos errores.
Las DDIs no son eventos aislados, sino que tienen una gran incidencia, sobre todo en ciertos grupos de la población como los ancianos y enfermos polimédicados.
Además, las DDI no solo afectan a la seguridad del paciente, sino que también conllevan un incremento en el gasto médico, debido a que muchos pacientes deben recibir un tratamiento paliativo o incluso permanecer más tiempo ingresados.
El personal médico tiene a su disposición un gran número de bases de datos sobre interacciones, sin embargo estas BD presentan varios problemas. Uno de ellos es la inconsistencia de información, es decir, no siempre presentan la misma información sobre una determinada interaccción. Esta inconsistencia lo que provoca es que el médico no siempre sea capaz de determinar la verdadera importancia clínica de una determinada interacción.
Sin embargo, el principal problema es que estas bd no están completas. ¿Por qué?. Cuando se descubre una nueva interacción, en primer lugar, es publicada en alguna revista del dominio, y pasa un tiempo hasta que las bases de datos registran esta interacción.
El problema es que las bases de datos tienen periodos de actualización de hasta 3 años.
Así médicos y farmacéuticos también deben revisar las publicaciones, la literatura médica para estar al día en el área de DDI.
Aquí El principal problema es que
El personal médico está desbordado en el manejo de la gran cantidad de información contenida en las bases de datos y en la literatura médica.
Citar aquí que sólo al año 300.000 artículo son publicados en el dominio farmacológico.
Así nuestra principal hipótesis es que la aplicación de técnicas de EI para el desarrollo de herramientas automáticas puede reducir notablemente el tiempo que médicos y farmacéuticos utilizar en revisar los textos médicos.
Por otro lado, estas herramientas automáticas también pueden facilitar la actualización de las BD sobre interacciones.
Por tanto, en esta tesis hemos abordado dos grandes retos. En primer lugar, hemos tratado la construcción del primer sistema para la extracción de interacciones farmacológicas.
Ningún grupo de investigación ha dirigido este problema, lo que lo convierte en un problema interesante y atractivo, sin embargo, también nos plantea algunos retos, como por ejemplo, es la escasez de recursos para construir nuestra solución, en particular, que no existe ningún corpus anotados con este tipo de relaciones.
Por este motivo, el segundo gran reto planteado en esta tesis es la construcción del primer corpus anotado con interacciones farmacológicas.
Los objetivos específicos de esta tesis son:
Como decía la creación del primer corpus sobre DDI.
Estudiar los principales enfoque en la EI en biomedicina.
Desarrollar un marco de trabajo que nos permita estudiar y combinar las distintas técnicas propuestas en esta tesis.
Entre estas técnicas, esta tesis propone una seria de procesos auxiliares que son necesarios para la posterior extracción de interacciones, como es el reconocimiento de nombres de fármacos y la resolución de expresiones anafóricas que se refieren a fármacos.
Además, en esta tesis hemos estudidado e integrado distintos recursos terminológicos y estandares del dominio que nos proporcionan información semántica necesaria útil para abordar nuestro problema.
Centrandonos en la extracción de interacciones, en esta tesis hemos propuesto dos aproximaciones distintas, la primera basada en el uso de patrones y el tratamiento de la información sintáctica, y una seguna aproximación basada en aprendizaje automático.
Por supuesto, también hemos comparado ambos enfoques para ver cuál es el que obtiene mejores resultados.
No decir que es por falta de tiempo.
Aunque en esta tesis hemos revisado los principales corpus en biomedicina, así como los principales enfoque en reconocimiento de entidades biomédicas y resolución de anaforas.
En esta presentación, nos centraremos únicamente en la extracción de relaciones.
Nosotros al igual que otros muchos autores clasificamos los trabajos en tres distintos enfoques: linguisticos, basados en patrones y basados en aprendizaje automático. Sin embargo, muchos de estos trabajos combinan varias técnicas aprovechando los beneficios de cada una de ellas, así que también podríamos hablar de enfoques híbridos.
Los enfoques linguisticos utilizan analizadores sintácticos que en la mayoría de los casos son entrenados sobre textos del dominio general, siendo incapaces de abordar las peculiaridades del lenguaje biomédico, en el cual la terminología es completamente distinta, y las oraciones compuestas y complejas son muy frecuentes.
Los enfoques basados en patrones consiguen buena precisión, sin embargo, obtienen una cobertura limitada debido a que los patrones no son capaces de capturar todas las posibles expresiones de una relación.
Los enfoques basados en aprendizaje automático consiguen buenos resultados pero dependen de la existencia de corpus anotados.
Aquí podemos distinguir dos tipos de enfoques, basados en características, en los cuales los ejemplos son representados con vectores formados por elementos con información léxica, morfosintáctica y semántica.
El problema de estos enfoques es que no siempre son capaces de representar de forma óptima la información estructural de los ejemplos, por ejemplo, la información en un árbol sintáctico o de algunas representaciones secuenciales de los ejemplos.
Como alternativa a este tipo de enfoques, en los últimos años han aparecido los métodos kernels. Estos métodos kernels son funciones que intentan mediar la similitud entre dos ejemplos, de esta forma, no es necesario construir una representación de los ejemplos basada en características, y los ejemplos pueden ser representados conservando su información estructural.
Ojo se dice abreviaturas
Solo en el mes de marzo se han aprobado más de 20 fármacos.
Aspirina tiene 25 sinónimos y 95 marcas comerciales.
Si nos centramos en cuestiones directamente relacionadas con el problema que tratamos en esta tesis.
Decir que aunque muchos trabajos han abordado el reconocimiento de genes y proteínas, no es el caso de los fármacos. Sin embargo, su reconocimiento plantea ciertas retos no resueltos, como la constante creación y aprobación de nuevos fármacos, el problema de la sinonimia, el problema de la ambigüedad, muchas marcas comerciales utilizan nombres comunes en inglés para nombrar sus productos, por ejemplo, advantage o because que son anticonceptivos. Otro problema relacionado con la resolución de la ambigüedad, esta provocado por el abundate uso de abreviaturas.
También es muy habitual el uso de expresiones anafóricas en este tipo de textos científicos.
Respecto a la extracción de relaciones, volver a repetir que no existen trabajos que hayan abordado la extracción de DDI. Ni existen corpus anotados con DDI.
La mayoría de los corpus en biomedicina están compuestos por abstracts, y por tanto, la mayoría de los trabajos se centran en este tipo de documentos.
Además, aunque una relación puede expresarse en varias oraciones, todos los trabajos se limitan en la extracción de relaciones que ocurren en la misma oración.
Por otro lado, aunque el dominio biomédico dispone de buenas ontologías, los enfoques han utilizado estas ontologías como simples diccionarios, sin aprovechar su información sobre relaciones.
Respecto al tratamiento de los fenómenos linguisticos frecuentes en los texots biomédicos, como por ejemplo, las oraciones complejas y su división en clausulas, o el tratamiento de la información contenida en las frases adverbiales y preposicioness, la mayoría de los enfoques no ha abordado este tipo de problemas, y lo mismo ocurren con la modadlidad y la negación en las oraciones.
También resaltar que los resultados obtenidos en la extracciónde relaciones son afectados directamente por resultados obtenidos en procesos anteriores como el recnocimiento de entidades.
Finalizar, resaltando que la mayoría de los trabajos son desarrollados por ingenieros, sin contar con la ayuda de expertos del dominino. Nosotros creemos que es imprescindible crear grupos multidisciplinares, como ha sido nuestro caso, y sobre es imprescindible contar con la ayuda de expertos del dominio que nos aportan el conocimiento, y lo más importante de todo es que nos marcan cuales son sus necesidades reales.
A continuación, describiré la solución que hemos propuesto en esta tesis.
Empezaré describiendo la construcción del corpus.
Nosotros hemos utilizado la base de datos farmacológica DrugBank, que es un recurso que de libre acceso y está online.
Esta bd contiene textos que describen interacciones farmacológicas.
Nosotrso desarrollamos un robot para descargar estos textos y recopilar asi una colección de documentos.
Una vez que tenemos el corpus textual, hemos utilizado la herramienta MetaMap para analizar cada uno de los textos. Esta herramiento proporciona información sintáctica y semántica obtenida del sistema UMLS. UMLS es un cto de recursos, en particular, una ontología que integra un gran número de diccionarios biomédicos cubriendo distintas áreas como la biología, medicina, química, entre otras muchas.
Nosotros representamos esta información proporcionada por MetaMap en el formato XML. Vamos a ver un ejemplo.
Además, MMTx proporciona para cada una de las frases información semántica de UMLS como su identificador o sus tipos semánticos, por ejemplo, por ejemplo, la frasse Aspirin es clasificada con el tipo semántico sustancia farmacológica.
Un.a vez que los textos estan analizados. Nosotros desarrollamos una aplicación que facilitaba la anotación manual de las interacciones en los textos. La anotación fue realizada con la ayuda de una farmacéutica, y aquí podemos ver un ejemplo, en el que han anotado las 3 interacciones presentes en la primera oración.
Decir nosotros al igual que los trabajos en extracción de relaciones en el dominio biomédico, también nos hemos limitado a anotar, y posteriormente extraer, las interacciones a nivel de oración.
Cuales son las principales características dl corpus DrugDDI. E lcorpus está formado por 579 documentos, casi 6000 oraciones y 3160 interacciones anotadas.
Basándosno en estos datos, podemos afirmar que nuestro corpus es uno de los más grandes tanto en un número de relaciones anotadas como en número de oraciones.
Por otro lado, también quiero resaltar que el número medio de oraciones por documento es de 10 oraciones. Esta cifra nos indica que nuestro tipo de texto tienen un tamaño similar al de los abstracts utilizados en otros corpus.
Finalmente, si consideramos todos los posibles pares de fármacos que ocurren en la misma oración, en total tendríamos unos 30,000 pares, de los cuales son el 10% son DDI.
Una vez descrito el corpus, paso a describir las principales técnicas propuestas en esta tesis para abordar la extracción de DDI
Como dije dentro de los objetivos de la tesis, uno de ellos era el desarrollo de un marco de trabajo en el que combinar los distintos procesos propuestos en la tesis.
En particular, en nuestra solución se combinan distintos procesos como el análisis de los textos, el reconocimiento de fármacos, la resolución de anáforas y la extracción de DDI. Voy a describir cada uno de estos procesos.
En la construcción del corpus, acabamos de describir el proceso dedicado al análisis de los textos, así que no le dedicaré maś tiempo
El siguiente proceso que hemos abordado en esta tesis, ha sido el reconocimiento de nombres de fármacos.
Para ello hemos utilizado la herramienta MMTx que nos permite detectar no solo los fármacos sino también otros conceptos biomédicos, y también hemos usado estándares utilizados por los farmacéuticos para nombrar y clasificar nuevos fármacos.
En particular, estoy hablando de estandar recomendado por la WHO. Este estandar está compusto por un conjunto de afijos.
Nuestra hipótesis es que estos afijos nos permitan detectar fármacos que no están aún en UMLS, y que por tanto, no son ser por MMTx.
Pero además, estos afijos van a permitir clasificar los fármacos en familias.
MMTx no es capaz de distinguir entre un anágesico y un antibiotico o un antiinflamatorio.
Las familias pueden ser una pista importante a la hora de detectar una interacción, ya que fármacos de la misma familia suelen presentar las mismas interacciones.
Hemos realizado dos experimentos uno utilizando solo metamap y otro usando también los afijos.
Como principal conclusión decir que MetaMap es un recursos robusto que obtiene altos resultados tanto en la precisión como en la cobertura.
En la evaluación de estos experimentos creamos un corpus formado por 879 abstracts de Medline que contenían casi 8300 fármacos. De los cuáles la gran mayoría son detectados por MetaMap, y 181 son reconocidos únicamente gracias a los afijos.
Donde verdaderamente, está la contribución de los afijos es en la clasificación en familias, consiguiendo un 75% de precision.
El siguiente proceso propuesto en la tesis sería la resolución de anaforas que se refieren a fármacos.
En primer lugar, voy a explicar por que es importante resolver este tipo de expresiones?. En el texto podemos ver dos oraciones, en la primrea se prsenta el fármaco levofloxación, mientras que en la segunda se describe que este fármacos puede potenciar el efecto anticoagulante de warfarin, es decir, se describe un posible DDI entre levofloxacin y warfarin. Para poder extraer esta interacción, es necesario que identificar primero la expresión anafórica this drug, y además, resolver que su antecedente es levofloxaciń.
Para el estudio de la resoluciónd e anaforas en textos farmacológicos, creamo un subcorpus de DrugDDI formado por 49 doc, casi 2000 oraciones y fue anotado con por un lingüista detectando 331 anaforas. Los dos gráficos muestran su distribución según los tipos en el corpus, podemos ver que respecto a la anafora pronominal, el tipo más común es el relativo, mientras que para la anafora nominal, el más comun es el demostrativo.
En esta tesis hemos propuesto 3 enfoques distintos para la resolución de la anafora, un enfoque baseline que simplemente selecciona el sintagma nominal más cercano a la anafora,
Los dos enfoque han sido tradicionalmente utilizados en dominio como el biológico.
El primero asigna una puntuación a cada uno de los posibles antecedentes de una anafora teniendo en cuenta información sintáctica, semántica y también la distancia entre el candidato y la anáfora.
El segundo enfoque utiliza un conjunto de reglas, en concreto restricciones semánticas y sintácticas y también principios de la teoría del centering que determinan el orden de preferencia a la hora de seleccionar un antecedente.
Este gráfico muestra los resultados de los tres enfoques. Podemos que el enfoque que obtiene mejores resultados es el enfoque basado en reglas. También podemos ver que en el caso de la anafora pronominal llegamos a obtener una medida-f del 90%. Así este enfoque obtiene resultados superiores al de otros enfoques en resolución de anafora en el dominio biomédico.
Sin embargo, no obtenemos resultados tan buenos para la resolución nominal, ninguno de los enfoque supera el 60% de la medida F. Esto se debe a que los 3 enfoques priman la cercanía entre el antecedente y la anafora. Esto funciona para la pronominal, que son anaforas que se resuelven en contextos próximos, normalmente en la misma oración, pero no para la anafóra nominal que puede resolverse en contextos más amplios, es decir, en oraciones anteriores.
Así nos planteamos la mejora de la resolución de la anafora nominal, utilizando más información semántica, en particular, las familias de los fármacos. Si por ejemplo, tenemos una anafora como &apos;este análgesico&apos;, entre todos sus posibles antecedentes, nos será muy útil saber cual de todo ellos es un análgesico, para tomar una decisión final.
LLegamos al proces principal de la tesis, la extracción de interacciones farmacológicas en textos biomédicos.
En esta tesis hemos propuesto dos aproximaciones diferentes para tratar la extracción de interacciones: el primero basado en el uso de patrones léxicos e información sintáctica, y el segundo basado en aprendizaje automático.
Paso a describir la primera aproximación
Nuestro experto del dominio, basándose en su experiencia profesional y en la obserrvación de los textos, propuso un conjunto de patrones léxicoos que son los más representativos a la hora de expresar las interacciones farmacológicas en el texto.
En particular, propuso 12 patrones, y algunos de ellos podemos verlos en esta tabla.
Antes de aplicar los patrones sobre el texto para detectar las DDI, nuestra aproximación propone la resolución de ciertas estructuras sintácticas que otros trabajos de investigación han mostrado que son muy frecuentes en el lenguaje biomédico, como son las las estructuras coordinadas y apositivas. Nuestro enfoque utiliza patrones sintácticos para reconocer este tipo de estructuras.
Y la aproximación también detecta las oraciones complejas y compuestas, muy frecuentes también en la literatura biomédica, y las descomponen mediante un algorimo que recorre las oraciones buscando pistas que permiten detectar los límites de las clausulas. Una vez detectadas, también aplicamos un conjunto de reglas que nos permiten descomponer las oraciones complejas en oraciones simples, sobre las cuales, finalmente son aplicados los patroens léxicos para extraer las DDI.
Vamos a ver un ejemplo que nos ayudará a entender porque es importante detectar este tipo de estructuras. En particular, nos centramos en las estructuras coordinadas. Esta oración como pueden ver contiene una coordinación de tres fármacos disintos.
Nuestro enfoque en primer lugar detecta esta estructura gracias al patrón sintáctico que pueden ver a la derecha y la reemplaza con la etiqueta coord.
Además, también aplicamos el proceso de reconocimiento de fármacos y etiquetamos los fármacos que ocurran en la oración.
Y finalmente, un último proceso se encarga de emparejar el texto de la oración con los patrones propuestos por el experto.
En nuestro caso, el patrón léxico que vemos a la derecha nos permite detectar las tres interacciones contenidas en la oración.
Para evaluar esta primera aproximación, hemos realizado tres experimentos distintos. El primero azul (que sería nuestro baseline y en el que solo hemos aplicado los patrones léxicos directamente sobre los textos), consigue una precisión del 67%, que es comparable a lo que obtienen otros sistemas en el dominio biológico. Sin embargo, obtiene un recall bastante bajo, es debido principalmente, a que los patroens propuestos aunque son los más representativos, no son sufciientes para detectar todas las posibles expresiones.
En el segundo experimento, detectamos las estructuras apositivas y coordinativas previo a la aplicación de patrones, y podemos que el recall aumenta, pero disminuye la precisión.
El tercer experimento, incluímos también la división de las oraciones compuestas y complejas en cláusulas. Podemos ver que los resultados son bastante similares. Esto es debido principalmente a que muchas interacciones son descritas en varias clausulas y la generación de oracioens simples y el uso de patrones no trata adecuadamente este fenómeno. La división de cláusulas, es un problema de extrema dificultad que nuestro enfoque, que utiliza un procedimiento bastante simple, no es capaz de resolver de forma eficiente.
Por tanto, en lo que se refiere a este enfoque tenemos que mejorar el tratamiento de estos fenómenos lingüísticos, y tenemos mucho campo por delante en el que mejorar.
Paso a explicar la segunda de las aproximaciones propuesta en esta tesis para la extracción de interacciones pr
En esta aproximación, hemos utilizando un enfoque basado en aprendizaje automático supervisado. En este caso, nuestro problema de extracción, se plantea como un problema de clasificación.
Es decir, vamos a tener un fase de aprendizaje y una fase de evaluación. Para ello vamos a dividir el corpus en dos partes distintas para cada una de estas fases. En la fase de aprendizaje, a partir de los documentos extraemos los ejemplos positivos y negativos que nos permitiran aprender, construir un modelo, que posteriormente, nos permita clasificar los ejemplos del conjunto de evaluación.
Lo primero que tenemos que hacer es generar el conjunto de ejemplos (de instancias de interacioens, es decir, relaciones), que nos ayuden a construir nuestro clasificador.
Para ello, en cada oración, cada par de fármacos es considerado como un posible ejemplo. El primero ejemplo estaría formado aspirin y probenecid
Y así sucesivamente iríamos formando los ejemplos de la oración
Es decir, a partri de la oración, hemos generado 6 ejemplos distintos.
El orden no se tiene en cuenta, es decir, nosotros consideramos que la relación es simétrica, aunque a decir verdad, en farmacología las interacciones no tienen porque ser simétricas, pero nosotros hemos decidido como priemra aproximación no abordarlo en este trabajo de tesis.
Por supuesto, como nuestro corpus está etiquetado, lo que hacemos también etiquetar cada uno de los ejemplos como positivo o negativo. En este caso, las trse primeras instancias son ejemplos positivos, y las tres últimas son negativos.
El conjunto total de ejemplos fue dividido en dos conjuntos: training y testing, y para el testing dedicamos el 25% de los documentos del corpus.
El número total e ejemplo son 30,757, de los cuales sólo el 10% son ejemplos positivos.
Así que estamos antes un problema de aprendidaje con un conjunt ode datos completametne desbalanceado, lo que por otro lado es bastante frecuente, en los problema
Centrándonos ya en la técnica utilizada para construir nuestro clasificador, nosotros decidimos utilizar el método kernel propuesto por Giuliano que ha sido usado en el dominio general y en el dominio biólogico, para estudiar que resultados obtenía en el dominio farmacológico.
Nuestra decisión está basada principalmente al tipo de informació nque usa este kernel: información sintáctica superficial y entidades. Basándonos en el estado del arte, parece que los kernels consiguen mejores resultados que los enfoques basados en características, aunque debo decir, que nosotros también estamos estudiando la aplicación de el enflque más clásico, aunque no lo hemos incluido en la tesis.
El kernel utilizado en esta tesis, está basado en dos kernels distintos,
Voy a explicar cada uno de estos kernels
Bunescuy Mooney, en su momento demostraron que a la hora de detectar una relación entre dos entidades, las partes de la oración que más información aportaban era el texto antes y entre ambas entidades.
El texto que ocurre entre ambas entidades, en este caso, sólo with.
El texto que ocurre entre ambas y después de la segunda entidad.
Pero cómo se cálcula el kernel. Recordar que el kernel es una función de similitud entre dos ejemplos.
La idea principal de este kernel es contar cuantas cadenas de una determinada longitud (marcada por el parámetro n-gram) tienen en común ambos ejemplos.
Nosotros hemos realizado varios experimentos modificando el valor del parámetro n-gram para el contexto global y el valor del parámetro window-size para el contexto local.
Este gráfico muestra los resultados para aquellas configuraciones que obtienen mejores resultados (todas ellas consigue una medida f de 64%).
Resaltar que el primer model (n=3, w=1) obtiene la precisión más alta. Este modelo nos interesará utilizarlo cuando queramos dar un mejor filtrado de la información al médico, es decir, menos falsos positivos.
Sin embargo, debido a que las interacciones son un tema delicado porque afecta a la seguridad del paciente, si lo queremos asegurar es una mayor cobertura tendremos que utilizar el segundo modelo (n-gram = 1, window-size=3).
De todas formas debo decir que que los resultados varían muy poco de una configuración a otra. No hemos hecho test de significación estadística.
Por otro lado, también queríamos mirar la contribución particular del kernel global (verde) y del kernel local (local).
Parece que el contexto global obtiene mejores resultados, tampoco con una diferencia muy marcada.
Los resultados del kernel global son ligeramente inferiores a lso que obtenemos con el método shallow linguistic kernel.
Como dije anteriormente, nuestro conjunto de ejemplos presenta una gran desproporcion entre número de ejemplos positivos y negativos.
Para estudiar el efecto que tiene sobre el aprendizaje, hemos realizado varios experimento.
En el primer gráfico (en el que se comparan tres valores), lo que hicimos fue evaluar un baseline que clasifica todos los ejemplos como positivos, y que obtiene una medida F de 19% (precision 10% y recall 100%), un segundo experimento en el que balanceamos el dataset de entrenamiento utilizando la técnica de undersampling, es decir, eliminamos aleatoriamente ejemplos negativos, y evaluamos el modelo sore el testing (que está desbalanceado)
Y otros experimento en el cual entrenamos y evaluamos con los conjunstos originales, que obtiene los mejores resultados.
También un experimento (marcado en la segunda gráfica de naranaj) en el cual balanceamos el conjunto inicial de ejemplos, y posteriormente creamos el conjunto de testing).
En este caso el baseline, como el conjunto de testing está balanceado, obtenemos una medida F del 60%, frente a un 80% del
This table shows the performance of the system
The first row shows the resuls obtained using only the patterns.
The patterns achieve a high precision, but a very low recall.
The second row shows the results obtained using the syntactic information and the patterns.
This approach achieves to improve the recall at 25%, but the precision descreses to the 49%.
Como dije en la introducción de la tésis, las interacciones farmacológicas son un grave problema para la seguridad del paciente y además conllevan un incremento en el gasto médico, y por tanto, la sanidad tiene un gran interés en mejorar la detección temprana de este tipo de interacciones.
Nosotros en esta tesis hemos intentado contribuir en este mejora proponiendo una solución basada en técnicas de extracción de información aplicada sobre textos biomédicos.
Cuáles son las principales contribuciones de la tesis.
Solo en el mes de marzo se han aprobado más de 20 fármacos.
Aspirina tiene 25 sinónimos y 95 marcas comerciales.
Common english words have often been used as brand names for drugs: Because, Advantage (contraceptives), Duration (spray).
Abbreviations: ASA (Aspirin), ABS (Acrylonitrile Butadiene Styrene), etc.
Solo en el mes de marzo se han aprobado más de 20 fármacos.
Aspirina tiene 25 sinónimos y 95 marcas comerciales.
Common english words have often been used as brand names for drugs: Because, Advantage (contraceptives), Duration (spray).
Abbreviations: ASA (Aspirin), ABS (Acrylonitrile Butadiene Styrene), etc.
Solo en el mes de marzo se han aprobado más de 20 fármacos.
Aspirina tiene 25 sinónimos y 95 marcas comerciales.
Common english words have often been used as brand names for drugs: Because, Advantage (contraceptives), Duration (spray).
Abbreviations: ASA (Aspirin), ABS (Acrylonitrile Butadiene Styrene), etc.
Solo en el mes de marzo se han aprobado más de 20 fármacos.
Aspirina tiene 25 sinónimos y 95 marcas comerciales.
Common english words have often been used as brand names for drugs: Because, Advantage (contraceptives), Duration (spray).
Abbreviations: ASA (Aspirin), ABS (Acrylonitrile Butadiene Styrene), etc.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Debo decir que este proyecto se ha desarrollado en el marco de dos proyectos de investigación: el proyecto ISSE sobre interoperabilidad semántica en el dominio de la salud y el proyecto BRAVO. También agradecer al consorcio MAVIR su apoyo durante este trabajo.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Calidad del corpus: incrementando su tamaño, anotandolo por varios anotadores para medir el acuerdo entre ellos, proporcionar gaidlines para la anotación, anotar las interaciones a nivel de documento.
Hello,
We are talking about information extraction in the pharmacological domain.
In particular, we are interestid in the automatic detection of drug-drug interactions from biomedical texts.
We already have patterns.
But we think that these patterns are not enough to extract the drug interactions. And that it is necessary to use syntacticinformation.
Why?
Because the biomedical sentences are very long.
Structures /strukchors/ such as appositive or coordinations /coordineisons/ are very often in this kind of sentence.
For this reason, we decided to identify this kind of structures.
This table shows the performance of the system
The first row shows the resuls obtained using only the patterns.
The patterns achieve a high precision, but a very low recall.
The second row shows the results obtained using the syntactic information and the patterns.
This approach achieves to improve the recall at 25%, but the precision descreses to the 49%.
The main problem is that most sentences are complex, and therefore, many interactions could span several clauses.
In this sentence, the first clause means the modfication of a drug property
While the second one means that this modification occurs when these drugs are taken concurrently.
Our system is not able to deal with this kind of complex sentences.
In addition, many times, the patterns are not enough to detect the interactions, because the these can be described in many different ways.
TWell, we can see this compound sentence that has been simplified in two
sentences. Then, we can apply the pattern ``drag interact with drug&apos;&apos;, and
then, we can extract its two interactons.
TWell, we can see this compound sentence that has been simplified in two
sentences. Then, we can apply the pattern ``drag interact with drug&apos;&apos;, and
then, we can extract its two interactons.
Finally, for each phrase, MetaMap tries to look for a concept in the UMLS ontology.
For example, for the phrase &apos;Aspirin&apos;.
MetaMap found the UMLS concept with the identifier
C0004057.
MetaMap uses the UMLS semantic types to classify the phrases, for example, the phrase &apos;Aspirin&apos; was classified by MetaMap as a pharmacological substance and as organic chemical.
These words are the abbreviations.
MetaMap divide el texto en oraciones.
También divide las oraciones en frases y proporciona información como su tipos sintáctico.
Y también obtenemos
Finally, for each phrase, MetaMap tries to look for a concept in the UMLS ontology.
For example, for the phrase &apos;Aspirin&apos;.
MetaMap found the UMLS concept with the identifier
C0004057.
MetaMap uses the UMLS semantic types to classify the phrases, for example, the phrase &apos;Aspirin&apos; was classified by MetaMap as a pharmacological substance and as organic chemical.
These words are the abbreviations.
We want to work in three different approaches:
First, we have developed a system that uses syntactic information and pattern-matching.
Currently, we are developing a system that use a kernel method for relation extraction developed by Claudio Giuliano from FBK in Trento.
Third, we would like to apply a bootstrapping algorithm developed by Cesar de Pablo and Paloma Martínez.
But today, we are only talking about our first approach.
We want to work in three different approaches:
First, we have developed a system that uses syntactic information and pattern-matching.
Currently, we are developing a system that use a kernel method for relation extraction developed by Claudio Giuliano from FBK in Trento.
Third, we would like to apply a bootstrapping algorithm developed by Cesar de Pablo and Paloma Martínez.
But today, we are only talking about our first approach.
We want to work in three different approaches:
First, we have developed a system that uses syntactic information and pattern-matching.
Currently, we are developing a system that use a kernel method for relation extraction developed by Claudio Giuliano from FBK in Trento.
Third, we would like to apply a bootstrapping algorithm developed by Cesar de Pablo and Paloma Martínez.
But today, we are only talking about our first approach.
We want to work in three different approaches:
First, we have developed a system that uses syntactic information and pattern-matching.
Currently, we are developing a system that use a kernel method for relation extraction developed by Claudio Giuliano from FBK in Trento.
Third, we would like to apply a bootstrapping algorithm developed by Cesar de Pablo and Paloma Martínez.
But today, we are only talking about our first approach.
This table shows the performance of the system
The first row shows the resuls obtained using only the patterns.
The patterns achieve a high precision, but a very low recall.
The second row shows the results obtained using the syntactic information and the patterns.
This approach achieves to improve the recall at 25%, but the precision descreses to the 49%.
This table shows the performance of the system
The first row shows the resuls obtained using only the patterns.
The patterns achieve a high precision, but a very low recall.
The second row shows the results obtained using the syntactic information and the patterns.
This approach achieves to improve the recall at 25%, but the precision descreses to the 49%.
We want to work in three different approaches:
First, we have developed a system that uses syntactic information and pattern-matching.
Currently, we are developing a system that use a kernel method for relation extraction developed by Claudio Giuliano from FBK in Trento.
Third, we would like to apply a bootstrapping algorithm developed by Cesar de Pablo and Paloma Martínez.
But today, we are only talking about our first approach.
We want to work in three different approaches:
First, we have developed a system that uses syntactic information and pattern-matching.
Currently, we are developing a system that use a kernel method for relation extraction developed by Claudio Giuliano from FBK in Trento.
Third, we would like to apply a bootstrapping algorithm developed by Cesar de Pablo and Paloma Martínez.
But today, we are only talking about our first approach.
DrugBank also provides pharmacological information such as its dosage forms /dosich forms/ or the list of drug interactions.
This table shows the performance of the system
The first row shows the resuls obtained using only the patterns.
The patterns achieve a high precision, but a very low recall.
The second row shows the results obtained using the syntactic information and the patterns.
This approach achieves to improve the recall at 25%, but the precision descreses to the 49%.
This table shows the performance of the system
The first row shows the resuls obtained using only the patterns.
The patterns achieve a high precision, but a very low recall.
The second row shows the results obtained using the syntactic information and the patterns.
This approach achieves to improve the recall at 25%, but the precision descreses to the 49%.