Data for project text mining

텍스트 마이닝과 워드 임베딩을 이용한
논문 속의 돌연변이-약물 관계 추출 연구
강승우, 김호준, 원성연
지도교수 : 강재우
Text Acquisition
References
Solution Approach
Introduction
 Problem statement – pains and needs
2016년 현재 매일 3,000여 편에 달하는 의생명공학 논문들이 쏟아져 나오고 있는 상황이
지만, 많은 양의 논문들을 인간이 직접 읽고 분석하는 것에는 시간적 자원적 제약이 따르고
있음. 따라서 의생명공학 entity 간의 관계를 논문을 꼼꼼히 읽지 않더라도 요약해주는 기술
의 필요성이 존재함.
본 보고서에서는 텍스트 마이닝을 통해 논문 속 돌연변이(Mutation), 유전자(Gene), 약물
(Drug) 등의 Entity 정보를 추출하고, 이들 간의 상관관계를 밝히는 자동화 시스템을 구축하
고자 함.
 Importance
구축된 자동화 시스템은 공개된 의생명공학 정보가 효율적으로 활용될 수 있도록 함과 동
시에, 세계의 많은 의생명공학 연구자들을 도움으로써 인류 발전에 이바지함.
Related works
 많은 문헌들 안에서 특정 entity (약물, 질병 등)들의 관계를 찾아내는 데이터 마이닝에
초점을 두고 문제를 해결 하고 있음.
 예를 들면 BEST 및 Polysearch가 있으며 이것은 X entity 의 입력을 받아 모든 가능한 Y
entity 의 결과를 끌어냄. (X,Y는 질병, 유전자, 약물 또는 SNP) Polysearch 알고리즘의 핵심
전략은 X, Y entity 사이의 관계가 문헌 abstract 에서 ‘높은 빈도’로 나온다는 것임.[4]
 하지만 이 방법은 단순히 ‘높은 빈도＇에 집중함으로써 직접적인 관계가 없는 entity 사
이에서도 관계가 있다고 나타낼 수 있음.
Experiment / 성능평가
Discussion & Conclusion
 Discussion
• PubMed word2vec를 사용하여 학습하였을 때 accuracy가 가장 높음.
• GoogleNews word2vec을 사용하여 학습하였을 때의 accuracy는 오히려 random
initialized word2vec을 사용했을 때의 accuracy보다 더 낮음.
 Conclusion
• 해당 분야의 context를 가진 word2vec를 사용하였을 때 training의 accuracy가
높아지는 것을 확인할 수 있으며 biomedical에 있어서 PubMed word2vec의 유
용함을 확인함.
• 한편 전문적인 분야를 연구하는데 있어서 context를 반영하지 못한 word2vec의 사
용은 오히려 accuracy에 있어서 나쁜 결과를 낼 수 있다는 사실을 확인함.
Future work
• Mutation – Drug 뿐 아니라 Mutation – Disease, Mutation – Gene 간의 관계에서
만들어낸 Data에도 적용해 model을 만들 수 있다.
• 만든 model을 이용해서 PubMed에서 더 많은 Mutation – Drug 관계를 뽑아낼 수
있다. 또한 이를 이미 만들어진 Mutation – Drug 데이터베이스인 GDSC(Genomics
of Drug Sensitivity in Cancer) Database와 비교해서 데이터 양이 더 앞서는지 등
을 비교/분석 할 수 있다.
실험 과정
• 앞에서 만든 Manual Curation Data 중 3,417개의 Positive relation과 4,352개의
Negative relation, 총 7,769개의 Data를 학습에 사용함.
• 공개된 Tensorflow 코드 (https://github.com/dennybritz/cnn-text-classification-tf)
에서 word2vec 부분을 수정하여 사용함.
• 총 5회 학습을 실시하여 나온 accuracy의 평균값을 확인함.
• word2vec를 사용하지 않고 random initialization한 경우, GoogleNews word2vec
를 사용한 경우, PubMed word2vec를 사용한 경우 각각을 비교함.
실험 결과
word2vec type
Without
word2vec
GoogleNews
word2vec
PubMed
word2vec
Accuracy(%) 73.7 71.8 75.4
1) Mutation Named Entity Recognition(NER) by Pubtator[1]
Pubtator 를 이용하여 돌연변이가 들어간 PubMed 의 문서ID(PMID)를 추출함. 이후
coreNLP sentence parser를 이용해 글을 문장 단위로 나눔.
2) Drug NER by BEST entity extractor[2]
BEST Entity Extractor 를 이용하여 돌연변이와 약물이 함께 등장하는 문장을 뽑아냄.
3) Making Training/Test sets
뽑아낸 문장들 중 일부를 manual curation 대상으로 지정함.
Manual Curation
CoreNLP dependent parsing tree
word2vec & CNN
 의생명공학 전공인이 직접 문장을 읽고 돌연변이와 약물이 서로 관계가 있다면 +1, 관계
가 없다면 -1, 알 수 없거나 상관이 없다면 0으로 표기하여 entity들의 관계를 분류함.(그림1)
 본 단계에서 얻어진 관계가 있는 +1 문장은 Positive relation dataset으로, 관계가 없는 -
1 문장은 Negative relation dataset으로 사용.
 한 문장 내에는 두 Entity 간의 관계를 추출하는데 도움이 되지 않는 많은 부분이
존재함.
 문장내에서 Mutation과 Drug간의 관계를 기술하는 주요부분만을 추출하고자
CoreNLP dependency parser를 이용하여 두 Entity간의 Shortest Dependency Path
를 그림2와 같이 추출함.[3]
[1] Wei, Chih-Hsuan, Hung-Yu Kao, and Zhiyong Lu. "PubTator: a web-based text mining
tool for assisting biocuration." Nucleic acids research (2013): gkt441.
[2] Lee, Sunwon, et al. "BEST: next-generation biomedical entity search tool for
knowledge discovery from biomedical literature." PLoS One 11.10 (2016): e0164680.
[3] http://stanfordnlp.github.io/CoreNLP/
[4] Cheng, Dean, et al. "PolySearch: a web-based text mining system for extracting
relationships between human diseases, genes, mutations, drugs and metabolites." Nucleic
acids research 36.suppl 2 (2008): W399-W405.
그림1. Manual Curation의 예시
induce
inhibitors
nsubj
dobj
frequency
nmod:of
regressions
nmod:in
patients
nmod:with
melanoma
compound
V600E
The oral BRAF inhibitors vemurafenib
and dabrafenib induce a high freque
ncy of tumor regressions in patients
with BRAF V600E mutant metastatic
melanoma.
[PMC 3582139]
Target Text
vemurafenib
amod
Core
NLP
Parsed tree
그림2. 문장에서 추출된 Parsed tree
Word2vec
• word2vec은 특정 단어의 언어학적 문맥을 학습하기 위해서 만들어진 벡터임.
• 많은 양의 단어를 입력값으로 받아들여 수백 차원의 벡터공간을 산출해 냄.
• 같은 문맥에 쓰이는 두 단어일수록 word2vec의 공간 내에서 가까운 거리에 위치
함.
Convolutional-Neural-Network(CNN)
• 문장의 한 부분에 대응하는 여러 단계의 CNN이 만들어지고 max-pooling을 통해
해당 CNN들이 이어짐.
• 이후 input의 종류에 따라 dropout, ReLu 등의 processing을 거쳐 classification
model이 완성됨.
그림3. CNN의 모식도
128x128 Input
conv1 conv2 conv3
Max-pooling
64
256
Fully-connected
Drop
out
Soft
max
Classifier
그림4. word2vec setup별 Accuracy(%)
73.7
71.8
75.4
71
72
73
74
75
76
77
Without word2vec GoogleNews word2vec PubMed word2vec
Accuracy(%)

Data for project text mining

Recommended

Recommended

More Related Content

Similar to Data for project text mining

Similar to Data for project text mining (20)

Data for project text mining