SlideShare a Scribd company logo
1 of 1
Download to read offline
텍스트 마이닝과 워드 임베딩을 이용한
논문 속의 돌연변이-약물 관계 추출 연구
강승우, 김호준, 원성연
지도교수 : 강재우
Text Acquisition
References
Solution Approach
Introduction
 Problem statement – pains and needs
2016년 현재 매일 3,000여 편에 달하는 의생명공학 논문들이 쏟아져 나오고 있는 상황이
지만, 많은 양의 논문들을 인간이 직접 읽고 분석하는 것에는 시간적 자원적 제약이 따르고
있음. 따라서 의생명공학 entity 간의 관계를 논문을 꼼꼼히 읽지 않더라도 요약해주는 기술
의 필요성이 존재함.
본 보고서에서는 텍스트 마이닝을 통해 논문 속 돌연변이(Mutation), 유전자(Gene), 약물
(Drug) 등의 Entity 정보를 추출하고, 이들 간의 상관관계를 밝히는 자동화 시스템을 구축하
고자 함.
 Importance
구축된 자동화 시스템은 공개된 의생명공학 정보가 효율적으로 활용될 수 있도록 함과 동
시에, 세계의 많은 의생명공학 연구자들을 도움으로써 인류 발전에 이바지함.
Related works
 많은 문헌들 안에서 특정 entity (약물, 질병 등)들의 관계를 찾아내는 데이터 마이닝에
초점을 두고 문제를 해결 하고 있음.
 예를 들면 BEST 및 Polysearch가 있으며 이것은 X entity 의 입력을 받아 모든 가능한 Y
entity 의 결과를 끌어냄. (X,Y는 질병, 유전자, 약물 또는 SNP) Polysearch 알고리즘의 핵심
전략은 X, Y entity 사이의 관계가 문헌 abstract 에서 ‘높은 빈도’로 나온다는 것임.[4]
 하지만 이 방법은 단순히 ‘높은 빈도'에 집중함으로써 직접적인 관계가 없는 entity 사
이에서도 관계가 있다고 나타낼 수 있음.
Experiment / 성능평가
Discussion & Conclusion
 Discussion
• PubMed word2vec를 사용하여 학습하였을 때 accuracy가 가장 높음.
• GoogleNews word2vec을 사용하여 학습하였을 때의 accuracy는 오히려 random
initialized word2vec을 사용했을 때의 accuracy보다 더 낮음.
 Conclusion
• 해당 분야의 context를 가진 word2vec를 사용하였을 때 training의 accuracy가
높아지는 것을 확인할 수 있으며 biomedical에 있어서 PubMed word2vec의 유
용함을 확인함.
• 한편 전문적인 분야를 연구하는데 있어서 context를 반영하지 못한 word2vec의 사
용은 오히려 accuracy에 있어서 나쁜 결과를 낼 수 있다는 사실을 확인함.
Future work
• Mutation – Drug 뿐 아니라 Mutation – Disease, Mutation – Gene 간의 관계에서
만들어낸 Data에도 적용해 model을 만들 수 있다.
• 만든 model을 이용해서 PubMed에서 더 많은 Mutation – Drug 관계를 뽑아낼 수
있다. 또한 이를 이미 만들어진 Mutation – Drug 데이터베이스인 GDSC(Genomics
of Drug Sensitivity in Cancer) Database와 비교해서 데이터 양이 더 앞서는지 등
을 비교/분석 할 수 있다.
실험 과정
• 앞에서 만든 Manual Curation Data 중 3,417개의 Positive relation과 4,352개의
Negative relation, 총 7,769개의 Data를 학습에 사용함.
• 공개된 Tensorflow 코드 (https://github.com/dennybritz/cnn-text-classification-tf)
에서 word2vec 부분을 수정하여 사용함.
• 총 5회 학습을 실시하여 나온 accuracy의 평균값을 확인함.
• word2vec를 사용하지 않고 random initialization한 경우, GoogleNews word2vec
를 사용한 경우, PubMed word2vec를 사용한 경우 각각을 비교함.
실험 결과
word2vec type
Without
word2vec
GoogleNews
word2vec
PubMed
word2vec
Accuracy(%) 73.7 71.8 75.4
1) Mutation Named Entity Recognition(NER) by Pubtator[1]
Pubtator 를 이용하여 돌연변이가 들어간 PubMed 의 문서ID(PMID)를 추출함. 이후
coreNLP sentence parser를 이용해 글을 문장 단위로 나눔.
2) Drug NER by BEST entity extractor[2]
BEST Entity Extractor 를 이용하여 돌연변이와 약물이 함께 등장하는 문장을 뽑아냄.
3) Making Training/Test sets
뽑아낸 문장들 중 일부를 manual curation 대상으로 지정함.
Manual Curation
CoreNLP dependent parsing tree
word2vec & CNN
 의생명공학 전공인이 직접 문장을 읽고 돌연변이와 약물이 서로 관계가 있다면 +1, 관계
가 없다면 -1, 알 수 없거나 상관이 없다면 0으로 표기하여 entity들의 관계를 분류함.(그림1)
 본 단계에서 얻어진 관계가 있는 +1 문장은 Positive relation dataset으로, 관계가 없는 -
1 문장은 Negative relation dataset으로 사용.
 한 문장 내에는 두 Entity 간의 관계를 추출하는데 도움이 되지 않는 많은 부분이
존재함.
 문장내에서 Mutation과 Drug간의 관계를 기술하는 주요부분만을 추출하고자
CoreNLP dependency parser를 이용하여 두 Entity간의 Shortest Dependency Path
를 그림2와 같이 추출함.[3]
[1] Wei, Chih-Hsuan, Hung-Yu Kao, and Zhiyong Lu. "PubTator: a web-based text mining
tool for assisting biocuration." Nucleic acids research (2013): gkt441.
[2] Lee, Sunwon, et al. "BEST: next-generation biomedical entity search tool for
knowledge discovery from biomedical literature." PLoS One 11.10 (2016): e0164680.
[3] http://stanfordnlp.github.io/CoreNLP/
[4] Cheng, Dean, et al. "PolySearch: a web-based text mining system for extracting
relationships between human diseases, genes, mutations, drugs and metabolites." Nucleic
acids research 36.suppl 2 (2008): W399-W405.
그림1. Manual Curation의 예시
induce
inhibitors
nsubj
dobj
frequency
nmod:of
regressions
nmod:in
patients
nmod:with
melanoma
compound
V600E
The oral BRAF inhibitors vemurafenib
and dabrafenib induce a high freque
ncy of tumor regressions in patients
with BRAF V600E mutant metastatic
melanoma.
[PMC 3582139]
Target Text
vemurafenib
amod
Core
NLP
Parsed tree
그림2. 문장에서 추출된 Parsed tree
Word2vec
• word2vec은 특정 단어의 언어학적 문맥을 학습하기 위해서 만들어진 벡터임.
• 많은 양의 단어를 입력값으로 받아들여 수백 차원의 벡터공간을 산출해 냄.
• 같은 문맥에 쓰이는 두 단어일수록 word2vec의 공간 내에서 가까운 거리에 위치
함.
Convolutional-Neural-Network(CNN)
• 문장의 한 부분에 대응하는 여러 단계의 CNN이 만들어지고 max-pooling을 통해
해당 CNN들이 이어짐.
• 이후 input의 종류에 따라 dropout, ReLu 등의 processing을 거쳐 classification
model이 완성됨.
그림3. CNN의 모식도
128x128 Input
conv1 conv2 conv3
Max-pooling
64
256
Fully-connected
Drop
out
Soft
max
Classifier
그림4. word2vec setup별 Accuracy(%)
73.7
71.8
75.4
71
72
73
74
75
76
77
Without word2vec GoogleNews word2vec PubMed word2vec
Accuracy(%)

More Related Content

Similar to Data for project text mining

메타분석 소개
메타분석 소개메타분석 소개
메타분석 소개Youngjun Na
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Hyunjeong Lee
 
Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션
Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션
Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션Myuserable
 
2009 생명공학백서 4장
2009 생명공학백서 4장2009 생명공학백서 4장
2009 생명공학백서 4장Soo-Ik Chang
 
Applying deep learning to medical data 2 스터디
Applying deep learning to medical data 2 스터디Applying deep learning to medical data 2 스터디
Applying deep learning to medical data 2 스터디Hyun-seok Min
 
The concept of translational research and the role of hospital 2013-09-12 b...
The concept of translational research and the role of hospital   2013-09-12 b...The concept of translational research and the role of hospital   2013-09-12 b...
The concept of translational research and the role of hospital 2013-09-12 b...석관 김
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형datasciencekorea
 
송현주 2007 학습장애 인지증진치료 활용고찰
송현주 2007 학습장애 인지증진치료 활용고찰송현주 2007 학습장애 인지증진치료 활용고찰
송현주 2007 학습장애 인지증진치료 활용고찰혜원 정
 
The Quantified Patient in the Doctor's Office: Challenges & Opportunities
The Quantified Patient in the Doctor's Office: Challenges & OpportunitiesThe Quantified Patient in the Doctor's Office: Challenges & Opportunities
The Quantified Patient in the Doctor's Office: Challenges & OpportunitiesJi Song
 
생명공학백서 4.1.5
생명공학백서 4.1.5생명공학백서 4.1.5
생명공학백서 4.1.5Leeseul Yeo
 
조정연외 2010 국내외 실행향상프로그램동향분석
조정연외 2010 국내외 실행향상프로그램동향분석조정연외 2010 국내외 실행향상프로그램동향분석
조정연외 2010 국내외 실행향상프로그램동향분석혜원 정
 
Know Your Patient through Data!
Know Your Patient through Data!Know Your Patient through Data!
Know Your Patient through Data!Yoojung Kim
 
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가NAVER D2
 
Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity Jinhan Choi
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향K data
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01Suntae Kim
 
Information retrieval by_suntae_kim
Information retrieval by_suntae_kimInformation retrieval by_suntae_kim
Information retrieval by_suntae_kimSuntae Kim
 
라이프스타일 개선을 돕는 건강스스로지킴이
라이프스타일 개선을 돕는 건강스스로지킴이라이프스타일 개선을 돕는 건강스스로지킴이
라이프스타일 개선을 돕는 건강스스로지킴이Myuserable
 

Similar to Data for project text mining (20)

메타분석 소개
메타분석 소개메타분석 소개
메타분석 소개
 
Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...Perceptions of fear appeal and preference for feedback in tailored health com...
Perceptions of fear appeal and preference for feedback in tailored health com...
 
Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션
Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션
Quantified-Patient: 데이터가 매개하는 환자-의사 커뮤니케이션
 
컬리버55
컬리버55컬리버55
컬리버55
 
2009 생명공학백서 4장
2009 생명공학백서 4장2009 생명공학백서 4장
2009 생명공학백서 4장
 
Applying deep learning to medical data 2 스터디
Applying deep learning to medical data 2 스터디Applying deep learning to medical data 2 스터디
Applying deep learning to medical data 2 스터디
 
The concept of translational research and the role of hospital 2013-09-12 b...
The concept of translational research and the role of hospital   2013-09-12 b...The concept of translational research and the role of hospital   2013-09-12 b...
The concept of translational research and the role of hospital 2013-09-12 b...
 
농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형농업 빅데이터를 활용한 병해충 발생 예측 모형
농업 빅데이터를 활용한 병해충 발생 예측 모형
 
송현주 2007 학습장애 인지증진치료 활용고찰
송현주 2007 학습장애 인지증진치료 활용고찰송현주 2007 학습장애 인지증진치료 활용고찰
송현주 2007 학습장애 인지증진치료 활용고찰
 
The Quantified Patient in the Doctor's Office: Challenges & Opportunities
The Quantified Patient in the Doctor's Office: Challenges & OpportunitiesThe Quantified Patient in the Doctor's Office: Challenges & Opportunities
The Quantified Patient in the Doctor's Office: Challenges & Opportunities
 
생명공학백서 4.1.5
생명공학백서 4.1.5생명공학백서 4.1.5
생명공학백서 4.1.5
 
조정연외 2010 국내외 실행향상프로그램동향분석
조정연외 2010 국내외 실행향상프로그램동향분석조정연외 2010 국내외 실행향상프로그램동향분석
조정연외 2010 국내외 실행향상프로그램동향분석
 
Know Your Patient through Data!
Know Your Patient through Data!Know Your Patient through Data!
Know Your Patient through Data!
 
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가
[1C3]소프트웨어개발 방법론을 건축가에게서만 배워야 하는가
 
Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity Using Context to Reveal Factors that Affect Physical Activity
Using Context to Reveal Factors that Affect Physical Activity
 
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
[2016 데이터 그랜드 컨퍼런스] 6 4(전략,솔루션). 신테카바이오 insilico-임상연구동향
 
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
연구데이터 관리와 데이터 관리 계획서 (DMP) - part01
 
Information retrieval by_suntae_kim
Information retrieval by_suntae_kimInformation retrieval by_suntae_kim
Information retrieval by_suntae_kim
 
라이프스타일 개선을 돕는 건강스스로지킴이
라이프스타일 개선을 돕는 건강스스로지킴이라이프스타일 개선을 돕는 건강스스로지킴이
라이프스타일 개선을 돕는 건강스스로지킴이
 
5.2 최성원
5.2 최성원5.2 최성원
5.2 최성원
 

Data for project text mining

  • 1. 텍스트 마이닝과 워드 임베딩을 이용한 논문 속의 돌연변이-약물 관계 추출 연구 강승우, 김호준, 원성연 지도교수 : 강재우 Text Acquisition References Solution Approach Introduction  Problem statement – pains and needs 2016년 현재 매일 3,000여 편에 달하는 의생명공학 논문들이 쏟아져 나오고 있는 상황이 지만, 많은 양의 논문들을 인간이 직접 읽고 분석하는 것에는 시간적 자원적 제약이 따르고 있음. 따라서 의생명공학 entity 간의 관계를 논문을 꼼꼼히 읽지 않더라도 요약해주는 기술 의 필요성이 존재함. 본 보고서에서는 텍스트 마이닝을 통해 논문 속 돌연변이(Mutation), 유전자(Gene), 약물 (Drug) 등의 Entity 정보를 추출하고, 이들 간의 상관관계를 밝히는 자동화 시스템을 구축하 고자 함.  Importance 구축된 자동화 시스템은 공개된 의생명공학 정보가 효율적으로 활용될 수 있도록 함과 동 시에, 세계의 많은 의생명공학 연구자들을 도움으로써 인류 발전에 이바지함. Related works  많은 문헌들 안에서 특정 entity (약물, 질병 등)들의 관계를 찾아내는 데이터 마이닝에 초점을 두고 문제를 해결 하고 있음.  예를 들면 BEST 및 Polysearch가 있으며 이것은 X entity 의 입력을 받아 모든 가능한 Y entity 의 결과를 끌어냄. (X,Y는 질병, 유전자, 약물 또는 SNP) Polysearch 알고리즘의 핵심 전략은 X, Y entity 사이의 관계가 문헌 abstract 에서 ‘높은 빈도’로 나온다는 것임.[4]  하지만 이 방법은 단순히 ‘높은 빈도'에 집중함으로써 직접적인 관계가 없는 entity 사 이에서도 관계가 있다고 나타낼 수 있음. Experiment / 성능평가 Discussion & Conclusion  Discussion • PubMed word2vec를 사용하여 학습하였을 때 accuracy가 가장 높음. • GoogleNews word2vec을 사용하여 학습하였을 때의 accuracy는 오히려 random initialized word2vec을 사용했을 때의 accuracy보다 더 낮음.  Conclusion • 해당 분야의 context를 가진 word2vec를 사용하였을 때 training의 accuracy가 높아지는 것을 확인할 수 있으며 biomedical에 있어서 PubMed word2vec의 유 용함을 확인함. • 한편 전문적인 분야를 연구하는데 있어서 context를 반영하지 못한 word2vec의 사 용은 오히려 accuracy에 있어서 나쁜 결과를 낼 수 있다는 사실을 확인함. Future work • Mutation – Drug 뿐 아니라 Mutation – Disease, Mutation – Gene 간의 관계에서 만들어낸 Data에도 적용해 model을 만들 수 있다. • 만든 model을 이용해서 PubMed에서 더 많은 Mutation – Drug 관계를 뽑아낼 수 있다. 또한 이를 이미 만들어진 Mutation – Drug 데이터베이스인 GDSC(Genomics of Drug Sensitivity in Cancer) Database와 비교해서 데이터 양이 더 앞서는지 등 을 비교/분석 할 수 있다. 실험 과정 • 앞에서 만든 Manual Curation Data 중 3,417개의 Positive relation과 4,352개의 Negative relation, 총 7,769개의 Data를 학습에 사용함. • 공개된 Tensorflow 코드 (https://github.com/dennybritz/cnn-text-classification-tf) 에서 word2vec 부분을 수정하여 사용함. • 총 5회 학습을 실시하여 나온 accuracy의 평균값을 확인함. • word2vec를 사용하지 않고 random initialization한 경우, GoogleNews word2vec 를 사용한 경우, PubMed word2vec를 사용한 경우 각각을 비교함. 실험 결과 word2vec type Without word2vec GoogleNews word2vec PubMed word2vec Accuracy(%) 73.7 71.8 75.4 1) Mutation Named Entity Recognition(NER) by Pubtator[1] Pubtator 를 이용하여 돌연변이가 들어간 PubMed 의 문서ID(PMID)를 추출함. 이후 coreNLP sentence parser를 이용해 글을 문장 단위로 나눔. 2) Drug NER by BEST entity extractor[2] BEST Entity Extractor 를 이용하여 돌연변이와 약물이 함께 등장하는 문장을 뽑아냄. 3) Making Training/Test sets 뽑아낸 문장들 중 일부를 manual curation 대상으로 지정함. Manual Curation CoreNLP dependent parsing tree word2vec & CNN  의생명공학 전공인이 직접 문장을 읽고 돌연변이와 약물이 서로 관계가 있다면 +1, 관계 가 없다면 -1, 알 수 없거나 상관이 없다면 0으로 표기하여 entity들의 관계를 분류함.(그림1)  본 단계에서 얻어진 관계가 있는 +1 문장은 Positive relation dataset으로, 관계가 없는 - 1 문장은 Negative relation dataset으로 사용.  한 문장 내에는 두 Entity 간의 관계를 추출하는데 도움이 되지 않는 많은 부분이 존재함.  문장내에서 Mutation과 Drug간의 관계를 기술하는 주요부분만을 추출하고자 CoreNLP dependency parser를 이용하여 두 Entity간의 Shortest Dependency Path 를 그림2와 같이 추출함.[3] [1] Wei, Chih-Hsuan, Hung-Yu Kao, and Zhiyong Lu. "PubTator: a web-based text mining tool for assisting biocuration." Nucleic acids research (2013): gkt441. [2] Lee, Sunwon, et al. "BEST: next-generation biomedical entity search tool for knowledge discovery from biomedical literature." PLoS One 11.10 (2016): e0164680. [3] http://stanfordnlp.github.io/CoreNLP/ [4] Cheng, Dean, et al. "PolySearch: a web-based text mining system for extracting relationships between human diseases, genes, mutations, drugs and metabolites." Nucleic acids research 36.suppl 2 (2008): W399-W405. 그림1. Manual Curation의 예시 induce inhibitors nsubj dobj frequency nmod:of regressions nmod:in patients nmod:with melanoma compound V600E The oral BRAF inhibitors vemurafenib and dabrafenib induce a high freque ncy of tumor regressions in patients with BRAF V600E mutant metastatic melanoma. [PMC 3582139] Target Text vemurafenib amod Core NLP Parsed tree 그림2. 문장에서 추출된 Parsed tree Word2vec • word2vec은 특정 단어의 언어학적 문맥을 학습하기 위해서 만들어진 벡터임. • 많은 양의 단어를 입력값으로 받아들여 수백 차원의 벡터공간을 산출해 냄. • 같은 문맥에 쓰이는 두 단어일수록 word2vec의 공간 내에서 가까운 거리에 위치 함. Convolutional-Neural-Network(CNN) • 문장의 한 부분에 대응하는 여러 단계의 CNN이 만들어지고 max-pooling을 통해 해당 CNN들이 이어짐. • 이후 input의 종류에 따라 dropout, ReLu 등의 processing을 거쳐 classification model이 완성됨. 그림3. CNN의 모식도 128x128 Input conv1 conv2 conv3 Max-pooling 64 256 Fully-connected Drop out Soft max Classifier 그림4. word2vec setup별 Accuracy(%) 73.7 71.8 75.4 71 72 73 74 75 76 77 Without word2vec GoogleNews word2vec PubMed word2vec Accuracy(%)