SlideShare a Scribd company logo
1 of 37
電子カルテからの医療用語抽出 豊田工業大学 知能数理研究室 07002 石原健太 1
本日の発表の流れ 研究概要・目的 研究背景(自然言語処理と機械学習) 研究システムの概要 システム設計 実験結果と考察 結論 2
研究概要・目的 電子カルテから医療用語を抽出する. 医療用語->患者の状態や,施術,発生している問題など 電子カルテ->医師によって自然言語で記述された診断書.        医療現場において医師の診断補助に用いることを目標とする. 3
研究背景(自然言語処理) 人間が書いた,文法性を持った文章を解析する技術 固有表現抽出はなかでも本研究と類似している. 大きく分けて2種類の方法. 1:抽出のルールを設けて抽出 2:前後の文脈から確率的に推定(機械学習) 人手でルールベースを管理することは非常に難しい  ->そこで2の機械学習を用いて尤もらしいものを推定 4
研究背景(機械学習) 条件付き確率場(CRFs: Conditional Random Fields) 入力だけに出力が依存することはなく文脈を取り込める.また各単語に対し豊富に特徴を加えることができる. 本研究ではCRFsのツールCRF++ を用いて機械学習を行う. 5
本日の発表の流れ 研究概要・目的 研究背景(自然言語処理と機械学習) システムの概要 システム設計 実験結果と考察 結論 6
システムの概要 7 学習用 電子カルテ 評価用 電子カルテ 解析済学習 コーパス 解析済評価用コーパス モデル CRF CRF 結果
システムの概要 8 学習用 電子カルテ テスト用 電子カルテ この部分はCRF++を用いている ので変更出来ることはない. 解析済学習 コーパス 解析済テスト コーパス モデル CRF CRF 結果
システムの概要   9 学習用 電子カルテ テスト用 電子カルテ 解析済学習 コーパス 解析済評価用コーパス モデル CRF CRF 電子カルテをどう解析するか, どのような特徴を付けたのかが研究の中心になる 結果
本日の発表の流れ 研究概要・目的 研究背景(自然言語処理と機械学習) システムの概要 システム設計 実験結果と考察 結論 10
システムの設計 電子カルテを解析するにはどうするか?(CRFのための特徴付け) ①自然言語処理を用いて形態素解析を行う ここでは言語的意味を付与している. ②辞書を用いて分かち書きされた単語に,意味を付与する. ③表記を利用した物 11
システムの設計(形態素解析) GENIA taggerを用いて解析 入力単語の原形 POSタグ(品詞) チャンクタグ(句形) 生物学用語 電子カルテ GENIA Tagger 12
システムの設計(形態素解析) ①   ② ③  ④  ⑤ ⑥ ⑦ ⑧ ⑨  ⑩ ********************************* ********************************* ********************************* ********************************* ********************************* ********************************* ********************************* ①単語  ②単語の原形 ③POS ④チャンク ⑤生物学用語 ⑥最出文字種類 ⑦単語の後ろ3文字 ⑨tf-idf ⑩Wikipediaカテゴリ 13
システムの設計(意味付与) 電子カルテを解析するにはどうするか?(CRFのための特徴付け) ①自然言語処理を用いて形態素解析を行う ただし分かち書きはされているので主に品詞付け ②辞書を用いて分かち書きされた単語に,意味を付与する. ③表記を利用した物 14
システムの設計(意味付与) Wikipediaを用いて意味付与を行う. 記事本体を用いずにカテゴリ構造を用いる Wikipediaの各記事やカテゴリは親カテゴリに所属していて,それらはWikipediaが定める基本的なカテゴリへ辿ることができる. 15
Wikipediaのカテゴリネットワーク 基本カテゴリ1 基本カテゴリ2 カテゴリC カテゴリA カテゴリB カテゴリD カテゴリE 記事A 記事B 16
基本カテゴリ1 基本カテゴリ2 カテゴリC カテゴリA ある記事がどのカテゴリに最も強く属しているか 白川らのBVG(Basic Vector Generation)法を用いて測定 カテゴリB カテゴリD カテゴリE 記事A 記事B Wikipediaのカテゴリネットワーク 17
BVG法 基本カテゴリ1 基本カテゴリ2 カテゴリC カテゴリA カテゴリB カテゴリD カテゴリE 記事A 記事B
BVG法 基本カテゴリ1 基本カテゴリ2 カテゴリC カテゴリA カテゴリB カテゴリD カテゴリE 記事A 記事B
BVG法 基本カテゴリ1 基本カテゴリ2 カテゴリC カテゴリA カテゴリB カテゴリD カテゴリE 記事A 記事B
BVG法 BVG法は次の式で与えられる 𝐼(𝑤𝑖, 𝑣𝑖)=l=1n1d(tl)  dtl=2tl  (G={W,V,E} ,𝑤𝑖∈𝑊 ,𝑣𝑖∈𝑉,tl:𝑤𝑖から𝑣𝑖へのホップ数) 先程の例では𝐼𝐴,1=12𝟑+12𝟒+12𝟒 = 0.25 I(A,2)についても同様に行う.  
システムの設計(意味付与) ①   ② ③  ④  ⑤ ⑥ ⑦ ⑧ ⑨  ⑩ ********************************* ********************************* ********************************* ********************************* ********************************* ********************************* ********************************* ①単語  ②単語の原形 ③POS ④チャンク ⑤生物学用語 ⑥最出文字種類 ⑦単語の後ろ3文字 ⑨tf-idf ⑩Wikipediaカテゴリ 22
システムの設計(表記を用いたもの) 電子カルテを解析するにはどうするか?(CRFのための特徴付け) ①自然言語処理を用いて形態素解析を行う ただし分かち書きはされているので主に品詞付け ②辞書を用いて分かち書きされた単語に,意味を付与する. ③表記を利用した物 23
システムの設計(表記を用いたもの) 分かち書き後の単語から直接判断 単語の後ろ3文字(3文字以下は$) 分かち書き後 の電子カルテ 単語が含む文字の種類 {アルファベット(W),数字(F),記号(S)} 最も多く含む種類と単純に含んでいる全てもの 単語のtf-idf値(順位で*を用いて表現) 24
システムの設計(最終的な形) ①   ② ③  ④  ⑤ ⑥ ⑦ ⑧ ⑨  ⑩ ********************************* ********************************* ********************************* ********************************* ********************************* ********************************* *********************************   ①単語  ②単語の原形 ③POS ④チャンク ⑤プロテインタイプ ⑥最出文字種類 ⑦単語の後ろ3文字 ⑨tf-idf ⑩Wikipediaカテゴリ 25
********************************* ********************************* ********************************* ********************************* ********************************* ********************************* ********************************* 学習用 電子カルテ 評価用 電子カルテ 解析済学習 コーパス 解析済評価用コーパス モデル CRF CRF 結果 実験環境 26
本日の発表の流れ 研究概要・目的 研究背景(自然言語処理と機械学習) システムの概要 システム設計 実験結果と考察 結論 27
実験環境 表 各データセットの大きさ 表 各データセット中のコンセプト毎の正解数 28
実験環境 評価方法 適合率=システムが解答したうちの正解数システムが解答したもの 再現率=システムが解答したうちの正解数テストファイル全体の正解数 F値=21適合率+1再現率   29
実験結果 表 単語のみを特徴とした場合(ベースライン) 表 上記で述べた特徴で学習を行った場合 30
実験結果 表 上記二つの表を比較した結果 結果的に精度(F値)0.0494だけ上昇. しかしコンセプトによって再現率・適合率・F値の変化が異なる. 31
考察 全ての値が上昇していればいいがProblemの適合率が下がっている ->不正解のものが増えた.不正解の中の33%は部分的な間違いで他のコンセプトに比べ多い. かつコンセプトごとに上昇値が違ってた ->特徴を画一的に加えるのではなく,コンセプトごとに検討する必要性がある. 32
本日の発表の流れ 研究概要・目的 研究背景(自然言語処理と機械学習) システムの概要 システム設計 実験結果と考察 結論 33
まとめ 概要:電子カルテからの機械学習を用いた医療用語抽出 目的:医師の診断補助 結果:F値が0.77.ベースラインと比較し0.049だけ上昇 34
結論-今後の課題- 精度上昇に向けた課題: コンセプトに合わせた特徴選択  ->例えばWikipediaのカテゴリを基底カテゴリではない物に変更する. コンセプトごとに扱っている事象が違っているので,検討の余地はある. 新たな特徴の発見  ->今回用いていないUMLS(医療辞書など)を用いる. 35
結論-今後の課題- 精度を上げること以外にも: 最適特徴選択/発見の為のフレームワーク 多言語(日本語・ドイツ語)への適用 システムの使いやすさ等 導入に向けての問題は山積している. 36
知能数理研 石原健太 卒研発表 ありがとうございました. 37

More Related Content

What's hot

What's hot (20)

[DL輪読会]A Hierarchical Latent Vector Model for Learning Long-Term Structure in...
[DL輪読会]A Hierarchical Latent Vector Model for Learning Long-Term Structure in...[DL輪読会]A Hierarchical Latent Vector Model for Learning Long-Term Structure in...
[DL輪読会]A Hierarchical Latent Vector Model for Learning Long-Term Structure in...
 
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
 
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...
[DL輪読会]Grandmaster level in StarCraft II using multi-agent reinforcement lear...
 
文献紹介:Image Segmentation Using Deep Learning: A Survey
文献紹介:Image Segmentation Using Deep Learning: A Survey文献紹介:Image Segmentation Using Deep Learning: A Survey
文献紹介:Image Segmentation Using Deep Learning: A Survey
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
[DL Hacks] Objects as Points
[DL Hacks] Objects as Points[DL Hacks] Objects as Points
[DL Hacks] Objects as Points
 
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
High-impact Papers in Computer Vision: 歴史を変えた/トレンドを創る論文
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)三次元表現まとめ(深層学習を中心に)
三次元表現まとめ(深層学習を中心に)
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開 畳み込みネットワークによる高次元信号復元と異分野融合への展開
畳み込みネットワークによる高次元信号復元と異分野融合への展開
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチMIRU2013チュートリアル:SIFTとそれ以降のアプローチ
MIRU2013チュートリアル:SIFTとそれ以降のアプローチ
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
Structured Light 技術俯瞰
Structured Light 技術俯瞰Structured Light 技術俯瞰
Structured Light 技術俯瞰
 
【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents
 

Viewers also liked

卒業論文のプレゼン
卒業論文のプレゼン卒業論文のプレゼン
卒業論文のプレゼン
soichirooo
 
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
純平 伊東
 

Viewers also liked (10)

卒論の書き方講座 2013
卒論の書き方講座 2013卒論の書き方講座 2013
卒論の書き方講座 2013
 
見ててつらぽよなスライドVer1.2
見ててつらぽよなスライドVer1.2見ててつらぽよなスライドVer1.2
見ててつらぽよなスライドVer1.2
 
見ててつらぽよなスライド
見ててつらぽよなスライド見ててつらぽよなスライド
見ててつらぽよなスライド
 
Github勉強会
Github勉強会Github勉強会
Github勉強会
 
卒業論文のプレゼン
卒業論文のプレゼン卒業論文のプレゼン
卒業論文のプレゼン
 
今年の卒論はGithubで決まり!
今年の卒論はGithubで決まり!今年の卒論はGithubで決まり!
今年の卒論はGithubで決まり!
 
卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平卒論パワポVer3 伊東純平
卒論パワポVer3 伊東純平
 
卒業研究発表のスライド
卒業研究発表のスライド卒業研究発表のスライド
卒業研究発表のスライド
 
卒業論文プレゼン
卒業論文プレゼン卒業論文プレゼン
卒業論文プレゼン
 
卒論に必要なWordテクニック
卒論に必要なWordテクニック卒論に必要なWordテクニック
卒論に必要なWordテクニック
 

Similar to 【石】[Win版]卒研発表スライド

正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して
正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して
正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して
Eizen Kimura
 

Similar to 【石】[Win版]卒研発表スライド (11)

Ismb2018yomi ibe
Ismb2018yomi ibeIsmb2018yomi ibe
Ismb2018yomi ibe
 
正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して
正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して
正確性・連続性に関する考察 openEHRにおけるProblemの扱いの調査を通して
 
140123 臨床研究は手間暇かけて丁寧に
140123 臨床研究は手間暇かけて丁寧に140123 臨床研究は手間暇かけて丁寧に
140123 臨床研究は手間暇かけて丁寧に
 
診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例診断研究メタアナリシス報告事例
診断研究メタアナリシス報告事例
 
日本臨床試験学会 第8回学術集会総会 アガサ共催セミナー「臨床研究をITで効率化する」(東京⼥⼦医科⼤学 生田聡子先生)
日本臨床試験学会 第8回学術集会総会 アガサ共催セミナー「臨床研究をITで効率化する」(東京⼥⼦医科⼤学 生田聡子先生)日本臨床試験学会 第8回学術集会総会 アガサ共催セミナー「臨床研究をITで効率化する」(東京⼥⼦医科⼤学 生田聡子先生)
日本臨床試験学会 第8回学術集会総会 アガサ共催セミナー「臨床研究をITで効率化する」(東京⼥⼦医科⼤学 生田聡子先生)
 
20161106予測指標の作り方当日1031 配布版
20161106予測指標の作り方当日1031  配布版20161106予測指標の作り方当日1031  配布版
20161106予測指標の作り方当日1031 配布版
 
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS KashiwaCytoscape Ecosystem Presentation at DBCLS Kashiwa
Cytoscape Ecosystem Presentation at DBCLS Kashiwa
 
耳研究概要 耳科学領域の研究のひろがり
耳研究概要 耳科学領域の研究のひろがり耳研究概要 耳科学領域の研究のひろがり
耳研究概要 耳科学領域の研究のひろがり
 
データベース研究の報告
データベース研究の報告データベース研究の報告
データベース研究の報告
 
シリコンバレー比較20171030小柳
シリコンバレー比較20171030小柳シリコンバレー比較20171030小柳
シリコンバレー比較20171030小柳
 
20161027 srws@kameda第二回系統的検索その1central
20161027 srws@kameda第二回系統的検索その1central20161027 srws@kameda第二回系統的検索その1central
20161027 srws@kameda第二回系統的検索その1central
 

【石】[Win版]卒研発表スライド