SlideShare a Scribd company logo
1 of 29
Download to read offline
@tabris2012
新着論文レビューを
テキストマイニング1.0
:序
YOU ARE (NOT) AWARE.


 統合牧場
 技術開発部第二課
 @tabris2012
統合牧場の構成
                  技術開発部
統合TV番組制作部          第一課
                   第二課



        統合牧場司令部




       美術制作部
統合牧場:技術開発部
第一課:
次世代DNA塩基配列解析技術の開発

第二課:
自然言語処理技術を用いた
ライフサイエンス分野のデータ解析技術の
 開発

…ここの研究の一環として、日本語データの扱いを調
 査・研究しています。
この1年でやったこと
 2011年4月に放牧開始。
 牧場スタッフの仲里さん

  (@chalkless)と相談
→日本語論文の生物学用語を抜き出す
  テキストマイニング
 @gackelNLさんと共に、思い思いの

  マイニング手法を試す日々。
生物分野の日本語文献
 ライフサイエンス統合データベース
  (LSDB)プロジェクト
  (http://lifesciencedb.jp)
 ライフサイエンス新着論文レビュー
(First Author's)
  (http://first.lifesciencedb.jp)
指令:生物学用語を抜き出せ!
 「遺伝子」「核膜」「小胞体」など
  一般的に広く使用されている日本語と、
  これら生物学用語を分離する
 その論文が何を主眼においているのか、

  どんな生物学的発見を伝えたいのかが
  一目で分かるようにする。
自然言語で書かれた文章から抽出
作成したもの: FABS
First Author's
Biological words Search
   ライフサイエンス新着論文レビューの論文
    から、生物学用語を重み付きで
    抜き出すプログラム

 Webブラウザから簡単に利用・操作
 できます
(http://g86.dbcls.jp/~tabris2012/)
日本語文献の解釈
 英語と違い、単語ごとに切断するのが
  難しい
 日本語の形態素解析は、既に研究が
  進んでいる。
英語:
A mouse model of the most aggressive subgroup of
human medulloblastoma.

日本語:
もっとも悪性度の高いヒト髄芽腫サブタイプの新規の
マウスモデルの確立
日本語の形態素解析
 京都大学情報学研究科とNTTが
  共同開発したプログラム
 MeCab
(オープンソース形態素解析エンジン)
 インストールして、コマンドライン
  から実行する
 C++, Perl, Ruby, Python, Javaなどの
  プログラムミング言語から呼び出す
  ことができる
MeCab
        •条件付き確率場
        (CRF)
        •システム辞書と
        ユーザ辞書

        •ユーザ辞書を書き
        換えて、特定の単語の
        確率を高くする。
日本語の生物用語の判別
 文章内で、生物学用語を取り出す
 MeCabで単語ごとに切断して、それらの単
  語にスコア(重み)を与える
 生物学用語と思われる単語のスコアを
  大きくする
  悪性度        10
  ヒト髄芽腫      2281
  サブタイプ      2132
  新規        —(抑制)
  マウスモデル     3549
  確立        —(抑制)
重み付けの方法
      論文内の単語の出現回数




刺激         3   モータータンパク質   2
環境         4   KIF1A       3
マウス        4   海馬          2
脳          3   神経栄養因子      1
影響         1   etc...      ...
重み付けの補正
  事前に用意した生物学用語辞書群
  「細胞」「タンパク質」「神経」など
  一つの論文ではあまり出現しないが、他の
   論文では多く出現する単語を
   調べて、「低頻度語辞書」として登録

刺激       3      モータータンパク質   2→1711
環境       4      KIF1A       3→4297
マウス    4→4111   海馬          2→2873
脳      3→2045   神経栄養因子      1→1211
影響       1      etc...        ...
論文の処理を要求
           Query・Request




結果返却
Response


           サーバで解析・重み付け
WikipediaのCategory:生物学
 •リンク先の記事の
 タイトルを集めて
 Wikipedia辞書を
 作成する。
 •月に1回更新
 •低頻度語辞書を
 Wikipedia辞書に照らし                     生物学

 合わせて、週に1回更新
                         遺伝学               細胞生物学



                   遺伝子         染色体     細胞質    細胞膜
•更新状況はTwitter
ボットで確認できる。
(@FABS_togo)
•呼びかけると適当に
返事もします。
(30分ごとに更新)
今後の開発
 生物論文に依存する部分が大きい
 論文の筆者の造語
 MeCabでは正しく形態素解析できない
  日本語、生物学用語
 手動でユーザ辞書の更新→自動化
 知識抽出
  →生物学用語間の関係性を導く
ライフサイエンス分野での
テキストマイニング
 まだやっている人が少ない
 大量の知識が論文の形を取って増え
  続けている
 計算機による処理が必要不可欠
 試したい手法がある人、
  プログラムで処理してみたい人は、
  ぜひ牧場で研究してみませんか!
           僕と契y(ry
お世話になっている方々
   牧場スタッフの皆さま
   技術補佐員・RAの皆さま
   DBCLSの皆さま

いつもお世話になっております。
来年度もよろしくお願いしますm(_ _)m
次回
新着論文レビューを
テキストマイニング:

   破
論文からの知識抽出
 論文は新たな知識を提供するもの
 読まなくても、その論文が新たに示唆す
  る知識だけを得たい
 さらに言えば、コンピュータが多くの論文
  を自動解釈し、知識データベースを勝手
  に作成してくれると良い
 人は検索ツールをつかって調べるだけ
Q. 論文単体しか見ないのですか
 プログラムの実行時には、基本的には要
  求された論文しか対象にしていません。
 しかし、プログラムは実行して得られた結
  果を学習し、次回以降の実行に生かせる
  ようにしています
 詳しくはプログラムのウェブページに記
  載しています

More Related Content

Viewers also liked

Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレートKei Uchiumi
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep LearningYuya Unno
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類Kouhei Nakaji
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端Yuya Unno
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出Shuyo Nakatani
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜Yuya Unno
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来Preferred Networks
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論Naoaki Okazaki
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習Masaki Saito
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...Yuya Unno
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理Yuya Unno
 

Viewers also liked (14)

Crfと素性テンプレート
Crfと素性テンプレートCrfと素性テンプレート
Crfと素性テンプレート
 
「知識」のDeep Learning
「知識」のDeep Learning「知識」のDeep Learning
「知識」のDeep Learning
 
LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類LDAを用いた教師なし単語分類
LDAを用いた教師なし単語分類
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端企業における自然言語処理技術利用の最先端
企業における自然言語処理技術利用の最先端
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
 
情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜情報抽出入門 〜非構造化データを構造化させる技術〜
情報抽出入門 〜非構造化データを構造化させる技術〜
 
形態素解析の過去・現在・未来
形態素解析の過去・現在・未来形態素解析の過去・現在・未来
形態素解析の過去・現在・未来
 
深層ニューラルネットワーク による知識の自動獲得・推論
深層ニューラルネットワークによる知識の自動獲得・推論深層ニューラルネットワークによる知識の自動獲得・推論
深層ニューラルネットワーク による知識の自動獲得・推論
 
条件付き確率場の推論と学習
条件付き確率場の推論と学習条件付き確率場の推論と学習
条件付き確率場の推論と学習
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
深層学習時代の自然言語処理
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
 

Similar to 生物学論文マイニング

データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~Hidemasa Bono
 
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...奈良先端大 情報科学研究科
 
博士論文 中間報告会 Interim presentation of doctor thesis 20200203
博士論文 中間報告会 Interim presentation of doctor thesis 20200203博士論文 中間報告会 Interim presentation of doctor thesis 20200203
博士論文 中間報告会 Interim presentation of doctor thesis 20200203Takumi Nagasawa
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状Takeru Nakazato
 
バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)Hidemasa Bono
 
A survery of topic model in bioinformatics
A survery of topic model in bioinformaticsA survery of topic model in bioinformatics
A survery of topic model in bioinformaticsTsukasa Fukunaga
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)pinmarch_t Tada
 
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンクDNA Data Bank of Japan center
 

Similar to 生物学論文マイニング (10)

Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法Ajacs33 文献の検索とその整理方法
Ajacs33 文献の検索とその整理方法
 
第52回生命科学夏の学校
第52回生命科学夏の学校第52回生命科学夏の学校
第52回生命科学夏の学校
 
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
データベースから始まる分子生物学~トランスクリプトーム解析研究の新しいスタイル~
 
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
KNApSAcK Family Databases: Integrated Metabolite–Plant Species Databases for ...
 
博士論文 中間報告会 Interim presentation of doctor thesis 20200203
博士論文 中間報告会 Interim presentation of doctor thesis 20200203博士論文 中間報告会 Interim presentation of doctor thesis 20200203
博士論文 中間報告会 Interim presentation of doctor thesis 20200203
 
ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状ライフサイエンスデータベースの現状
ライフサイエンスデータベースの現状
 
バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)バイオインフォマティクス(2013年度以降用改訂版)
バイオインフォマティクス(2013年度以降用改訂版)
 
A survery of topic model in bioinformatics
A survery of topic model in bioinformaticsA survery of topic model in bioinformatics
A survery of topic model in bioinformatics
 
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
SNPのオープンデータを覗き見る TokyoWebmining #47 (2015.06.27)
 
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
[All in-one2017] 「生命の素子」のカタチのデータベース: 蛋質構造データバンク
 

Recently uploaded

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Recently uploaded (9)

モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

生物学論文マイニング