SlideShare a Scribd company logo
1 of 25
甲南高等学校 南 慧
自然言語処理(形態素解析)と機械学習
例文: ちゃうちゃうちゃうちゃうちゃうんちゃう
4文字からなる文章 関西人でもこのままではよくわからない
ちゃうちゃう チャウチャウ ちゃうんちゃう?
(いいえ チャウチャウ犬 ではないでしょ?)
分かち書き:形態素解析
多くの追加情報・文章で、文章が分類できる:機械学習
2
機械学習の分類とクラスター中心
コーパス(文章データベース)
ラベル”関西” : “母は 岩おこし が好き”
ラベル”関西” : “私は お好み焼き が好き”
...
ラベル”関東”: “母は 雷おこし が好き”
ラベル”関東”: ”私は もんじゃ焼き が好き”
これを教師(ラベル)付き機械学習させると、関西と関東を表現する単語クラスター(集団)
ができる。クラスターの中心がラベルをよく表す単語。
さらに、機械学習を用いて、入力された文章を分類できるようになる。
例“うちのおかんが岩おこしがっていうねん” ➡ それなら関西やろ
のように、文章から内容を分類・推定できる。
仮説 ) 塩基配列に適用すると
“タンパク質を大量に合成する”というラベルで教師付き学習をさせると、タンパク質高発
現の塩基配列が抽出できる。
更に、塩基配列を入力すると、発現効率が予測できる。
岩おこし
お好み焼き
母
私
好き
雷おこし
もんじゃ焼き
“関西”を表現する
単語のクラスター
関東を表現する
単語のクラスター
3
文章:タンパク質の発現をコントロールする塩基配列
 タンパク質の遺伝子(塩基配列)の前には、タンパク質の発現量をコント
ロールしている塩基配列がある。
 発現量の大小を表す、4文字の記号(AT(U)GC)からなる文章と扱う。
例)文章(塩基配列)
GGGAATTCCAAGCAACGAACTGCGAGTGATTCAAGAAAAAAGAAAACCTGAGCTTTCGATCTCTACGGAG
TGGTTTCTTGTTCTTTGAAAAAGAGGGGGATTA
どんな風に単語に分ければよいか?
4
単語:2次構造のステムとループ
 仮説:塩基配列の2次構造のステムとループ部分に意味がある
➡ ステムとループを単語として、分かち書き
例)tRNA ループ部分にアミノ酸を指定する重要な意味がある
一次構造
GGGGAUGUAGCUCAUAUGGUAGAGCGCUCGCUUUGCAUGCGAGAGGCACAGGGUUCGAUUCCCUGCAUCUCCA
二次構造
ループ
ステム
ここのループと塩基配列に
重要な意味がある
(図出所:CentroidFold)
5
例) tRNAの配列を分かち書きした例
 CentroidFold(2次構造予測ソフト)を使うと簡単に分かち書きできる
tRNAの塩基配列
① GGGGAUGUAGCUCAUAUGGUAGAGCGCUCGCUUUGCAUGCGAGAGGCACAGGGUUCGAUUCCCUGCAUCUCCA
CentroidFoldによる①の2次構造予測の出力
② GGGGAUGUAGCUCAUAUGGUAGAGCGCUCGCUUUGCAUGCGAGAGGCACAGGGUUCGAUUCCCUGCAUCUCCA
(((((((..((((........)))).(((((.......))))).....(((((.......)))))))))))).
③ GGGGAUG AG CUCA UAUGGUAGA GCG C UCGCU UUGCAUG CGAGA GGCAC AGGGU UCGAUUCC CUGCAUCUCC A
((((((( .. (((( ........ )))) . ((((( ....... ))))) ..... ((((( ....... )))))))))))).
()がステム、 . がループを表す
次の文字が異なる場合にスペースを
挿入すると、分かち書きできる
分かち書き後
6
終点
始点
研究内容:①文章データベース(コーパス)の作成
奈良先端科学技術大学院大学加藤先生から5167種の配列とそれぞれの発現効率
のデータを頂いた。
 RNAfoldを使って、2次構造のステムとループをそれぞれ単語に分解、分か
ち書きし、各文章に発現効率を示すラベル(XS:極小~XL:極大)をつけ、ス
テムとループを区別するために別記号にした。
__label__XL HH GAAUU DD AAGC BBD GA BDV G DHBH U HBVV C BBH
AAAAA BH AAAAC DV GAG DVV UC HBVD U DV A DH G BHV G HVV VDVV G
VVDVVV GAA BBBHBH G HHHB UUA
…
__label__XS HHHBVDH UU V U HD UCCGCUCC HV C B UU DH A BVDVD G
VVVVHHDDH GAA BDDD U BH UUCG DV U HH A HVVHHDDHHBB ACCCUAGAAGCG
5167文
7
研究内容:②機械学習の実行
 Facebook社が様々な言語の文章を分類するために作った、fastTextを使い、①で作ったコーパスを学
習させた。
fastTextはラベル毎に分類精度を最適化するオプションがあり、ラベルXLの分類精度を高めた。
結果)
% ~/fastText/fasttext test-label 5UTRcorpusSMLautotuned2.bin
5UTRcorpusSML.valid
F1-score : 0.624339 Precision : 0.593960 Recall : 0.657993 __label__XS
F1-score : 0.362887 Precision : 0.360656 Recall : 0.36515 __label__S
F1-score : 0.353191 Precision : 0.337398 Recall : 0.370536 __label__L
F1-score : 0.600000 Precision : 0.548638 Recall : 0.661972 __label__XL
F1-score : 0.222222 Precision : 0.311475 Recall : 0.172727 __label__M
この機械学習モデル(学習させた状態)の単語辞書を調べると、大きなタンパク質合成能力(Label_XL)
がある単語(塩基配列)がわかる。
➡ 104次元の単語ベクターから、ラベルXLを持つ単語のベクター重心を求める。
(クラスターの中心)
8
研究内容:③クラスター中心と共起語
 ラベルXLの単語ベクターの重心にユークリッド距離が近い
単語
➡ 最も大量に タンパク質を合成することができる単語
(塩基配列)と考えられる
例) 関西:“岩おこし”, “お好み焼き”
 fastTextでは共起語がコマンドで出力できる
➡ ベクター重心の単語とその単語と共に出現する頻度の高
い単語(共起語)をつなぎ合わせて、発現効率を高める文章(塩
基配列)が作れると考えられる
例)関西:“大黒の岩おこし”, “鶴橋風月のお好み焼き”
9
研究内容:④高発現塩基配列の創製
 クラスター重心に近い単語の組み合わせ(“岩おこし と お好み焼き”法)
ラベルXLのクラスター重心と各単語ベクターの距離を求めた
重心との距離が小さい順に、① CCGCGCUCUCCAUUAUUUC ②AAAUCCGAAUAUACCCUUCUCACCU を得た
①、②と最初に現れたステムの単語③GGUUGUCを連結
結果 CCGCGCUCUCCAUUAUUUUC GGUUGUC AAAUCCGAAUAUACCCUUCUCACCU GACAACC
① ③ ② ③の相補配列
 共起語による組み合わせ(“大黒の 岩おこし”法)
fastTextの nnコマンド(nearest neighbor)で①の共起語を得た
④ ACACACUCUC ⑤ ACUCGUCACCACACACUCCUCC ...
①と④を連結した文(塩基配列文章 左から右に読むので、④を左に配置)
結果 ACACACUCUC CCGCGCUCUCCAUUAUUUUC
④ ①
10
研究内容:⑤利用ソフトウェアと自作プログラム
 核酸の2次構造予測ソフト
RNAfold サーバーもあるが、処理数が多くなるのでスタンドアロンプログラムをインストール
CentroidFold 主にサーバーで利用。2次構造の図を取得。
 自然言語処理ソフト
fastText スタンドアロンプログラムをインストール。
ニューラルネットワークモデルによる学習と、生成された単語辞書を
利用
 自作文字列操作プログラム
C言語のscanf とprintfをつかって、標準入力を標準出力に書き出すターミナルプログラム。
CSV形式からfastText用のコーパスを作成するために制作。
コーパスを作るプログラム実行例)
% ./01preprocess < 5UTR.csv | RNAfold --PS | ./03genewording8char | ./04makecorpusSML > 5UTRcorpus.SML.txt
↑ ↑ ↑ ↑
fasta形式に整形 2次構造予測 分かち書き ラベル付きコーパス作成
11
遺伝子の2次構造のステムとループを単語とみなして、自然言語処理を行い、機械学習を実
施した。
結果、タンパク質の合成量を高めると考えられる新しい単語・文章(塩基配列)が作れるこ
とがわかった。
今回の結果の塩基配列を用いてタンパク質合成を行い発現効率の検証を行いたい。
更に、本研究を進め、タンパク質が必要な再生医療・培養肉をもっと安くし、SDGsに貢献し
てゆきたい。
謝辞:
遺伝子と発現効率のデータをご提供頂いた奈良先端科学技術大学院大学加藤晃准教授と山﨑
将太朗研究員に感謝いたします。
また、CentroidFoldをコンパイルできるようにアップデート頂いた慶應義塾大学佐藤健吾専
任講師に感謝いたします。
まとめ
12
遺伝子分かち書きに関する特許が取得できました。
特許番号: 特許第6843457号
発明の名称:遺伝子配列分かち書き生成装置、遺伝子
コーパス生成装置およびプログラム
内容:本研究内容で述べた、自然言語処理向けに、核酸
の高次構造をその要素毎に分かち書きするプログラム。
その後
13
クラスター重心に近い上位の核酸配列
と、「岩おこしとお好み焼き」法およ
び「大黒屋の岩おこし法」で合成した
核酸配列をエンハンサーとして、GFPを
発現させた。
結果、奈良先端科学技術大学院大学と
NUProtein社が共同で実施したゲノムワ
イド解析で単離できた5’UTRと同等の
性能を持つエンハンサー配列があるこ
とが確認できました。
また、「岩おこしとお好み焼き法」な
らびに「大黒屋の岩おこし法」では、
加算的に翻訳量は向上しないことが示
唆されました。
継続研究 -1-
14
ゲノムワイド解析により
単離されたエンハンサー
クラスター重心近傍の配列
岩
お
こ
し
と
お
好
み
焼
き
法
大
黒
屋
の
岩
お
こ
し
法
愛
媛
大
発
明
の
エ
ン
ハ
ン
サ
ー
先の結果を受け、また慶應義塾大学の佐藤先生が開発された、CentroidFoldの次モデルの
MXFoldを用いて各構造を解析したところ、下記のような特徴的な構造が翻訳効率に影響してい
ることが示唆されました。
特許出願中のため、詳細お伝えできませんが、インシリコで遺伝子特異的に高発現塩基配列を
導出できそうです。
継続研究 -2-
15
MXFold による全長mRNAの
2次構造予測とformaによる可視化
(イメージの部分)
5’
3’
本研究成果含め、タンパク質特に細胞培養に必要な成長因子の合成コストを試算する
と、NUProtein社では従来比1/3000のコストで合成できるようになっています。
具体的には、現状ビーフパティ1個製造するのに必要な成長因子のコストは4万5千円
ぐらいですが、これが15円程度になる模様です。
本研究の成果により、タンパク質の合成単価が下がり、幹細胞培養技術を用いる培養
肉、再生医療製品の価格が大幅に下がり、食の安全保障、温室効果ガスの低減等に寄
与できると考えます。
ご清聴ありがとうございました。
まとめ
16
17
既存の研究との
違い
ラベル化 fastTextについて 2次構造予測
分かち書き ハイパーパラ
メータ
CentroidFold 今後
既存の研究と本研究の違い
 既存の研究(奈良先端大の加藤先生・山崎先生の研究)
塩基配列の色々な物理量を説明変数、発現効率の物理量を目的変数として機械学習を実施
説明変数: 配列の自由エネルギー、先頭からの長さ、モチーフ等の物理量
目的変数: 発現効率(物理量)
例 f(1.1, 3.4, ...) = 0.9 のように全て数値の物理量を使った回帰分析
難しすぎてよくわからなかった(;;)
 本研究
簡単に、大め・少なめ、のような分類が使えるのではないかと考えた。
塩基配列を記号のまま説明変数として扱える。逆に物理量の発現効率は記号に変換した。
説明変数: 配列の文字列
目的変数: 発現効率を示す文字列(“XL”,”L”, “M”, “S”, “XS”)
例 f(“AGC”, “GCG”,..) = “XL”のように記号を使った文章の分類
18
発現効率(PR値)のラベル化について
 加藤先生から頂いたデータのPR値は、0.54~1.28だった。
 最初、0.5から0.2間隔に XS, S, M, L, XLとして学習させると、ほとんどの
場合Lになった。
 そこでPR値の頻度が偏っているのではと思い、頻度を調べたところ、かなり
PR値の高い方に山があることがわかった。
 総数5167で、5つのラベルで同じ程度の
サンプル数になるようにPR値を割り振った。
19
各遺伝子の PR 値の範囲 付与するラベル
PR < 0.98 __label__XS
0.98 ≦ PR < 1.04 __label__S
1.04 ≦ PR < 1.08 __label__M
1.08≦ PR < 1.13 __label__L
1.13≦PR __label__XL
fastTextについて
 fastTextはFacebook社のリサーチチームがgithubに登録しており、ダウンロードコピー(ク
ローンと呼ぶ)が可能である。
fasttextのクローン作成とインストール:
% git clone https://github.com/facebookresearch/fastText.git
% cd fastText
%make
で、~/fastText/fasttext –-help でコマンドの使い方がわかる
 詳細なマニュアル
https://github.com/facebookresearch/fastText#readme
YFUで米国留学していたため、なんとか解読できた;)
 なぜfastTextだったか
fastTextの他に単語のベクター表現を行うツールにはWord2Vec他があったが、
facebook社が作っており、高速で、簡単にインストールできたため。
20
RNAfoldとCentroidFoldについて
 RNAの二次構造ソフトはVienna 大学のRNAfoldが有名で、すぐにインストールできた。
 RNAfold のサーバー http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi
 プログラムパッケージから簡単にインストールができる
https://www.tbi.univie.ac.at/RNA/
 CentroidFoldは、GitHubにのっているものは研究時点ではコンパイルできなかった。
主に、二次構造の図を見るときに使わせて頂いた。
http://rtools.cbrc.jp/centroidfold/
 RNAfoldとCentroidFoldで結果が異なる
同じ配列の2次構造で結果が異なる場合がある
例)結果のP11 ②AAAUCCGAAUAUACCCUUCUCACCUを予測
21
RNAfold CentroidFold
分かち書きの有効性の検証
 分かち書きしたコーパスと分かち書きしないコーパスの2種を作って、fastTextの同じパラ
メータで分類精度を確認した
 分かち書きした場合
プログラムの実行例:
% ~/fastText/fasttext test –5UTRcorpusSML.bin 5UTRcorpusSML.valid
N 1167
P@1 0.359
R@1 0.359
 分かち書きしない場合
プログラムの実行例
% ~/fastText/fasttext test –5UTRcorpusnowordingSML.bin 5UTRcorpusnowordingSML.valid
N 1167
P@1 0.231
R@1 0.231
 2次構造予測による分かち書きで、精度が高くなった
22
fastTextのハイパーパラメータ最適化
 labelXLの予測精度を高めるハイパーパラメータの最適化を行った
% ~/fastText/fasttext supervised –input 5UTRcorpusSML.train –output 5UTRcorpusSMLautotuned2 –autotune-
validation 5UTRcorpusSML.valid –autotune-metric f1:__label__XL autotune-duration 600
 最適化後のハイパーパラメータ
モデルをdumpし、ハイパーパラメータは下記となる
% ~/fastText/fasttext dump 5UTRcorpusSMLautotuned2.bin args
dim 104 (104次元の単語ベクター)
ws 5
epoch 100
minCount 1
neg 5
wordNgrams 1
loss softmax
model sup
bucket 487072
minn 3
maxn 6
lrUpdateRate 100
t 0.0001
23
CentroidFoldを用いた場合
 JSEC論文提出後に、慶応大学佐藤先生にCentroidFoldをコンパイル可能なように改修いただ
いた。
論文の記載はRNAfoldを使用した数値ですが、論文提出後, RNAfold の代わりに、
CentroidFold を使用すると、最適化後の予測精度が10%程度向上した。
RNAfoldを使った際 F1-score : 0.600000 Precision : 0.548638 Recall : 0.661972 __label__XL
CentroidFoldを使った際 F1-score : 0.669643 Precision : 0.638298 Recall : 0.704225 __label__XL
 更に、予測精度が現在世界最高性能のMXFoldをご紹介頂いた。
サーバー版 http://www.dna.bio.keio.ac.jp/mxfold/
パソコンにインストールできた。
24
今後について
 本研究は、下記2部構成の研究の一部です。
-培養肉における日本の法整備の現状と課題
培養肉における法整備の現状と課題.pdf
-再生医療・培養肉で使われるタンパク質を安く提供する技術
自然言語処理と機械学習を用いた遺伝子解析によるたんぱく質合成コスト削減を実現する核酸配列の創製.pdf
 幹細胞培養に必要なタンパク質を安価に提供できる技術と制度整備を行い、
医療・食の両分野でSDGsに貢献したい。
25

More Related Content

What's hot

現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編
現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編
現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編Noriyuki Mizuno
 
10 įdomiausių gamtos reiškinių
10 įdomiausių gamtos reiškinių10 įdomiausių gamtos reiškinių
10 įdomiausių gamtos reiškiniųElvina Tijūnaitytė
 
SDCCオープンネットワークのご紹介【2021/01版】
SDCCオープンネットワークのご紹介【2021/01版】SDCCオープンネットワークのご紹介【2021/01版】
SDCCオープンネットワークのご紹介【2021/01版】ProjectDC-01
 
数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?nishio
 
Jbatch実践入門 #jdt2015
Jbatch実践入門 #jdt2015Jbatch実践入門 #jdt2015
Jbatch実践入門 #jdt2015Norito Agetsuma
 
Rust と Wasmの現実
Rust と Wasmの現実Rust と Wasmの現実
Rust と Wasmの現実ShogoTagami1
 
ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place -
ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place - ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place -
ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place - 啓 杉本
 
実践イカパケット解析α
実践イカパケット解析α実践イカパケット解析α
実践イカパケット解析αYuki Mizuno
 
100 G超通信時代の安定した高品質な伝送インフラ構築づくり
100 G超通信時代の安定した高品質な伝送インフラ構築づくり100 G超通信時代の安定した高品質な伝送インフラ構築づくり
100 G超通信時代の安定した高品質な伝送インフラ構築づくりTomohiro Sakamoto(Onodera)
 
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalkサーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalkHirokazu Ouchi
 

What's hot (15)

現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編
現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編
現状分析→価値開発→仕様化&テスト設計の展開事例解説:仕様&テスト編
 
10 įdomiausių gamtos reiškinių
10 įdomiausių gamtos reiškinių10 įdomiausių gamtos reiškinių
10 įdomiausių gamtos reiškinių
 
SDCCオープンネットワークのご紹介【2021/01版】
SDCCオープンネットワークのご紹介【2021/01版】SDCCオープンネットワークのご紹介【2021/01版】
SDCCオープンネットワークのご紹介【2021/01版】
 
数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?数学的帰納法は帰納ではない?
数学的帰納法は帰納ではない?
 
MySQL at Yahoo! JAPAN #dbts2018
MySQL at Yahoo! JAPAN #dbts2018MySQL at Yahoo! JAPAN #dbts2018
MySQL at Yahoo! JAPAN #dbts2018
 
Jbatch実践入門 #jdt2015
Jbatch実践入門 #jdt2015Jbatch実践入門 #jdt2015
Jbatch実践入門 #jdt2015
 
A2-5 DMARC レポート送信 milter 紹介と最近の傾向
A2-5 DMARC レポート送信 milter 紹介と最近の傾向A2-5 DMARC レポート送信 milter 紹介と最近の傾向
A2-5 DMARC レポート送信 milter 紹介と最近の傾向
 
Rust と Wasmの現実
Rust と Wasmの現実Rust と Wasmの現実
Rust と Wasmの現実
 
ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place -
ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place - ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place -
ドメイン駆動設計の実践例 - 経営管理基盤 fusion_place -
 
実践イカパケット解析α
実践イカパケット解析α実践イカパケット解析α
実践イカパケット解析α
 
[BurpSuiteJapan]Burp Suite回答編
[BurpSuiteJapan]Burp Suite回答編[BurpSuiteJapan]Burp Suite回答編
[BurpSuiteJapan]Burp Suite回答編
 
[BurpSuiteJapan]HTTP基礎入門
[BurpSuiteJapan]HTTP基礎入門[BurpSuiteJapan]HTTP基礎入門
[BurpSuiteJapan]HTTP基礎入門
 
Lispマシン・シミュレータの紹介
Lispマシン・シミュレータの紹介Lispマシン・シミュレータの紹介
Lispマシン・シミュレータの紹介
 
100 G超通信時代の安定した高品質な伝送インフラ構築づくり
100 G超通信時代の安定した高品質な伝送インフラ構築づくり100 G超通信時代の安定した高品質な伝送インフラ構築づくり
100 G超通信時代の安定した高品質な伝送インフラ構築づくり
 
サーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalkサーバ構築・デプロイが簡単に!Elastic beanstalk
サーバ構築・デプロイが簡単に!Elastic beanstalk
 

Similar to 自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC

おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニングMunenori Sugimura
 
形態素解析について
形態素解析について形態素解析について
形態素解析についてtomowata
 
How to read linux kernel
How to read linux kernelHow to read linux kernel
How to read linux kernelNaoya Ito
 
JJUG CCC 2017 Fall オレオレJVM言語を作ってみる
JJUG CCC 2017 Fall オレオレJVM言語を作ってみるJJUG CCC 2017 Fall オレオレJVM言語を作ってみる
JJUG CCC 2017 Fall オレオレJVM言語を作ってみるKoichi Sakata
 
演習:プログラミング言語処理をやってみよう
演習:プログラミング言語処理をやってみよう演習:プログラミング言語処理をやってみよう
演習:プログラミング言語処理をやってみようTakashi Ishio
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27Kensuke Mitsuzawa
 
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築Kanji Takahashi
 

Similar to 自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC (9)

おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニング
 
形態素解析について
形態素解析について形態素解析について
形態素解析について
 
How to read linux kernel
How to read linux kernelHow to read linux kernel
How to read linux kernel
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
JJUG CCC 2017 Fall オレオレJVM言語を作ってみる
JJUG CCC 2017 Fall オレオレJVM言語を作ってみるJJUG CCC 2017 Fall オレオレJVM言語を作ってみる
JJUG CCC 2017 Fall オレオレJVM言語を作ってみる
 
演習:プログラミング言語処理をやってみよう
演習:プログラミング言語処理をやってみよう演習:プログラミング言語処理をやってみよう
演習:プログラミング言語処理をやってみよう
 
Convolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
 
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
 
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築
 

自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製@18th JSEC

Editor's Notes

  1. 「自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製」について発表させていただきます。 甲南高等学校 南慧です。よろしくお願いいたします。
  2. 突然ですが、この例文がすぐに理解できるでしょうか? 4文字だけの文章で、関西人でもなかなか理解できません。 そこで、分かち書きするとだいぶん推測できるようになります。すなわち、分かち書きのように形態素解析して、単語を区切ったり、追加の文章等で単語の意味とか文章が分類できるようになります。
  3. また、自然言語処理では、文章の大規模なデータベースをコーパスと呼びます。 例えば、例のように、“母は岩おこしが好き”という文章と、“私はお好み焼きが好き”という文章に関西のラベルをつけ “母は雷おこしが好き”という文章と”私はもんじゃ焼きが好き”という文章に関東のラベルとつけると、機械学習で、 関西を表現する単語として、岩おこし、お好み焼きの単語が抜き出され、関東を表現する単語として雷おこし、もんじゃ焼きの単語が抜き出され、 それぞれがベクター空間上に配置されます。これによって、たとえば 「うちのおかんが岩おこしがっていうねん」という文章を入力すると、機械学習によって、 それは「ほな関西やろ」、と分類されるわけです。 私は、この仕組みを塩基配列に適用しようと考えました。具体的には、タンパク質を大量に合成する、というラベルを付けて、塩基配列を大量に学習させると、タンパク質を大量に合成する、塩基配列の一部分が特定できるのではないか、また、塩基配列を入力すると大きな合成量になるか小さな合成量になるかが推測できるのではないかと考えました。そこで、
  4. 本研究では、タンパク質の発現をコントロールする塩基配列を文章としてあつかいます。では単語はどうするかですが、
  5. 塩基配列の2次構造に含まれるステムとループに意味があると考えて、この単位で分かち書きをしてみました。
  6. 具体的には、核酸の2次構造を予測するツールとしてVienna大学のRNAFoldあるいは産総研のCentroidFold等を用いると、 ループとステムの部分がわかります。ステムはブラケットとして、ループはドットとして表示されます。そこで、ブラケットとドットの間に区切り文字として空白を配置することで、簡単に 2次構造による分かち書きができるようになります。
  7. 本研究では、奈良先端大学よりお借りした5167種の遺伝子配列とその発現効率の組を用いて単語に分解し、かつ、発現効率を示す物理量を ラベル記号として、それぞれの配列の文章に付与しました。 結果、発現効率を示すラベルとその文章の対が5167分ある、コーパスを作ることができました。
  8. このコーパスをfacebook社が開発した、fastTextを用いて機械学習を行いました。fastTextには、各ラベルの分類精度を最適化するコマンドがあり、 これを最大合成量を示すラベルXLに対して実行しました。 結果、塩基の部分配列を単語として、その単語が104次元の数値データを持ちニューラルネットワークのモデルができました。 この単語は104次元の空間に配置されており、ラベルXLの単語の集合であるクラスターの中心を求めました。
  9. 重心の計算には、エクセルを使いました。ラベルXLの単語クラスターの重心は、冒頭の岩おこし、お好み焼きのような単語で、そのラベルを最も表す単語と言えます。 また、fastTextでは、ある単語が出現した場合に同時に出現する頻度の高い単語、これを共起語とよび、共起語を同定できます。たとえていえば、関西を意味する、岩おこしの場合、岩おこしといえば大黒屋やろ、お好み焼きといえば鶴橋風月や、のように対になって表れる単語になります。
  10. このような考え方から、タンパク質を大量に発現させる塩基配列の作る方法を2つ考えました。 一つはクラスター重心に近い単語を複数組み合わせるものです。名付けて“岩おこしとお好み焼き”法です。具体的にはクラスタ重心に近い単語①と②を 最初に現れたステム単語により接続しました。結果この図のようなダルマ構造の塩基配列となりました。 また、もう一つの方法は共起語の組み合わせです。名付けて“大黒の岩おこし”法です。具体的には、クラスタ重心に近い単語の共起語をfastTextのnnコマンドで取得し、これをつなげたものです。これは、図のように直鎖状の塩基配列になりました。
  11. 本研究では、2次構造の予測ソフトとしてRNAfoldとCentroidFoldを使わせて頂きました。また自然言語処理ソフトとしてFastTextを使い、単語の分散表現とニューラルネットワークモデルによる分類と生成された104次元の単語辞書を利用しました。 幾つかの文字列操作プログラムは自作いたしました。
  12. まとめ
  13. JSECでの発表後になりますが、本研究で発明した、自然言語処理向けに核酸の高次構造を、ステム・ループ等の要素毎に分かち書きするプログラムが日本特許として登録されました。 筆頭発明は私ですが、出願人は父の会社です。
  14. クラスター重心に近い上位の核酸配列と、「岩おこしとお好み焼き」法および「大黒屋の岩おこし」法で合成した核酸配列をエンハンサーとして、GFPを発現させ、その相対蛍光量をグラフにしたものです。 図のレーン1は、従来高い翻訳量を持つとされた愛媛大学が発明したE02と呼ぶ5’UTRエンハンサー配列です。 ID6からは、私が自然言語処理で単離した5’UTR、白抜きのR-15-FHが、奈良先端科学技術大学院加藤教授らがイネのゲノムワイド解析から単離された高発現5’UTRです。 結果、奈良先端科学技術大学院大学とNUProtein社が共同で実施したゲノムワイド解析で単離できた5’UTRと同等の性能を持つエンハンサー配列が含まれていることが確認できました。 また、「岩おこしとお好み焼き法」ならびに「大黒屋の岩お越し法」を用いた核酸の合成では、翻訳量は向上しなことが示唆されました。