自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製＠18th JSEC

自然言語処理（形態素解析）と機械学習
例文：ちゃうちゃうちゃうちゃうちゃうんちゃう
４文字からなる文章関西人でもこのままではよくわからない
ちゃうちゃうチャウチャウちゃうんちゃう？
（いいえチャウチャウ犬ではないでしょ？）
分かち書き：形態素解析
多くの追加情報・文章で、文章が分類できる：機械学習
2

機械学習の分類とクラスター中心
コーパス(文章データベース）
ラベル”関西” ： “母は岩おこしが好き”
ラベル”関西” ： “私はお好み焼きが好き”
...
ラベル”関東”： “母は雷おこしが好き”
ラベル”関東”： ”私はもんじゃ焼きが好き”
これを教師(ラベル)付き機械学習させると、関西と関東を表現する単語クラスター（集団）
ができる。クラスターの中心がラベルをよく表す単語。
さらに、機械学習を用いて、入力された文章を分類できるようになる。
例“うちのおかんが岩おこしがっていうねん” ➡ それなら関西やろ
のように、文章から内容を分類・推定できる。
仮説 ) 塩基配列に適用すると
“タンパク質を大量に合成する”というラベルで教師付き学習をさせると、タンパク質高発
現の塩基配列が抽出できる。
更に、塩基配列を入力すると、発現効率が予測できる。
岩おこし
お好み焼き
母
私
好き
雷おこし
もんじゃ焼き
“関西”を表現する
単語のクラスター
関東を表現する
単語のクラスター
3

文章：タンパク質の発現をコントロールする塩基配列
 タンパク質の遺伝子（塩基配列）の前には、タンパク質の発現量をコント
ロールしている塩基配列がある。
 発現量の大小を表す、４文字の記号(AT(U)GC)からなる文章と扱う。
例）文章（塩基配列）
GGGAATTCCAAGCAACGAACTGCGAGTGATTCAAGAAAAAAGAAAACCTGAGCTTTCGATCTCTACGGAG
TGGTTTCTTGTTCTTTGAAAAAGAGGGGGATTA
どんな風に単語に分ければよいか？
4

単語：２次構造のステムとループ
 仮説：塩基配列の２次構造のステムとループ部分に意味がある
➡ ステムとループを単語として、分かち書き
例）tRNA ループ部分にアミノ酸を指定する重要な意味がある
一次構造
GGGGAUGUAGCUCAUAUGGUAGAGCGCUCGCUUUGCAUGCGAGAGGCACAGGGUUCGAUUCCCUGCAUCUCCA
二次構造
ループ
ステム
ここのループと塩基配列に
重要な意味がある
(図出所：CentroidFold）
5

例） tRNAの配列を分かち書きした例
 CentroidFold（２次構造予測ソフト）を使うと簡単に分かち書きできる
tRNAの塩基配列
① GGGGAUGUAGCUCAUAUGGUAGAGCGCUCGCUUUGCAUGCGAGAGGCACAGGGUUCGAUUCCCUGCAUCUCCA
CentroidFoldによる①の２次構造予測の出力
② GGGGAUGUAGCUCAUAUGGUAGAGCGCUCGCUUUGCAUGCGAGAGGCACAGGGUUCGAUUCCCUGCAUCUCCA
(((((((..((((........)))).(((((.......))))).....(((((.......)))))))))))).
③ GGGGAUG AG CUCA UAUGGUAGA GCG C UCGCU UUGCAUG CGAGA GGCAC AGGGU UCGAUUCC CUGCAUCUCC A
((((((( .. (((( ........ )))) . ((((( ....... ))))) ..... ((((( ....... )))))))))))).
（）がステム、 . がループを表す
次の文字が異なる場合にスペースを
挿入すると、分かち書きできる
分かち書き後
6
終点
始点

研究内容:①文章データベース（コーパス）の作成
奈良先端科学技術大学院大学加藤先生から5167種の配列とそれぞれの発現効率
のデータを頂いた。
 RNAfoldを使って、２次構造のステムとループをそれぞれ単語に分解、分か
ち書きし、各文章に発現効率を示すラベル(XS:極小～XL：極大)をつけ、ス
テムとループを区別するために別記号にした。
__label__XL HH GAAUU DD AAGC BBD GA BDV G DHBH U HBVV C BBH
AAAAA BH AAAAC DV GAG DVV UC HBVD U DV A DH G BHV G HVV VDVV G
VVDVVV GAA BBBHBH G HHHB UUA
…
__label__XS HHHBVDH UU V U HD UCCGCUCC HV C B UU DH A BVDVD G
VVVVHHDDH GAA BDDD U BH UUCG DV U HH A HVVHHDDHHBB ACCCUAGAAGCG
5167文
7

研究内容:②機械学習の実行
 Facebook社が様々な言語の文章を分類するために作った、fastTextを使い、①で作ったコーパスを学
習させた。
fastTextはラベル毎に分類精度を最適化するオプションがあり、ラベルXLの分類精度を高めた。
結果）
% ~/fastText/fasttext test-label 5UTRcorpusSMLautotuned2.bin
5UTRcorpusSML.valid
F1-score : 0.624339 Precision : 0.593960 Recall : 0.657993 __label__XS
F1-score : 0.362887 Precision : 0.360656 Recall : 0.36515 __label__S
F1-score : 0.353191 Precision : 0.337398 Recall : 0.370536 __label__L
F1-score : 0.600000 Precision : 0.548638 Recall : 0.661972 __label__XL
F1-score : 0.222222 Precision : 0.311475 Recall : 0.172727 __label__M
この機械学習モデル（学習させた状態）の単語辞書を調べると、大きなタンパク質合成能力(Label_XL)
がある単語（塩基配列）がわかる。
➡ 104次元の単語ベクターから、ラベルXLを持つ単語のベクター重心を求める。
(クラスターの中心）
8

研究内容:③クラスター中心と共起語
 ラベルＸＬの単語ベクターの重心にユークリッド距離が近い
単語
➡ 最も大量にタンパク質を合成することができる単語
（塩基配列）と考えられる
例) 関西：“岩おこし”, “お好み焼き”
 fastTextでは共起語がコマンドで出力できる
➡ ベクター重心の単語とその単語と共に出現する頻度の高
い単語(共起語)をつなぎ合わせて、発現効率を高める文章（塩
基配列）が作れると考えられる
例）関西：“大黒の岩おこし”, “鶴橋風月のお好み焼き”
9

研究内容:④高発現塩基配列の創製
 クラスター重心に近い単語の組み合わせ(“岩おこしとお好み焼き”法)
ラベルXLのクラスター重心と各単語ベクターの距離を求めた
重心との距離が小さい順に、① CCGCGCUCUCCAUUAUUUC ②AAAUCCGAAUAUACCCUUCUCACCU を得た
①、②と最初に現れたステムの単語③GGUUGUCを連結
結果 CCGCGCUCUCCAUUAUUUUC GGUUGUC AAAUCCGAAUAUACCCUUCUCACCU GACAACC
① ③ ② ③の相補配列
 共起語による組み合わせ(“大黒の岩おこし”法)
fastTextの nnコマンド(nearest neighbor)で①の共起語を得た
④ ACACACUCUC ⑤ ACUCGUCACCACACACUCCUCC ...
①と④を連結した文（塩基配列文章左から右に読むので、④を左に配置)
結果 ACACACUCUC CCGCGCUCUCCAUUAUUUUC
④ ①
10

研究内容:⑤利用ソフトウェアと自作プログラム
 核酸の２次構造予測ソフト
RNAfold サーバーもあるが、処理数が多くなるのでスタンドアロンプログラムをインストール
CentroidFold 主にサーバーで利用。２次構造の図を取得。
 自然言語処理ソフト
fastText スタンドアロンプログラムをインストール。
ニューラルネットワークモデルによる学習と、生成された単語辞書を
利用
 自作文字列操作プログラム
C言語のscanf とprintfをつかって、標準入力を標準出力に書き出すターミナルプログラム。
CSV形式からfastText用のコーパスを作成するために制作。
コーパスを作るプログラム実行例)
% ./01preprocess < 5UTR.csv | RNAfold --PS | ./03genewording8char | ./04makecorpusSML > 5UTRcorpus.SML.txt
↑ ↑ ↑ ↑
fasta形式に整形２次構造予測分かち書きラベル付きコーパス作成
11

遺伝子の２次構造のステムとループを単語とみなして、自然言語処理を行い、機械学習を実
施した。
結果、タンパク質の合成量を高めると考えられる新しい単語・文章（塩基配列）が作れるこ
とがわかった。
今回の結果の塩基配列を用いてタンパク質合成を行い発現効率の検証を行いたい。
更に、本研究を進め、タンパク質が必要な再生医療・培養肉をもっと安くし、SDGsに貢献し
てゆきたい。
謝辞：
遺伝子と発現効率のデータをご提供頂いた奈良先端科学技術大学院大学加藤晃准教授と山﨑
将太朗研究員に感謝いたします。
また、CentroidFoldをコンパイルできるようにアップデート頂いた慶應義塾大学佐藤健吾専
任講師に感謝いたします。
まとめ
12

遺伝子分かち書きに関する特許が取得できました。
特許番号：特許第６８４３４５７号
発明の名称：遺伝子配列分かち書き生成装置、遺伝子
コーパス生成装置およびプログラム
内容：本研究内容で述べた、自然言語処理向けに、核酸
の高次構造をその要素毎に分かち書きするプログラム。
その後
13

クラスター重心に近い上位の核酸配列
と、「岩おこしとお好み焼き」法およ
び「大黒屋の岩おこし法」で合成した
核酸配列をエンハンサーとして、GFPを
発現させた。
結果、奈良先端科学技術大学院大学と
NUProtein社が共同で実施したゲノムワ
イド解析で単離できた5’UTRと同等の
性能を持つエンハンサー配列があるこ
とが確認できました。
また、「岩おこしとお好み焼き法」な
らびに「大黒屋の岩おこし法」では、
加算的に翻訳量は向上しないことが示
唆されました。
継続研究 -1-
14
ゲノムワイド解析により
単離されたエンハンサー
クラスター重心近傍の配列
岩
お
こ
し
と
お
好
み
焼
き
法
大
黒
屋
の
岩
お
こ
し
法
愛
媛
大
発
明
の
エ
ン
ハ
ン
サ
ー

先の結果を受け、また慶應義塾大学の佐藤先生が開発された、CentroidFoldの次モデルの
MXFoldを用いて各構造を解析したところ、下記のような特徴的な構造が翻訳効率に影響してい
ることが示唆されました。
特許出願中のため、詳細お伝えできませんが、インシリコで遺伝子特異的に高発現塩基配列を
導出できそうです。
継続研究 -2-
15
MXFold による全長mRNAの
2次構造予測とformaによる可視化
（イメージの部分）
5’
3’

本研究成果含め、タンパク質特に細胞培養に必要な成長因子の合成コストを試算する
と、NUProtein社では従来比1/3000のコストで合成できるようになっています。
具体的には、現状ビーフパティ１個製造するのに必要な成長因子のコストは4万5千円
ぐらいですが、これが15円程度になる模様です。
本研究の成果により、タンパク質の合成単価が下がり、幹細胞培養技術を用いる培養
肉、再生医療製品の価格が大幅に下がり、食の安全保障、温室効果ガスの低減等に寄
与できると考えます。
ご清聴ありがとうございました。
まとめ
16

17
既存の研究との
違い
ラベル化 fastTextについて 2次構造予測
分かち書きハイパーパラ
メータ
CentroidFold 今後

既存の研究と本研究の違い
 既存の研究(奈良先端大の加藤先生・山崎先生の研究）
塩基配列の色々な物理量を説明変数、発現効率の物理量を目的変数として機械学習を実施
説明変数：配列の自由エネルギー、先頭からの長さ、モチーフ等の物理量
目的変数：発現効率（物理量）
例 f(1.1, 3.4, ...) = 0.9 のように全て数値の物理量を使った回帰分析
難しすぎてよくわからなかった(；；)
 本研究
簡単に、大め・少なめ、のような分類が使えるのではないかと考えた。
塩基配列を記号のまま説明変数として扱える。逆に物理量の発現効率は記号に変換した。
説明変数：配列の文字列
目的変数：発現効率を示す文字列(“XL”,”L”, “M”, “S”, “XS”)
例 f(“AGC”, “GCG”,..) = “XL”のように記号を使った文章の分類
18

発現効率(PR値)のラベル化について
 加藤先生から頂いたデータのPR値は、0.54～1.28だった。
 最初、0.5から0.2間隔に XS, S, M, L, XLとして学習させると、ほとんどの
場合Lになった。
 そこでPR値の頻度が偏っているのではと思い、頻度を調べたところ、かなり
PR値の高い方に山があることがわかった。
 総数5167で、5つのラベルで同じ程度の
サンプル数になるようにPR値を割り振った。
19
各遺伝子の PR 値の範囲付与するラベル
PR < 0.98 __label__XS
0.98 ≦ PR < 1.04 __label__S
1.04 ≦ PR < 1.08 __label__M
1.08≦ PR < 1.13 __label__L
1.13≦PR __label__XL

fastTextについて
 fastTextはFacebook社のリサーチチームがgithubに登録しており、ダウンロードコピー（ク
ローンと呼ぶ）が可能である。
fasttextのクローン作成とインストール：
% git clone https://github.com/facebookresearch/fastText.git
% cd fastText
%make
で、~/fastText/fasttext –-help でコマンドの使い方がわかる
 詳細なマニュアル
https://github.com/facebookresearch/fastText#readme
YFUで米国留学していたため、なんとか解読できた；）
 なぜfastTextだったか
fastTextの他に単語のベクター表現を行うツールにはWord2Vec他があったが、
facebook社が作っており、高速で、簡単にインストールできたため。
20

RNAfoldとCentroidFoldについて
 RNAの二次構造ソフトはVienna 大学のRNAfoldが有名で、すぐにインストールできた。
 RNAfold のサーバー http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi
 プログラムパッケージから簡単にインストールができる
https://www.tbi.univie.ac.at/RNA/
 CentroidFoldは、GitHubにのっているものは研究時点ではコンパイルできなかった。
主に、二次構造の図を見るときに使わせて頂いた。
http://rtools.cbrc.jp/centroidfold/
 RNAfoldとCentroidFoldで結果が異なる
同じ配列の２次構造で結果が異なる場合がある
例)結果のP11 ②AAAUCCGAAUAUACCCUUCUCACCUを予測
21
RNAfold CentroidFold

分かち書きの有効性の検証
 分かち書きしたコーパスと分かち書きしないコーパスの２種を作って、fastTextの同じパラ
メータで分類精度を確認した
 分かち書きした場合
プログラムの実行例：
% ~/fastText/fasttext test –5UTRcorpusSML.bin 5UTRcorpusSML.valid
N 1167
P@1 0.359
R@1 0.359
 分かち書きしない場合
プログラムの実行例
% ~/fastText/fasttext test –5UTRcorpusnowordingSML.bin 5UTRcorpusnowordingSML.valid
N 1167
P@1 0.231
R@1 0.231
 ２次構造予測による分かち書きで、精度が高くなった
22

fastTextのハイパーパラメータ最適化
 labelXLの予測精度を高めるハイパーパラメータの最適化を行った
% ~/fastText/fasttext supervised –input 5UTRcorpusSML.train –output 5UTRcorpusSMLautotuned2 –autotune-
validation 5UTRcorpusSML.valid –autotune-metric f1:__label__XL autotune-duration 600
 最適化後のハイパーパラメータ
モデルをdumpし、ハイパーパラメータは下記となる
% ~/fastText/fasttext dump 5UTRcorpusSMLautotuned2.bin args
dim 104 （104次元の単語ベクター）
ws 5
epoch 100
minCount 1
neg 5
wordNgrams 1
loss softmax
model sup
bucket 487072
minn 3
maxn 6
lrUpdateRate 100
t 0.0001
23

CentroidFoldを用いた場合
 JSEC論文提出後に、慶応大学佐藤先生にCentroidFoldをコンパイル可能なように改修いただ
いた。
論文の記載はRNAfoldを使用した数値ですが、論文提出後, RNAfold の代わりに、
CentroidFold を使用すると、最適化後の予測精度が10%程度向上した。
RNAfoldを使った際 F1-score : 0.600000 Precision : 0.548638 Recall : 0.661972 __label__XL
CentroidFoldを使った際 F1-score : 0.669643 Precision : 0.638298 Recall : 0.704225 __label__XL
 更に、予測精度が現在世界最高性能のMXFoldをご紹介頂いた。
サーバー版 http://www.dna.bio.keio.ac.jp/mxfold/
パソコンにインストールできた。
24

今後について
 本研究は、下記２部構成の研究の一部です。
-培養肉における日本の法整備の現状と課題
培養肉における法整備の現状と課題.pdf
-再生医療・培養肉で使われるタンパク質を安く提供する技術
自然言語処理と機械学習を用いた遺伝子解析によるたんぱく質合成コスト削減を実現する核酸配列の創製.pdf
 幹細胞培養に必要なタンパク質を安価に提供できる技術と制度整備を行い、
医療・食の両分野でSDGsに貢献したい。
25

自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製＠18th JSEC

Recommended

Recommended

More Related Content

What's hot

What's hot (15)

Similar to 自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製＠18th JSEC

Similar to 自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製＠18th JSEC (9)

自然言語処理と機械学習を用いたタンパク質高発現塩基配列の創製＠18th JSEC

Editor's Notes