1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Highly accurate protein structure prediction with AlphaFold”
Kensuke Wakasugi, Panasonic Corporation.
紹介論文
タイトル:Highly accurate protein structure prediction with AlphaFold
著者:Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., ...
& Hassabis, D. 合計33人.
所属:DeepMind、ソウル大学校
その他: Nature掲載(2021/07/15公開),引用82件(2021/09/06時点)
https://www.nature.com/articles/s41586-021-03819-2
選書理由
AlphaFoldの原型は昨年時点で公開されていたが,その進化版としてAlphaFold2が話題に
なっていたため
書誌情報
Wakasugi, Panasonic Corp.
2
※本資料の図表は,特に記載がない限り紹介論文より引用したものです
概要
Wakasugi, Panasonic Corp.
3
タンパク質に特化した作りこみを行い、CASP14圧勝
CASP14のランキング
データの前処理
正解(緑)と予測(青)
メインのNN 構造の出力
※点線は便宜的に追加
CASPとは
■CASP:The Critical Assessment of protein Structure Prediction[1]
→タンパク質構造予測のコンペティション.1994年から2年おきに開催.CASP14は2020年開催.
Wakasugi, Panasonic Corp.
4
[1]CASP:https://predictioncenter.org/index.cgi 訪問日2021/09/06
[2]フォールディング 出典: フリー百科事典『ウィキペディア(Wikipedia)』訪問日2021/09/06
カテゴリ 内容
テンプレートベース 既知構造を用いて,構造予測
テンプレートフリー いちから構造予測
接触予測 部分構造の接触を予測
構造生物学への応用 未知構造への応用
精密化 後処理による構造の精緻化?
実験とのハイブリッド 低解像度の実験計測との組み合わせ
メイン
タンパク質のフォールディング[2]
ヒトの場合、
20種のアミノ
酸の配列が入力
入力 出力
CASPカテゴリ[1]
CASP14@2020
Wakasugi, Panasonic Corp.
5
[1]CASP HP:https://predictioncenter.org/index.cgi 訪問日2021/09/06
[1]より引用
実験精度
全体の2/3
高精度
全体の90%
 CASP14にてAlphaFold2が大幅に精度向上
 約90%のタンパク質の構造を正確に予測
AlphaFold2が実験精度に到達
学習データ
Wakasugi, Panasonic Corp.
6
構造特定されているタンパク質で学習.データのサンプル、アミノ酸残基のクロップなどを前処理多数
■データベース・検索ツール:
• タンパク質立体構造データベース:Protein Data Bank(PDB)、 UniRef90 .
PDBのHP上では181969件 https://www.rcsb.org/ (21/09/08)
• タンパク質配列データベース:Uniclust30、 MGnify、BFD(2.5 billion protein)
• 類似たんぱく質検索ツール:JackHMMER、 HHBlits
■学習(補助)データ:
PDB
seqs
seqs
seqs
クラスタリング
seq→
・・・
256
124
Multiple sequence alignment
(MSA)
学習データとしてはPDBがそのまま使われるが、 MSA、Templateも訓練時に利用される
seq→
・・・
256
4
UniRef90
類似度順
Template
学習データ 7
主に,sequence数 × residue数 × [アミノ酸onehot or 正解構造座標]
その他として,該当アミノ酸残基より
左にある欠失の数等が含まれる
Self-distillation
Wakasugi, Panasonic Corp.
8
自己蒸留を使い、2段階で学習。2段階目では3/4が自己蒸留データ
seq
・・・
Uniclust30
PDBで学習し
構造予測
立体構造
立体構造なし
予測の自信が
高いものを学習
データとする
入力データ概観
Wakasugi, Panasonic Corp.
9
 MSA repr. とpair repr.に集約
 Main Evoformerは上記二つを入出力
に持つ→Cycle計算する
 extra_MSAはCluteringで外れたも
の?とりわけ長い配列などへの対応
MSA repr. とpair repr.に集約させる
Evoformer
Wakasugi, Panasonic Corp.
10
MSA repr.に対するrow/column-wiseの更新と,pair repr.に対する接続関係に基づく更新から構成
• 基本的にresidualに接続
• MSA repr.は
row/column-wiseに更新
• pair repr.はグラフベース
で更新
• 更新はtransformer方式
+gatingを利用
• 48block(no shared)
で一単位とし,Recycling
iterations(shared)を
回す.
Evoformer
Wakasugi, Panasonic Corp.
11
• row-wiseの更新は途中でpair repr.を加算
row-wise
column-wise
MSA repr. の更新
Evoformer
Wakasugi, Panasonic Corp.
12
MSA repr.のtransitionとpair repr.への伝達
transition
pair repr.への伝達
Evoformer
Wakasugi, Panasonic Corp.
13
pair repr.の更新
三角形に基づく更新
グラフの始点に基づく更新
Evoformer
Wakasugi, Panasonic Corp.
14
再掲
Structure module
Wakasugi, Panasonic Corp.
15
MSAから、アミノ酸残基とその枝の位置座標を推定
• Single repr.はMSAの一行目.
• Backborn frameの初期値は原点.
• 位置座標は原点からの回転と移動で表現
• sharedでRecycling iterationsを回す
• Frame aligned point
error (FAPE).
Invariant Point Attention
Wakasugi, Panasonic Corp.
16
グローバルな剛体変位に対し、不変な更新方法を設計
• アミノ酸残基の位置座標として,回転+移動で表
現したが,この時,物理的にはタンパク質全体の
並進などに対し,不変であってほしい.
• 更新の際も上記不変性を満たすように設計
概要
Wakasugi, Panasonic Corp.
17
タンパク質に特化した作りこみを行い、CASP14圧勝
CASP14のランキング
データの前処理
正解(緑)と予測(青)
メインのNN 構造の出力
※点線は便宜的に追加
再掲
Loss functions
Wakasugi, Panasonic Corp.
18
位置座標の誤差の他、maskのLossなども利用.fine-tuning時のみ、不正接続を考慮
• FAPE:アミノ酸残基+側鎖の誤差
• aux:Structure moduleの途中の構造の誤差など
• dist:アミノ酸残基間の距離に関する誤差
• msa:MSAのマスクした部分に対する予測誤差
• conf:予測の自信に関する誤差.(残基個別の誤算由来?)
• exp resolved:実験的に同定されているかの予測
• viol:アミノ残基内の原子間距離、角度、接触に対するペナルティ
学習パラメータ
Wakasugi, Panasonic Corp.
19
※一つの学習データに対し,templateは固定、MSAはresample.推論時にMSAはアンサンブルする
合計学習時間11日
学習パラメータ
Wakasugi, Panasonic Corp.
20
CASP14向けの学習.蒸留データ生成を除き約2週間
その他
Wakasugi, Panasonic Corp.
21
全体を通して、細々と工夫がなされている
• 学習データの90%と側鎖に関して,誤差を10Åでクリップ
• 学習時,活性化関数の出力値を記憶せず,誤差逆伝搬時に再計算することで,メモリーを圧縮.
20.25 GiB → 0.4GiB + 1.7GiB.学習時間は33%増.
• 推論時,アミノ酸残基数2180個だと,154.4GiB必要.
mini-batch likeなchunkを考慮し0.3 GiBに.
概要
Wakasugi, Panasonic Corp.
22
タンパク質に特化した作りこみを行い、CASP14圧勝
CASP14のランキング
データの前処理
正解(緑)と予測(青)
メインのNN 構造の出力
※点線は便宜的に追加
再掲
Ablation results・Cycleの効果
Wakasugi, Panasonic Corp.
23
self-distillationの効果が少し大きいか
←recycle中の挙動.
recycleの進行とともに,正解に近づいている.
■性能値:
GDT(Global Distance Test)
正解値に対し予測値が,
所定のカットオフ半径位以内に収まっている割合
残課題
Wakasugi, Panasonic Corp.
24
一部のたんぱく質の予測に難あり
• MSA depthが30以下の場合,性能低下.100くらいで収束.
• その他,鎖内結合が少ない場合に弱いとのこと
• templateによるカバー範囲?が少ないと性能低下
Discussion
Wakasugi, Panasonic Corp.
25
暗黙的な物理制約を自然に獲得できている
• バイオインフォと物理的観点から手法を構築することで,最小限のマニュアル特徴量でも、うまく構造の性質をつかむことができた
→水素の結合長などは,陽に含んでいないが,うまく予測できている
• 欠落した物理的背景もうまく推論できており,intertwined homomers(アミノ酸配列が同一単位の繰り返しで構成され、全体が絡み
合ったもの?)もうまく予測できている(下図)
• たんぱく質の必須解析ツールになることを期待.※github公開.有志によるブラウザ経由のツールもある
同じグループから,解析よりの論文もすでに発表されている
Highly accurate protein structure prediction for the human proteome
https://www.nature.com/articles/s41586-021-03828-1
感想
Wakasugi, Panasonic Corp.
26
• Transformerなどを利用しつつ,細部にわたって工夫を凝らしている印象.
Lossの組合せ、各種crop、データの前処理・選定、Recycle
• ゲノム解析 → タンパク質構造同定 → 機能分析 の流れが加速することが期待される
余談:
web記事[3]によると,AlphaFold2のファイル容量は2.2TBらしい
RoseTTAFoldという手法もワシントン大学から発表されているとのこと
[3]https://www.itmedia.co.jp/news/articles/2107/20/news136.html 訪問日2021/09/09

[DL輪読会]“Highly accurate protein structure prediction with AlphaFold”