Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
MK
Uploaded by
Masahiro Kasahara
PPTX, PDF
23,465 views
バイオインフォマティクスで実験ノートを取ろう
生物系と違ってドライ系では実験ノート書かない人多いのなんで? ちゃんと書こうよ。費やした時間もトータルではちゃんと戻ってくるから。
Science
◦
Read more
23
Save
Share
Embed
Embed presentation
Download
Downloaded 50 times
1
/ 24
2
/ 24
3
/ 24
4
/ 24
5
/ 24
6
/ 24
7
/ 24
8
/ 24
9
/ 24
10
/ 24
11
/ 24
12
/ 24
13
/ 24
Most read
14
/ 24
15
/ 24
16
/ 24
17
/ 24
18
/ 24
Most read
19
/ 24
20
/ 24
21
/ 24
22
/ 24
23
/ 24
24
/ 24
Most read
More Related Content
PDF
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
by
諒介 荒木
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
by
SSII
PDF
研究の基本ツール
by
由来 藤原
PDF
モデルではなく、データセットを蒸留する
by
Takahiro Kubo
PDF
機械学習のためのベイズ最適化入門
by
hoxo_m
PDF
合成変量とアンサンブル:回帰森と加法モデルの要点
by
Ichigaku Takigawa
PDF
バンディットアルゴリズム入門と実践
by
智之 村上
PDF
ブースティング入門
by
Retrieva inc.
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
by
諒介 荒木
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
by
SSII
研究の基本ツール
by
由来 藤原
モデルではなく、データセットを蒸留する
by
Takahiro Kubo
機械学習のためのベイズ最適化入門
by
hoxo_m
合成変量とアンサンブル:回帰森と加法モデルの要点
by
Ichigaku Takigawa
バンディットアルゴリズム入門と実践
by
智之 村上
ブースティング入門
by
Retrieva inc.
What's hot
PDF
研究分野をサーベイする
by
Takayuki Itoh
PDF
研究効率化Tips Ver.2
by
cvpaper. challenge
PDF
実践多クラス分類 Kaggle Ottoから学んだこと
by
nishio
PPTX
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
PDF
研究発表を準備する(2022年版)
by
Takayuki Itoh
PDF
BlackBox モデルの説明性・解釈性技術の実装
by
Deep Learning Lab(ディープラーニング・ラボ)
PDF
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
by
mlm_kansai
PDF
Optimizer入門&最新動向
by
Motokawa Tetsuya
PDF
“機械学習の説明”の信頼性
by
Satoshi Hara
PPTX
backbone としての timm 入門
by
Takuji Tahara
PDF
統計的因果推論への招待 -因果構造探索を中心に-
by
Shiga University, RIKEN
PDF
Kaggleのテクニック
by
Yasunori Ozaki
PDF
Visualizing Data Using t-SNE
by
Tomoki Hayashi
PPTX
猫でも分かるVariational AutoEncoder
by
Sho Tatsuno
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
by
Takuji Tahara
PDF
道具としての機械学習:直感的概要とその実際
by
Ichigaku Takigawa
PDF
グラフィカルモデル入門
by
Kawamoto_Kazuhiko
PDF
DID, Synthetic Control, CausalImpact
by
Yusuke Kaneko
PPTX
【DL輪読会】Flow Matching for Generative Modeling
by
Deep Learning JP
PDF
PCAの最終形態GPLVMの解説
by
弘毅 露崎
研究分野をサーベイする
by
Takayuki Itoh
研究効率化Tips Ver.2
by
cvpaper. challenge
実践多クラス分類 Kaggle Ottoから学んだこと
by
nishio
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
by
RyuichiKanoh
研究発表を準備する(2022年版)
by
Takayuki Itoh
BlackBox モデルの説明性・解釈性技術の実装
by
Deep Learning Lab(ディープラーニング・ラボ)
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
by
mlm_kansai
Optimizer入門&最新動向
by
Motokawa Tetsuya
“機械学習の説明”の信頼性
by
Satoshi Hara
backbone としての timm 入門
by
Takuji Tahara
統計的因果推論への招待 -因果構造探索を中心に-
by
Shiga University, RIKEN
Kaggleのテクニック
by
Yasunori Ozaki
Visualizing Data Using t-SNE
by
Tomoki Hayashi
猫でも分かるVariational AutoEncoder
by
Sho Tatsuno
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
by
Takuji Tahara
道具としての機械学習:直感的概要とその実際
by
Ichigaku Takigawa
グラフィカルモデル入門
by
Kawamoto_Kazuhiko
DID, Synthetic Control, CausalImpact
by
Yusuke Kaneko
【DL輪読会】Flow Matching for Generative Modeling
by
Deep Learning JP
PCAの最終形態GPLVMの解説
by
弘毅 露崎
バイオインフォマティクスで実験ノートを取ろう
1.
バイオインフォマティクスで 実験ノートを取ろう 笠原 雅弘 東京大学 大学院新領域創成科学研究科 メディカル情報生命専攻 Disclaimer: 30分で作ったやっつけプレゼンです。 実際の出来事をモチーフにしつつも、個々の 話を特定できないように変えたり脚色してます。
2.
生物系における実験ノートの 位置づけ • 生物系のラボで実験ノートを取らない 研究者は居ない。 自分が後で 参照するため 実験が実在した 証明として 他人に後で 情報を伝えるため
3.
論文を書くとき • 税金を使って行う研究は論文化して成果を公開 するので、論文を書こうとするが・・・ えーっと、実験のこのステップで 確か遠心をしたような気がするんだけど あれ、やったっけ?どうだっけ? 3,600rpm で回したような? 自分の行った操作に自信が持てないのに 論文にメソッドなんか書けません。
4.
バイオインフォでも同じ えーっと、bwa で何ミスマッチ許したっ け?確か2ミスマッチが良いって結論だっ たはず。あれ2ミスマッチってシードだっ け、リード全体で2ミスマッチだっけ? あーれー? もう一度試さないとダメ? 自分の行った操作に自信が持てないのに 論文にメソッドなんか書けません。
5.
研究が発展したとき そのアイディアはすごいですね! 是非メダカでもやりましょう。 この系だと同じプローブでも 行けそうですね。 ってあれ・・・、そもそも どんな配列プローブを使って 何分漬けたっけ・・・? 類似の実験をやりたくなったときに 果てしなく時間をロスします。 あのゼブラフィッシュの WISH、 論文の図を見たときスゲーって 思ったよ。ところで、私の 持ってるこのメダカで同じ実験を やったら○○が分かって嬉しいよ!
6.
研究が発展したとき(別ver) そのアイディアはすごいですね! 是非メダカでもやりましょう。 と言いたいけどぼくは忙しいから 自分でやって! 類似の実験をやりたくなったときに 果てしなく時間をロスします。 あのゼブラフィッシュの WISH、 論文の図を見たときスゲーって 思ったよ。ところで、私の 持ってるこのメダカで同じ実験を やったら○○が分かって嬉しいよ! 詳しい再現手順を教えて下さい。
7.
バイオインフォでも同じ そのアイディアはすごいですね! 是非寄生植物でもやりましょう。 ってあれ・・・、そもそも PAML のオプション思い出せない。 パラメータ振って勘所を 思い出すところから再スタートか・・・ 類似の実験をやりたくなったときに 果てしなく時間をロスします。 あの進化解析の論文の図を見たとき スゲーって思ったよ。ところで、私の 持ってるこの寄生植物で同じ解析を してみない?○○が分かってクールだぜ!
8.
実験がヤバかったとき えーっ・・・・、ってーか、 だとするとその後の実験が なんで上手く行ってるの? 間違ってなかったんじゃない? トラブルシューティングには 詳細な記録が必要です。 あの溶液、サンプルが間違っていて がん細胞の抽出物じゃなくて、 隣で保管していた植物の抽出物 だった。ごめんね。 エタノール入れたときに 沈殿の量がいつもの5倍ぐらい 出てない? 記録してないからわかんない・・・
9.
バイオインフォでも同じ えーっ・・・・、ってーか、 染色体2番だけ欠損が起こる可能性が あるようなスクリプト書いて無いんだけど? トラブルシューティングには 詳細な記録が必要です。 貰った解析データ、 染色体2番だけ全部欠損してるんだけど。 でも実際欠損してるんですよ。 ほら、見てみて。 確かに・・・・。でも、何も記録してない からわかんない・・・
10.
外部の研究者からの質問 えーっ・・・・と、 5年前の実験なんて覚えてないよ。 良い仕事をしていると 意外な問い合わせが来ます。 ○○論文の解析を再現したいんだけど、 ChIP に使った抗体ってどこから買った? やっぱり複数買ってテストしないとダメ? ノート無いの・・・? 捏造実験って言われちゃうよ? ありますよ・・・調べますよ・・・・
11.
バイオインフォでも同じ そりゃ、当たり前だよ。 ストップワードは抜いてね。 良い仕事をしていると 意外な問い合わせが来ます。 ○○論文の解析を再現したいんだけど、 ストップワードって除いてる? 論文のメソッドには書いて無かったから 適当に全単語を入れたらはちゃめちゃに なったので入れてると思うんだけど。 厳密に再現したいので 使ったストップワードのリストをください。 え・・・、もうファイル無いよ。
12.
情報系の人のよくある言い訳 コンピューターの上での解析は、 もう一度完全に同じことが自動で できるから、もう一度同じコマンドを 走らせればいいじゃないか。 実験ノートなんて無くても あらゆるものが再現できるし、 あらゆる質問には答えられるはずだ。 ,j;;;;;j,. —一、 `
―–‐、_ l;;;;;; {;;;;;;ゝ T辷iフ i f’辷jァ !i;;;;; ヾ;;;ハ ノ .::!lリ;;r゛ `Z;i 〈.,_..,. ノ;;;;;;;;> そんなふうに考えていた時期が ,;ぇハ、 、_,.ー-、_’,. ,f゛: Y;;f. 俺にもありました ~”戈ヽ `二´ r’´:::. `!
13.
実際に起こった問題点1 • 純IT系のお仕事(研究)と比べて バイオインフォでは自動化していない 手作業が圧倒的に多い傾向にある。 (1) Excel
でデータを貰ったが「ピンク色のセルが該当サンプルIDです」 と言われた。ピンク色のセルを抜き出すスクリプトを書くのは面倒 だったので 80 個のサンプルIDを手作業で抜き出した。 (2) FASTA ファイルで配列を貰ったが、名前付けに一貫性がなくその後の処 理が面倒になりそうだったので、約3% の配列について手作業で名前を 付け直した。 (3) プライマー配列を Excel で貰ったが、3000本中 15 本は配列が全角文字に なっており、数も少ないので半角文字に手作業で直した。6本はコドン に合わせて3文字ごとにスペースが入っていたが、手作業でスペースを 取り除いた。 (4) いろんな恨み辛みを思い出して辛い気分になってきたのでこのへんで ストップ。
14.
実際に起こった問題点2 • ソフトウェアが動かなくなる、 異なる動作をする。 (1) SunFire
15K (SPARC アーキテクチャ) で動かしたバイナリを持っていても いまどきの Linux (x86_64) では動かない・・・ (2) samtools のバージョンが上がって pileup サブコマンドとか無くなってる んですけど・・・。 (3) Cufflinks とかバージョンが変わったら出力結構違うし、当時使ったバー ジョンと逐一同じじゃなかったら結果が変わっても文句言えないですよ。 (4) ゲノムアセンブリーとか、マルチコアのタイミング問題で、同じデータ を入れても毎回微妙に結果変わるので、運が悪かったのがバグ踏んだの かは確定できないですよね・・。
15.
私の身についた習慣(過去) • こんなことをしたけどコストが大きくて ちょっと不毛だよね (1) ピンク色のセルはスクリプトで抜き出すようにした。 リネームも、スペースも全角文字も全部スクリプトで一括処理。 (2)
ソフトウェアはなるべく解析ごとにソースコードもバイナリも データとともに全部とっておいてバージョンなどが分かるようにする。 (3) マルチコアで結果が変わる場合には中間ファイルも一応全部 取っておこう。 (4) 複数のコマンドを実行する場合には makefile を作り、make を 叩けば常に、コラボレ-ターから貰ったファイルから最終解析結果まで ノンストップで進むようにした。
16.
理念としては良いけど・・・ 理念としては素晴らしいんだけど、 やっぱり1回しかやらないことを 自動化するのは時間的にしんどいよね!
17.
バイオインフォの人も 実験ノートを取ろう • 実験ノートにいろいろ書こう • 調べたこと(文献・Web) •
実行したコマンド列やその短い結果など • ソフトウェアやライブラリ・OSのバージョン • インストール方法なども • 自作のソフトなら git リポジトリアドレスと コミット値など • 実行時間やメモリー使用量 できれば、ラボ内の先輩や指導教員に 内容を見て貰って間違いや改善点を 指摘して貰おう。コメントを貰おう。
18.
個人的なお勧め • Markdown で書けるツールで実験ノートを 書こう •
Qiita:Team とか esa.io とか inc とか Evernote+Marxico とか色々あるが・・・
19.
Docbase いいよ Docbase
!
20.
Docbase の良いところ • Markdown
で書ける • 数式も書ける • コピペで図が貼れる • API 叩けばクラスター計算機から書ける • グループを分けて権限付与できる • あるグループだけ外部のコラボレ-ターに共有、 とかできる。
23.
・diff が取れる ・他人のノートへの watch/star/comment
機能 ・Slack/HipChat などへの通知機能 ・データのエクスポートももちろんできる ・一定以上の料金プランでは外部のコラボレーターを 無制限に招待可能 (コラボレーターにノートを見せるのが簡単。) ・開発が速い!!! ・タグ(Qiita や Evernote のタグと同じ)やメンバー、グループなどで 検索ができる。 ・2段階認証もあるので比較的安心 その他の利点(順不同)
24.
まとめ • バイオインフォマティクスの人も 必ず実験ノートを付けよう • docbase
おすすめ
Download