Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
Check these out next
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
優れた研究論文の書き方―7つの提案
Masanori Kado
If文から機械学習への道
nishio
tf,tf2完全理解
Koji Terada
全力解説!Transformer
Arithmer Inc.
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
大規模ネットワークの性質と先端グラフアルゴリズム
Takuya Akiba
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
諒介 荒木
1
of
24
Top clipped slide
バイオインフォマティクスで実験ノートを取ろう
Dec. 16, 2015
•
0 likes
23 likes
×
Be the first to like this
Show More
•
22,088 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Science
生物系と違ってドライ系では実験ノート書かない人多いのなんで? ちゃんと書こうよ。費やした時間もトータルではちゃんと戻ってくるから。
Masahiro Kasahara
Follow
Assist. Prof. at The University of Tokyo
Advertisement
Advertisement
Advertisement
Recommended
研究の基本ツール
由来 藤原
8.8K views
•
43 slides
研究分野をサーベイする
Takayuki Itoh
113.2K views
•
20 slides
最適輸送の解き方
joisino
19K views
•
270 slides
MICの解説
logics-of-blue
50.1K views
•
49 slides
工学系大学4年生のための論文の読み方
ychtanaka
50.7K views
•
18 slides
論文に関する基礎知識2016
Mai Otsuki
56.4K views
•
40 slides
More Related Content
Slideshows for you
(20)
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
•
47.1K views
優れた研究論文の書き方―7つの提案
Masanori Kado
•
197.6K views
If文から機械学習への道
nishio
•
140.7K views
tf,tf2完全理解
Koji Terada
•
195.2K views
全力解説!Transformer
Arithmer Inc.
•
7.4K views
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
•
250K views
大規模ネットワークの性質と先端グラフアルゴリズム
Takuya Akiba
•
15.2K views
Surveyから始まる研究者への道 - Stand on the shoulders of giants -
諒介 荒木
•
4.4K views
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
•
97K views
ROS を用いた自律移動ロボットのシステム構築
Yoshitaka HARA
•
40.7K views
画像認識モデルを作るための鉄板レシピ
Takahiro Kubo
•
112.8K views
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
•
134K views
統計的係り受け解析入門
Yuya Unno
•
22.7K views
プログラミング初心者がOpenCVと機械学習でOCRエンジン自作に挑戦する話
marika_hotani
•
2K views
機械学習研究の現状とこれから
MLSE
•
13.5K views
マッチングサービスにおけるKPIの話
cyberagent
•
68.3K views
深層学習の数理
Taiji Suzuki
•
78.4K views
「のどが渇いた」というユーザーに何を出す? ユーザーの「欲しい」に惑わされない、本当のインサイトを見つけるUXデザイン・UXリサーチ
Yoshiki Hayama
•
51.4K views
Optimizer入門&最新動向
Motokawa Tetsuya
•
22K views
パワポ版の落合先生流論文要旨のテンプレートを作ったので配布する
森 哲也
•
2.7K views
Recently uploaded
(20)
留学生案例《圣地亚哥大学学位毕业证书和学士文凭》
uijn12a
•
2 views
☀️《怀卡托大学毕业证仿真》
hjhgg1
•
0 views
water_quality.pptx
Ryuji Dohaku
•
14 views
国外学历【萨德伯里大学研究生文凭毕业证留学生首选】
ewq15a
•
2 views
留信网认证可查【奥克兰商学院文凭证书毕业证购买】
ihh14ds
•
2 views
①【汉堡大学毕业证文凭学位证书|工艺完美复刻】
vgh215w
•
2 views
【ブログ記事用】コルテバ事例紹介:課題 vs 導入効果.pdf
IsabelWong26
•
35 views
《威斯康星大学绿湾分校毕业证|学位证书校内仿真版本》
d520dasw12
•
2 views
留学生案例《新学院学位毕业证书和学士文凭》
uijn12a
•
2 views
留学生案例《卡内基梅隆大学学位毕业证书和学士文凭》
15sdasd
•
2 views
☀️《USD毕业证仿真》
hjhgg
•
0 views
290邓迪大学.pdf
fggg13
•
0 views
☀️【南达科他大学毕业证成绩单留学生首选】
2125nuh
•
2 views
LLM Webinar - シバタアキラ to share.pdf
Akira Shibata
•
112 views
在哪里可以做《怀俄明大学文凭证书|毕业证》
lobd15
•
2 views
在哪里可以做《堪萨斯大学文凭证书|毕业证》
lobd15
•
2 views
《威得恩大学毕业证|学位证书校内仿真版本》
w124dsa
•
3 views
☀️《Durham毕业证仿真》
fggg13
•
0 views
①【魁北克大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
キャッシュオブリビアスアルゴリズム
joisino
•
3 views
Advertisement
バイオインフォマティクスで実験ノートを取ろう
バイオインフォマティクスで 実験ノートを取ろう 笠原 雅弘 東京大学 大学院新領域創成科学研究科 メディカル情報生命専攻 Disclaimer: 30分で作ったやっつけプレゼンです。 実際の出来事をモチーフにしつつも、個々の 話を特定できないように変えたり脚色してます。
生物系における実験ノートの 位置づけ • 生物系のラボで実験ノートを取らない 研究者は居ない。 自分が後で 参照するため 実験が実在した 証明として 他人に後で 情報を伝えるため
論文を書くとき • 税金を使って行う研究は論文化して成果を公開 するので、論文を書こうとするが・・・ えーっと、実験のこのステップで 確か遠心をしたような気がするんだけど あれ、やったっけ?どうだっけ? 3,600rpm で回したような? 自分の行った操作に自信が持てないのに 論文にメソッドなんか書けません。
バイオインフォでも同じ えーっと、bwa で何ミスマッチ許したっ け?確か2ミスマッチが良いって結論だっ たはず。あれ2ミスマッチってシードだっ け、リード全体で2ミスマッチだっけ? あーれー? もう一度試さないとダメ? 自分の行った操作に自信が持てないのに 論文にメソッドなんか書けません。
研究が発展したとき そのアイディアはすごいですね! 是非メダカでもやりましょう。 この系だと同じプローブでも 行けそうですね。 ってあれ・・・、そもそも どんな配列プローブを使って 何分漬けたっけ・・・? 類似の実験をやりたくなったときに 果てしなく時間をロスします。 あのゼブラフィッシュの WISH、 論文の図を見たときスゲーって 思ったよ。ところで、私の 持ってるこのメダカで同じ実験を やったら○○が分かって嬉しいよ!
研究が発展したとき(別ver) そのアイディアはすごいですね! 是非メダカでもやりましょう。 と言いたいけどぼくは忙しいから 自分でやって! 類似の実験をやりたくなったときに 果てしなく時間をロスします。 あのゼブラフィッシュの WISH、 論文の図を見たときスゲーって 思ったよ。ところで、私の 持ってるこのメダカで同じ実験を やったら○○が分かって嬉しいよ! 詳しい再現手順を教えて下さい。
バイオインフォでも同じ そのアイディアはすごいですね! 是非寄生植物でもやりましょう。 ってあれ・・・、そもそも PAML のオプション思い出せない。 パラメータ振って勘所を 思い出すところから再スタートか・・・ 類似の実験をやりたくなったときに 果てしなく時間をロスします。 あの進化解析の論文の図を見たとき スゲーって思ったよ。ところで、私の 持ってるこの寄生植物で同じ解析を してみない?○○が分かってクールだぜ!
実験がヤバかったとき えーっ・・・・、ってーか、 だとするとその後の実験が なんで上手く行ってるの? 間違ってなかったんじゃない? トラブルシューティングには 詳細な記録が必要です。 あの溶液、サンプルが間違っていて がん細胞の抽出物じゃなくて、 隣で保管していた植物の抽出物 だった。ごめんね。 エタノール入れたときに 沈殿の量がいつもの5倍ぐらい 出てない? 記録してないからわかんない・・・
バイオインフォでも同じ えーっ・・・・、ってーか、 染色体2番だけ欠損が起こる可能性が あるようなスクリプト書いて無いんだけど? トラブルシューティングには 詳細な記録が必要です。 貰った解析データ、 染色体2番だけ全部欠損してるんだけど。 でも実際欠損してるんですよ。 ほら、見てみて。 確かに・・・・。でも、何も記録してない からわかんない・・・
外部の研究者からの質問 えーっ・・・・と、 5年前の実験なんて覚えてないよ。 良い仕事をしていると 意外な問い合わせが来ます。 ○○論文の解析を再現したいんだけど、 ChIP に使った抗体ってどこから買った? やっぱり複数買ってテストしないとダメ? ノート無いの・・・? 捏造実験って言われちゃうよ? ありますよ・・・調べますよ・・・・
バイオインフォでも同じ そりゃ、当たり前だよ。 ストップワードは抜いてね。 良い仕事をしていると 意外な問い合わせが来ます。 ○○論文の解析を再現したいんだけど、 ストップワードって除いてる? 論文のメソッドには書いて無かったから 適当に全単語を入れたらはちゃめちゃに なったので入れてると思うんだけど。 厳密に再現したいので 使ったストップワードのリストをください。 え・・・、もうファイル無いよ。
情報系の人のよくある言い訳 コンピューターの上での解析は、 もう一度完全に同じことが自動で できるから、もう一度同じコマンドを 走らせればいいじゃないか。 実験ノートなんて無くても あらゆるものが再現できるし、 あらゆる質問には答えられるはずだ。 ,j;;;;;j,. —一、 `
―–‐、_ l;;;;;; {;;;;;;ゝ T辷iフ i f’辷jァ !i;;;;; ヾ;;;ハ ノ .::!lリ;;r゛ `Z;i 〈.,_..,. ノ;;;;;;;;> そんなふうに考えていた時期が ,;ぇハ、 、_,.ー-、_’,. ,f゛: Y;;f. 俺にもありました ~”戈ヽ `二´ r’´:::. `!
実際に起こった問題点1 • 純IT系のお仕事(研究)と比べて バイオインフォでは自動化していない 手作業が圧倒的に多い傾向にある。 (1) Excel
でデータを貰ったが「ピンク色のセルが該当サンプルIDです」 と言われた。ピンク色のセルを抜き出すスクリプトを書くのは面倒 だったので 80 個のサンプルIDを手作業で抜き出した。 (2) FASTA ファイルで配列を貰ったが、名前付けに一貫性がなくその後の処 理が面倒になりそうだったので、約3% の配列について手作業で名前を 付け直した。 (3) プライマー配列を Excel で貰ったが、3000本中 15 本は配列が全角文字に なっており、数も少ないので半角文字に手作業で直した。6本はコドン に合わせて3文字ごとにスペースが入っていたが、手作業でスペースを 取り除いた。 (4) いろんな恨み辛みを思い出して辛い気分になってきたのでこのへんで ストップ。
実際に起こった問題点2 • ソフトウェアが動かなくなる、 異なる動作をする。 (1) SunFire
15K (SPARC アーキテクチャ) で動かしたバイナリを持っていても いまどきの Linux (x86_64) では動かない・・・ (2) samtools のバージョンが上がって pileup サブコマンドとか無くなってる んですけど・・・。 (3) Cufflinks とかバージョンが変わったら出力結構違うし、当時使ったバー ジョンと逐一同じじゃなかったら結果が変わっても文句言えないですよ。 (4) ゲノムアセンブリーとか、マルチコアのタイミング問題で、同じデータ を入れても毎回微妙に結果変わるので、運が悪かったのがバグ踏んだの かは確定できないですよね・・。
私の身についた習慣(過去) • こんなことをしたけどコストが大きくて ちょっと不毛だよね (1) ピンク色のセルはスクリプトで抜き出すようにした。 リネームも、スペースも全角文字も全部スクリプトで一括処理。 (2)
ソフトウェアはなるべく解析ごとにソースコードもバイナリも データとともに全部とっておいてバージョンなどが分かるようにする。 (3) マルチコアで結果が変わる場合には中間ファイルも一応全部 取っておこう。 (4) 複数のコマンドを実行する場合には makefile を作り、make を 叩けば常に、コラボレ-ターから貰ったファイルから最終解析結果まで ノンストップで進むようにした。
理念としては良いけど・・・ 理念としては素晴らしいんだけど、 やっぱり1回しかやらないことを 自動化するのは時間的にしんどいよね!
バイオインフォの人も 実験ノートを取ろう • 実験ノートにいろいろ書こう • 調べたこと(文献・Web) •
実行したコマンド列やその短い結果など • ソフトウェアやライブラリ・OSのバージョン • インストール方法なども • 自作のソフトなら git リポジトリアドレスと コミット値など • 実行時間やメモリー使用量 できれば、ラボ内の先輩や指導教員に 内容を見て貰って間違いや改善点を 指摘して貰おう。コメントを貰おう。
個人的なお勧め • Markdown で書けるツールで実験ノートを 書こう •
Qiita:Team とか esa.io とか inc とか Evernote+Marxico とか色々あるが・・・
Docbase いいよ Docbase
!
Docbase の良いところ • Markdown
で書ける • 数式も書ける • コピペで図が貼れる • API 叩けばクラスター計算機から書ける • グループを分けて権限付与できる • あるグループだけ外部のコラボレ-ターに共有、 とかできる。
・diff が取れる ・他人のノートへの watch/star/comment
機能 ・Slack/HipChat などへの通知機能 ・データのエクスポートももちろんできる ・一定以上の料金プランでは外部のコラボレーターを 無制限に招待可能 (コラボレーターにノートを見せるのが簡単。) ・開発が速い!!! ・タグ(Qiita や Evernote のタグと同じ)やメンバー、グループなどで 検索ができる。 ・2段階認証もあるので比較的安心 その他の利点(順不同)
まとめ • バイオインフォマティクスの人も 必ず実験ノートを付けよう • docbase
おすすめ
Advertisement