More Related Content
Similar to [2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
Similar to [2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤 (20)
More from Eli Kaminuma (8)
[2016-06-06] CrowdR&D:クラウド協働評価のための参加型R&Dプロジェクト情報統合基盤
- 2. (Kaminuma et al., NAR 2010)
1. NGS Annotation Pipeline
Crowdsourcing
2. DNA Polymorphism
Annotation Database
4. Citrus SNP Genotyping
Array Design
for GWAS
6. CrowdScience Infrastructure
3. SNP-Trait Heritability
Curation Database
(Mochizuki et al., submitted)
(Shimizu et al., submitted)(Kaminuma et al., NAR 2013)
OpenData
OpenData
OpenData
Curation
Curation
OpenData
Crowdsourcing
5. Urban Subway DNA Monitoring Project
Curation
http://p.ddbj.nig.ac.jp/ http://tga.nig.ac.jp/dnapod/
http://tga.nig.ac.jp/h2db/
A Portal Website for Participatory Science
http://tga.nig.ac.jp/pathomapj/
研究背景:生命情報データの自動注釈
とクラウドソーシング
- 3. ■技術革新前のゲノム解読処理フロー
高速DNA
シークエンサの
配列解読
研究者による編集キュレーション
(Jamboree / Online community
curation)
論文公開
データ公開
配列構造や遺伝子
機能の自動注釈
論文公開
データ
公開
Wikiによる
キュレーション
が提案されている
(Salzberg, 2013)
現在
■現在処理フローと
BigData Curation対策案
DDBJ Pipeline
(神沼 et al, 2010)
TogoAnnotation
(藤澤, 中村et al., 2014)
大量のDNA配列
自動注釈ツール
キュレーション作業
専門
ワーカ 非専門家クラウドワーカ
タスク分配
(精度、コスト)
訓練データとして利用可
<提案>クラウドソーシングで注釈情報をキュレーション
問題:大規模データ自動注釈処理後の手作業修正
クラウドソーシングで専門家不足を解決
- 7. ①-2 カタログ掲載タスクに識別番号
プロジェクト
タスク タスク タスク
■カタログ項目に識別番号
■ 1プロジェクトが複数タスクを構成
カタログ項目 識別番号 説明 割当数
(2016/5/31時点)
TASK CRT000001~ 作業タスク名 25
PROJECT CRP000001~ プロジェクト名 22
SUPPORT PLATFORM CRS000001~ 作業実行基盤 7
プラットフォーム
TASK PROJECT
- 9. ②-2 タスク投稿数予測
Task ID Submissi
on
Duratio
n
MAP
E
光合成細菌
PCC6803 遺伝
子機能注釈
A1 1149 58 0.05
6
H2DB 遺伝率
注釈
A2 913 120 0.06
1
テキスト分類
問題その2
M1 191 38 0.31
0
オンライン
マーケットで
の購買予測
M2 187 33 0.06
5
周辺地点の気
象情報からの
気温予測
M3 481 43 0.12
0
Normalized Duration
Normalized Duration
33%
ワークフロー構成要素 : (1) 手作業データ収集 → (2)データ構造化
→ (3)モデル精度高度化 → (4) 人手処理と機械処理の最適化
MAPE: Mean Absolute Percent Error
ID (A= Data Annotation, M= Data Modeling)
最終日タスク投稿数予測 : Support Vector Regression (SVR) model利用
- 12. 研究倫理 IRB承認について
■クラウド個人情報を扱う場合には、IRB(Institutional Review Board)
による研究倫理承認が必要
■研究倫理審査の要件に、クラウドの研究同意書(Informed Consent:IC)取得がある。
IC項目の事例
1) 研究目的・協力方法・実施体制・研究期間について
2) 本研究が国立遺伝学所の倫理審査委員会で承認された上、開始されること
3) 本研究成果の公表について
4) 利益・不利益について
5) 本研究のデータの個人情報保護および匿名化について
6) 本研究のデータの保管と廃棄について
- 14. 謝辞
DDBJ Pipeline
・Takako Mochizuki (NIG)
・Yasuhiro Tanizawa (NIG)
・Hideki Nagasaki (Kazusa Institute )
・Takatomo Fujisawa (NIG)
・Kimiko Saka (NIG)
・Naoko Sakamoto (NIG)
・Chiharu Kawagoe (NIG)
・Naofumi Ishikawa (NIG)
・Toshihisa Takagi (NIG)
TogoAnnotation
・CyanoBase Curators (Kazusa Institute)
・Ken Kurokawa (NIG)
・Hiroshi Mori (TiTech)
DDBJ pipeline and Crowdsourcing studies are partially supported by ROIS Transdisciplinary Research Grant, Japan MEXT “Genome
Science” Grant, and Grants-in-Aid for Scientific Research (Basic Research C) and CREST Survey Research Grant ‘Advanced Core
Technologies for Big Data Integration’.
・
CrowdR&D
<カタログデータ>
・Atsuyuki Morishima (Tsukuba Univ)
・Osamu Matsuda (Kyushu Univ)
・ Utsugi Jinbo (Nationa lMuseum)
<倫理審査>
・Kousaku Okubo (NIG)
・Isao Katsura (NIG)
・Naruya Saito (NIG)
・NIG Ethical IRB committee
・Shinichi Sato (NII)
・NII Ethical IRB committee
<協力>
・ Osamu Ohara (RIKEN)