Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
1 KYOTO UNIVERSITY
KYOTO UNIVERSITY
DEPARTMENT OF INTELLIGENCE SCIENCE
AND TECHNOLOGY
機械学習と予測モデルコンペティション
京都大学 情報学研究科 知能情報学...
2 KYOTO UNIVERSITY
 “人工知能” の成功:
– クイズ王に勝利した質問応答システム
– プロ棋士に勝利したコンピュータ将棋・囲碁
 今回の“人工知能”ブームは機械学習に支えられている
– とりわけ深層学習がブームを牽引
...
3 KYOTO UNIVERSITY
 機械学習とは、もともと
「人間のもつ‟学習能力„を機械(計算機)にも持たせる」
ことを目指す人工知能の一研究分野
 近年では、「統計的」機械学習が主流
– 遺伝子情報処理、自然言語処理他、ビジネス分野...
4 KYOTO UNIVERSITY
 データ解析手法の大別:予測と発見
– 予測:「これから何が起こるのか?」 ≒ 教師つき学習
• 過去~現在のデータをもとに、将来のデータについての予測
をおこなう
– 発見:「いま何が起きているのか?」...
5 KYOTO UNIVERSITY
 マーケティング
– 商品推薦
– Web上の評判分析
– Web広告の最適化
 金融
– 信用リスク評価
– 不正検出
 サイエンス
– 遺伝子予測(バイオ)
– 新規材料開発(材料)
機械学習の様...
6 KYOTO UNIVERSITY
 進む機械学習の社会実装
– 不確定で膨大なデータに対応する方法論が進展
– ブラックボックス・ツールが整備
 IT分野に限らず、様々な分野への応用が検討されている
– ヘルスケア、航空、自動車、バイオ...
7 KYOTO UNIVERSITY
 機械学習等によるデータの自動解析は、しばしばデータ解析の中
心として捉えられる
 データ解析全体のプロセスは、その大部分が人間に依存する
データ解析の労働集約性:
データ解析プロセスの大部分が人間に依...
8 KYOTO UNIVERSITY
 「2015年までに、ビッグデータ需要により創出される雇用機会は
世界で440万人に達するが、実際に採用につながるのは3分の1
のみにとどまる」(ガートナー)
 「データサイエンティストは、21世紀でも...
9 KYOTO UNIVERSITY
 クラウドソーシングとは:
「(インターネットを通じて)不特定多数の人に仕事を
依頼すること、もしくはその仕組み」
 クラウドソーシングのメリット:群衆の叡智にアクセス
(「三人寄れば文殊の知恵」)
...
10 KYOTO UNIVERSITY
クラウドソーシングによるデータ解析:
知識とスキルを集結してデータ解析を実現
データ収集 データ統合
クレンジング
注釈 視覚化
モデル化
評価/解釈
電子化
データ解析のプロセス
データ化(データフィケ...
11 KYOTO UNIVERSITY
 自動化の進むモデリング部分も実は労働集約的
–“No free lunch”定理: どんな場合でもうまくいく方法はない
–しばしば、結果を大きく左右するのは、既存の手法の選択+
データ固有のヒューリス...
12 KYOTO UNIVERSITY
 Wikipediaのリンク予測を題材にしたコンペティションを開催
 短期間で‟プロ„ を遥かに超える予測精度を達成
–初期分析結果を4日目で抜き、最終的に20%以上の精度向上
予測コンペティションの...
13 KYOTO UNIVERSITY
 :教育用途コンペプラットフォーム
–データ解析の実践を通じた、データ解析教育を目的に開発
–大学講義・演習、企業内研修での利用も
 現在約400名が参加登録
 10を超えるコンペティションを開催
...
14 KYOTO UNIVERSITY
 コンペティションの流れ:
1. 訓練データ(正解付き)とテストデータの公開
2. テストデータに対する予測の提出
3. 期間終了後、テストデータに対する予測精度で順位決定
 リーダーボード:
中間評...
15 KYOTO UNIVERSITY
予測精度の評価(イメージ):
正解を隠したテストデータで予測の良さを評価
入力
(配列)
正解
GATTAT ○
ATGCTC ×
CGTGAT ×
CACTTA ○
モデル作成 モデル適用
入力
(配列...
16 KYOTO UNIVERSITY
より具体的な予測精度の評価:
予測の自信度を提出⇒正解との相関(AUC)で評価
入力
(配列)
正解
GATTAT ○
ATGCTC ×
CGTGAT ×
CACTTA ○
モデル作成 モデル適用
入力
...
17 KYOTO UNIVERSITY
さらに今回のチャレンジは複数ラベルの予測:
複数のラベルそれぞれに自信度を提出
入力
(配列)
正解
条件1 … 条件8
GATTAT ○ … ×
ATGCTC × … ○
CGTGAT × … ×
CA...
18 KYOTO UNIVERSITY
アカウント作成http://universityofbigdata.net
19 KYOTO UNIVERSITY
今回のチャレンジ
20 KYOTO UNIVERSITY
データをダウンロード
いくつかの規約
に同意
データファイルの
説明
21 KYOTO UNIVERSITY
テストデータへの予測
ファイルを提出
(1日3回まで)
現在の順位
(テストデータの一部で算出)
22 KYOTO UNIVERSITY
最終順位
(テストデータ全部で算出)
チャレンジ終了時
23 KYOTO UNIVERSITY
 広がる機械学習の応用
 コンペティション形式で実際の解析を通じた学習
「DNA配列からのクロマチン特徴予測」
 みんなの力で「専門家」を超える
 コンペティション参加者は
–遺伝研のスーパーコン...
Upcoming SlideShare
Loading in …5
×

[DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

1,013 views

Published on

機械学習と予測モデルコンペティション
講師:鹿島 久嗣 (京都大学大学院 情報学研究科 知能情報学専攻 教授)
2016年7月6日「DDBJデータ解析チャレンジ 2016 キックオフ講習会」
@国立研究開発法人 科学技術振興機構 東京本部別館
YouTube:https://www.youtube.com/watch?v=ndJ735cJJco
DDBJデータ解析チャレンジ:http://www.ddbj.nig.ac.jp/ddbj-challenge2016-j.html

Published in: Education
  • Be the first to comment

[DDBJ Challenge 2016] 機械学習と予測モデルコンペティション

  1. 1. 1 KYOTO UNIVERSITY KYOTO UNIVERSITY DEPARTMENT OF INTELLIGENCE SCIENCE AND TECHNOLOGY 機械学習と予測モデルコンペティション 京都大学 情報学研究科 知能情報学専攻 鹿島 久嗣
  2. 2. 2 KYOTO UNIVERSITY  “人工知能” の成功: – クイズ王に勝利した質問応答システム – プロ棋士に勝利したコンピュータ将棋・囲碁  今回の“人工知能”ブームは機械学習に支えられている – とりわけ深層学習がブームを牽引 機械学習の躍進: “人工知能”の成功を支えるコア技術
  3. 3. 3 KYOTO UNIVERSITY  機械学習とは、もともと 「人間のもつ‟学習能力„を機械(計算機)にも持たせる」 ことを目指す人工知能の一研究分野  近年では、「統計的」機械学習が主流 – 遺伝子情報処理、自然言語処理他、ビジネス分野での成功 – データ解析技術一般を指すほかの領域との境は曖昧  深層学習の大ブレーク – 機械学習≒深層学習≒人工知能?? 機械学習とは何か: 機械学習はデータ解析の一分野
  4. 4. 4 KYOTO UNIVERSITY  データ解析手法の大別:予測と発見 – 予測:「これから何が起こるのか?」 ≒ 教師つき学習 • 過去~現在のデータをもとに、将来のデータについての予測 をおこなう – 発見:「いま何が起きているのか?」 ≒ 教師なし学習 • 過去~現在のデータをもとに、何らかの知見を得る 機械学習には何ができるか: 予測と発見
  5. 5. 5 KYOTO UNIVERSITY  マーケティング – 商品推薦 – Web上の評判分析 – Web広告の最適化  金融 – 信用リスク評価 – 不正検出  サイエンス – 遺伝子予測(バイオ) – 新規材料開発(材料) 機械学習の様々な応用: オンラインショッピングからシステム監視まで  Web – 検索 – スパム判定 – SNS  ヘルスケア – 医療診断  マルチメディア – 音声・画像認識  システム監視 – 故障・異常検知
  6. 6. 6 KYOTO UNIVERSITY  進む機械学習の社会実装 – 不確定で膨大なデータに対応する方法論が進展 – ブラックボックス・ツールが整備  IT分野に限らず、様々な分野への応用が検討されている – ヘルスケア、航空、自動車、バイオ、製薬、材料科学、… 非IT系分野への広がり: 機械学習は社会実装フェーズ
  7. 7. 7 KYOTO UNIVERSITY  機械学習等によるデータの自動解析は、しばしばデータ解析の中 心として捉えられる  データ解析全体のプロセスは、その大部分が人間に依存する データ解析の労働集約性: データ解析プロセスの大部分が人間に依存 データ収集 データ統合 クレンジング 注釈 視覚化 モデル化 評価/解釈 電子化 データ解析のプロセス 大部分が 属人的・労働集約的 データ化(データフィケーション) データ分析(アナリティクス)
  8. 8. 8 KYOTO UNIVERSITY  「2015年までに、ビッグデータ需要により創出される雇用機会は 世界で440万人に達するが、実際に採用につながるのは3分の1 のみにとどまる」(ガートナー)  「データサイエンティストは、21世紀でもっとも‟セクシー„な職業」 (ハーバード・ビジネス・レビュー)  これらの‟煽り„はデータ解析の労働集約性の高さを示している データサイエンティストの不足: データ解析の属人性の象徴
  9. 9. 9 KYOTO UNIVERSITY  クラウドソーシングとは: 「(インターネットを通じて)不特定多数の人に仕事を 依頼すること、もしくはその仕組み」  クラウドソーシングのメリット:群衆の叡智にアクセス (「三人寄れば文殊の知恵」)  Foldit:タンパク質の立体構造予測 – オンラインゲームの形で実現 クラウドソーシングの登場: みんなの力を合わせて目標を達成 ※ クラウドソーシング ≠ クラウドコンピューティング
  10. 10. 10 KYOTO UNIVERSITY クラウドソーシングによるデータ解析: 知識とスキルを集結してデータ解析を実現 データ収集 データ統合 クレンジング 注釈 視覚化 モデル化 評価/解釈 電子化 データ解析のプロセス データ化(データフィケーション) データ分析(アナリティクス) クラウドソーシングによる プロセス実行
  11. 11. 11 KYOTO UNIVERSITY  自動化の進むモデリング部分も実は労働集約的 –“No free lunch”定理: どんな場合でもうまくいく方法はない –しばしば、結果を大きく左右するのは、既存の手法の選択+ データ固有のヒューリスティクス(特徴量、サンプル選択など)  データに合ったモデルを(人手で)広範囲に探索する必要がある  データ解析コンペティション:モデリングのクラウドソーシング –データを公開し、結果(予測精度)を競う クラウドソーシングによる予測モデリング: 予測コンペティションによる網羅的なモデル探索
  12. 12. 12 KYOTO UNIVERSITY  Wikipediaのリンク予測を題材にしたコンペティションを開催  短期間で‟プロ„ を遥かに超える予測精度を達成 –初期分析結果を4日目で抜き、最終的に20%以上の精度向上 予測コンペティションの威力: 短期間で‟プロ„を超える精度を実現 初期分析の 予測精度 4日で 抜き去られる 20%以上の 精度向上 予測精度 Baba et al. Crowdsourced Data Analytics. In DSAA 2014.
  13. 13. 13 KYOTO UNIVERSITY  :教育用途コンペプラットフォーム –データ解析の実践を通じた、データ解析教育を目的に開発 –大学講義・演習、企業内研修での利用も  現在約400名が参加登録  10を超えるコンペティションを開催 ビッグデータ大学: 実践を通じたデータ解析教育のためのプラットフォーム
  14. 14. 14 KYOTO UNIVERSITY  コンペティションの流れ: 1. 訓練データ(正解付き)とテストデータの公開 2. テストデータに対する予測の提出 3. 期間終了後、テストデータに対する予測精度で順位決定  リーダーボード: 中間評価用データ(テストデータの一部)に対する順位を公開 コンペティションの仕組み: テストデータに対する予測精度で勝者を決定 データ公開 予測提出 y=f(x) 最終結果 データ提供者 参加者 数週間~ 数か月
  15. 15. 15 KYOTO UNIVERSITY 予測精度の評価(イメージ): 正解を隠したテストデータで予測の良さを評価 入力 (配列) 正解 GATTAT ○ ATGCTC × CGTGAT × CACTTA ○ モデル作成 モデル適用 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × クロマチン特徴領域が 含まれるか否か 訓練データ テストデータ 予測と正解の一致率で評価 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × 入力 (配列) 予測 正解 (非公開) AAAAA ○ TATATA × GTACTA × 入力 (配列) 予測 正解 (非公開) AAAAA TATATA GTACTA
  16. 16. 16 KYOTO UNIVERSITY より具体的な予測精度の評価: 予測の自信度を提出⇒正解との相関(AUC)で評価 入力 (配列) 正解 GATTAT ○ ATGCTC × CGTGAT × CACTTA ○ モデル作成 モデル適用 入力 (配列) 予測 正解 (非公開) AAAAA ○ ○ TATATA × × GTACTA × × 訓練データ テストデータ 予測と正解の相関(AUC) で評価 入力 (配列) 予測 正解 (非公開) AAAAA 0.9 ○ TATATA 0.3 × GTACTA 0.2 × クロマチン特徴領域が 含まれる自信度
  17. 17. 17 KYOTO UNIVERSITY さらに今回のチャレンジは複数ラベルの予測: 複数のラベルそれぞれに自信度を提出 入力 (配列) 正解 条件1 … 条件8 GATTAT ○ … × ATGCTC × … ○ CGTGAT × … × CACTTA ○ … × 訓練データ テストデータ 入力 (配列) 正解 条件1 … 条件8 AAAAA 0.9 … 0.1 TATATA 0.3 … 0.8 GTACTA 0.2 … 0.4 8条件それぞれに対する 正解 8条件それぞれに対する 予測(自信度)
  18. 18. 18 KYOTO UNIVERSITY アカウント作成http://universityofbigdata.net
  19. 19. 19 KYOTO UNIVERSITY 今回のチャレンジ
  20. 20. 20 KYOTO UNIVERSITY データをダウンロード いくつかの規約 に同意 データファイルの 説明
  21. 21. 21 KYOTO UNIVERSITY テストデータへの予測 ファイルを提出 (1日3回まで) 現在の順位 (テストデータの一部で算出)
  22. 22. 22 KYOTO UNIVERSITY 最終順位 (テストデータ全部で算出) チャレンジ終了時
  23. 23. 23 KYOTO UNIVERSITY  広がる機械学習の応用  コンペティション形式で実際の解析を通じた学習 「DNA配列からのクロマチン特徴予測」  みんなの力で「専門家」を超える  コンペティション参加者は –遺伝研のスーパーコンピュータ –MATLAB が利用可能 まとめ: 機械学習と予測モデリングコンペティション

×