Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI

426 views

Published on

AI、特にDeep Learningのモデルの開発環境を運用するなかで、次のような課題はありませんか?

✔ 案件ごとに多様な環境を用意するのが大変
✔ GPU・ノードの運用が大変

本スライドではそんな悩みを抱えるインフラ管理者向けに
・AI/Deep Learningの概要
・AI開発時に発生する課題(AI開発者、インフラ管理者、AI事業
 を推進するマネージャそれぞれの課題)
・課題を解決するAI開発プラットフォーム「KAMONOHASHI」
 について紹介しています。

Published in: Technology
  • Be the first to comment

  • Be the first to like this

<インフラ管理者向け>チームでのAI開発を支援するAI開発プラットフォームKAMONOHASHI

  1. 1. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. AI開発環境を実現する KAMONOHASHIのご紹介 日鉄ソリューションズ株式会社 システム研究開発センター
  2. 2. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 1. 自己紹介 目次 2. Deep Learning概要と弊社の取り組み 3. AI開発推進時に発生する課題 4. KAMONOHASHIの紹介
  3. 3. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 自己紹介 1 3
  4. 4. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. システム研究開発センターについて 4 ベトナム・ハノイ/FPT (開発保守拠点) 米国・San Mateo/NSSOL USA (研究企画拠点) 中国・上海/新日鉄住金軟件 (研究開発拠点) 14階の実験設備 三菱重工横浜ビルHPより引用 日鉄ソリューションズ(NSSOL)の研究開発 (R&D) 部門 • 2000年より みなとみらい三菱重工横浜ビルの2.5フロアを拠点 • 社員約110名、パートナー約90名 技術の’活用’に軸足を置いた研究開発部門 独立系(ユーザー系)SIer の研究開発部門(希有な存在)  クラウドコンピューティングなどの実験設備を保有  グローバル組織と密に連携
  5. 5. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 5 システム研究開発センターの取り組み NSSOL システム研究開発センターでは、データ活用をライフサイクルとして考え、AI領域は勿論、ライフサイクル実現に必要な各 領域について、研究開発を行っています。 AI領域 • 事故予防 • 概念検索システム • 自動レビューチャットボット • デジタルツイン • フォグコンピューティング • データ分析統合環境 • 機械学習プラットフォーム • Deep Learining 開発プラットフォーム • データ匿名化 • データ プレパレーション • DataOps プラットフォーム
  6. 6. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 日鉄ソリューションズ(株) システム研究開発センター データ分析・基盤研究部 iNnovative iNtelligence Gr. Deep Learning を専門とするグループ  2015.10 ~ チーム形成  通称 NN Group 所属組織・チーム紹介 6
  7. 7. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. Deep Learning で我々が提供できる価値 7  製造業で培ったDeep Learningの適用コンサルティング – Deep Learningを製造業に適用する専属部隊 – 製造業向けのDeep Learning適用ノウハウ – PoC実施および実機開発の導入実績 • 必要な周辺システムの開発までワンストップで提供可能  当社ノウハウを凝縮した開発環境 KAMONOHASHI – Deep Learningを適用する際に直面した問題を解消 – Deep Learningエンジニアの効率を最大化
  8. 8. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. Deep Learningの概要と弊社取り組み 2 8
  9. 9. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 人工知能の変遷 9
  10. 10. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 人工知能の注目ニュース 10  コンピュータ囲碁  計算の難易度(局面の数) – オセロ(10^60) < 将棋(10^220) < 囲碁(10^360) – あと十年以上は人間が優位だと言われていた  2017年 AlphaGOが世界トップ棋士の柯潔を打ち破る https://free-materials.com/%E5%9B%B2%E7%A2%81%E3%83%BB%E5%AF%BE%E5%B1%80%E3%83%BB%E7%A2%81%E7%9B%A401/
  11. 11. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. AI技術発展の原動力 11 アルゴリズムの進歩 大量のデータが利用可能 計算リソースの進化
  12. 12. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 人工知能と機械学習とディープラーニングの関係  人工知能がもっとも包括的な概念(厳密な定義なし)  機械学習はその中の一つの分野  ディープラーニングは機械学習の手法のひとつ 12
  13. 13. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 機械学習(画像認識のケース) 13  人間がラベル付けした大量の画像から  機械自身が判定するためのルールを作る(学習) 判定学習(犬の例を教える) これは犬です
  14. 14. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. ディープラーニングの効果 14 https://publicdomainq.net/x-ray-neck-bone-0010585/ 従来の機械学習  入力は「注目する要素」 – 色の濃さ – 大きさ・面積 ディープラーニング  入力は画像自体 – 例えば各ピクセル情報が入力になる 機械が画像中の「注目する要素」を学習 →言語化しにくい特徴を活用できる
  15. 15. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 画像認識以外のDeep Learningの事例 15  機械翻訳:Deep Learning技術により機械翻訳の精度が向上 – 身近なところではGoogle翻訳など  画像生成 - 実在しない人物の顔写真を生成 – https://thispersondoesnotexist.com/  音声生成 - 1分間の音声サンプルからスピーチを生成 – https://www.youtube.com/watch?v=YfU_sWHT8mo
  16. 16. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. Deep Learning 開発者の作業内容(その1) 16  目的 – 目標精度を満たすAI(学習結果)の作成  問題 – 事前にどのように設計すると高い精度が出るのかは誰にもわからない  アプローチ – 最初は直感的に入力値を作り、試しにAIを作ってみる – 結果から入力値を見直し、繰り返し学習を行って精度を改善させていく GPU GPU 学習結果 (AI) データ モデル パラメータ
  17. 17. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. Deep Learning 開発者の作業内容(その2) 17  入力値の見直し例  データ:どのデータ(画像)を使うか – すべてのデータを使うのが良いとは限らない – 工場Aの不良品判定に工場Bの画像が役立つかどうかはわからない  モデル:ネットワークの種類 – ニューラルネットワークの層の数や層の結合のさせ方を変える  パラメータ:損失関数のチューニング – 予測した時、間違いがどれほど大きいのかを定量化する関数を調整しなおす
  18. 18. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 弊社取り組みに近い例(錆の検出) 18  専門性の高い画像認識  検出すべきかの判断に専門家が必要 – e.g. 検出したい錆と検出不要な錆がある – マーキング漏れ等を検出しやすくするチェックツールを作成して精度を向上  境界線が曖昧なもの – e.g. にじんでいて検出対象内外の境目がはっきりしない – 曖昧な領域を指定するマーキングツールと手法を開発 https://nhoilundercoating.com/car-rust-whats-really-happening/
  19. 19. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. Deep Learning適用事例:日本製鉄殿  Deep Learning適用による製品管理の高度化を実現  対象 – フレームワーク:Tensor Flow – 利用したデータ量:数千枚の教師データ – マーキング数:約1万 – 学習時間:1学習に2日間 – 判定速度:1GBytes / sec 程度
  20. 20. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. AI開発の際に発生する課題 3
  21. 21. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. Deep Learning 開発体制の特徴:計算リソースの共有 21 Storage GPU a GPU a GPU b GPU b GPU c GPU c GPU d GPU d GPU e GPU e GPU f GPU f GPU f GPU f GPU g GPU g GPU g GPU g 複数チームが複数の 計算リソースを共有 他多数プロジェクト
  22. 22. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 22 Deep Learning 開発のプロセスの特徴:繰り返しが多い 学習では試行錯誤を 繰り返す
  23. 23. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 23 Deep Learning 開発のプロセスの特徴:繰り返しが多い プロセス全体でも 繰り返しが発生 問題の再設定 環境の追加・変更 データの集め直し
  24. 24. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 独自にDeep Learningをやっているが案外雑用が多くて大変 → 本業(専門性が高い業務)の時間がほとんど取れない 部署や個人でバラバラでやっているのは効率的ではないので共用させたい → 共用計算リソースの管理コストが肥大 Deep Learning、AI開発事業を加速したいが、 AI開発の人的リソースが足りない →AI開発者やインフラ管理者の生産性を高めたい 24 AI開発の三方つらい AI開発者 インフラ管理者 経営者
  25. 25. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 独自にDeep Learningをやっているが案外雑用が多くて大変 → 本業(専門性が高い業務)の時間がほとんど取れない 部署や個人でバラバラでやっているのは効率的ではないので共用させたい → 共用計算リソースの管理コストが肥大 Deep Learning、AI開発事業を加速したいが、 AI開発の人的リソースが足りない →AI開発者やインフラ管理者の生産性を高めたい 25 AI開発の三方つらい AI開発者 インフラ管理者 経営者
  26. 26. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. AI開発者のツライ:本業(専門性が高い業務)の時間がほとんど取れない  雑用にコストがかかる  学習ごとに柔軟に開発環境を変えたい がOSやライブラリの管理が大変  学習の履歴管理が大変  計算リソースの確保が大変 データセット 学習モデル NFS Mount CUDA フレームワーク
  27. 27. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 独自にDeep Learningをやっているが案外雑用が多くて大変 → 本業(専門性が高い業務)の時間がほとんど取れない 部署や個人でバラバラでやっているのは効率的ではないので共用させたい → 共用計算リソースの管理コストが肥大 Deep Learning、AI開発事業を加速したいが、 AI開発の人的リソースが足りない →AI開発者やインフラ管理者の生産性を高めたい 27 AI開発の三方つらい AI開発者 インフラ管理者 経営者
  28. 28. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. AI開発者のツライ:共用計算リソースの管理コストが肥大 ✔ その2. GPU・ノードの運用が大変 ✔ その1. 案件ごとに多様な環境を用意するのが大変 案件A 案件B 案件C 次頁でもう少し詳しく
  29. 29. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 29 課題その1:案件ごとに多様な環境を用意するのが大変 ✔ マルチテナントで運用したい • 複数の案件で利用したい • 案件ごとに開発環境を変えたい ✔ 適切なアクセス権限をかけたい • 使用できるGPUに権限をつけたい • ユーザによってメニューを制限したい 案件A 案件B 案件C
  30. 30. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 課題その2: GPU・ノードの運用が大変 30 ✔ GPUの利用状況を知りたい ・ どれくらい使われているのかわからない ・ GPUは高価なので余剰を作りたくない ✔ ノードの改廃が手間 ・ 気軽にスケールイン、アウトしたい ✔ 公平に効率的に利用させたい ・ 特定のチームに占有されてしまうと困る ・ GPU単位で共有させて効率的に運用したい
  31. 31. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. KAMONOHASHIの紹介 4
  32. 32. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 32 AI 開発向けのプラットフォーム
  33. 33. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 33 AIエンジニアをAIチームへ
  34. 34. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 34 KAMONOHASHIを導入すると AI開発者 インフラ管理者 経営者 煩雑な作業が減り、より本業のモデル開発に専念できる! ・学習環境を自在に選ぶことができる ・データ管理、学習の管理が楽 ・GPUリソースの確認が楽 AI開発者(や経営者)の要求に応えられるようになる! ・多様なAI開発環境の運用を実現 ・GPU・ノードの運用負荷軽減 効率的なAI開発組織をつくることができる! 以前よりも効率的にAI開発が進んでいるので新しいことにチャレンジしやすい
  35. 35. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 実例と実績 35 年単位の実用実績 当事者のいない2年前の案件を若手が容易に引き継ぎ 約20件の案件で採用 大手製造メーカーDeep Learning適用案件でも多数採用
  36. 36. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. アーキテクチャ 36 S3 NFS Gateway Model Source NFS Storage System Nodes Database PostgreSQL Cluster Manager Web Application GPU Nodes GPU Job MinIO User Browser CLI Container
  37. 37. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 採用しているOSS 37  デファクトスタンダードのツールを採用 – 学習コストが低い – 技術的な負債リスクが低い – エコシステムを活用できる
  38. 38. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 38 はAI開発基盤運用時の課題を解決する 案件A 案件ごとに多様な環境を用意するのが大変 多様なAI開発環境を実現 GPU・ノードの運用が大変 GPU・ノードの運用不可低減
  39. 39. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 多様なAI開発環境の運用を実現(1/3) 39 ✔ マルチテナント方式を採用 ・複数人が複数の案件で 利用可能 ・学習データ、学習履歴情報も 案件ごとに管理可能 大量のデータ 学習モデル 実行コマンド 大量のデータ 学習モデル 実行コマンド 大量のデータ 学習モデル 実行コマンド
  40. 40. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 40 多様なAI開発環境の運用を実現(2/3) ✔コンテナ化により多様な環境を実現 • 学習環境をコンテナ化することで 開発環境は1クリックで変更が可能 • 好きなフレームワークを利用可能 (TensorFlow, Pytorchなど) • WebUIからワンクリックで学習実行が可能 もうKubernetesでyamlを投げる必要は ありません! Ubuntu 16.04 TensorFlow CentOS 7.6 Chainer Ubuntu 18.04 PyTorch
  41. 41. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 41 多様なAI開発環境の運用を実現(3/3) ✔ テナント・ロールごとに 権限設定可能 • テナントごとに使用できるノードを設定 可能 • ロールごとにアクセスできるメニューを設 定可能 ノード A テナント1 ノード B ノード B ノード C ノード D テナント2 Menu A Menu B ロールA Menu A Menu B ロールB Menu C
  42. 42. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. GPU・ノードの運用負荷低減 (1/3) 42 ✔ GPUの利用状況を把握 ・ ノードごとの利用状況を可視化 ・ テナントごとの利用状況を可視化 テナントB テナントA 使用率:75% GPU:3/4 GPU 4枚使用中 使用率:50% GPU:2/4 使用率:25% GPU:1/4 GPU 2枚使用中
  43. 43. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 43 GPU・ノードの運用負荷低減 (2/3) ✔ ノードの改廃が手間 ・ ノードの追加が容易 ・ ノードの一時利用停止も1クリック
  44. 44. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. GPU・ノードの運用負荷低減 (3-1/3) 44 ✔ 公平に効率的に利用させたい ・パーティションの設定によりGPU単位でのアロケーションが可能 ・クォータの設定によりGPUの使用枚数の上限の設定が可能
  45. 45. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 45 GPU・ノードの運用負荷低減 (3-2/3) 永遠に はけない ジョブキュー A ジ ョ ブ A ジ ョ ブA ジ ョ ブ A ジ ョ ブ A ジ ョ ブ A ジ ョ ブ B ジ ョ ブ Aが終わるまで 待ち続ける
  46. 46. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 46 GPU・ノードの運用負荷低減 (3-3/3) A ジ ョ ブ A ジ ョ ブ A ジ ョ ブ A ジ ョ ブ B ジ ョ ブ A ジ ョ ブ A ジ ョ ブ Aにアクセス権がないノードを 設定することで解決 (パーティション管理) プロジェクトごとに 同時利用リソースの 上限設定も可能 (クォータ管理)
  47. 47. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. AI開発基盤運用時の課題に対する解決策まとめ 47 ✔ 現在のGPUの利用状況を把握可能 ✔ ノードの追加が容易に可能 ✔ 公平に効率的に利用可能 ・パーティション/クォータの設定 ✔ 複数の案件で運用可能 ・ マルチテナント方式を採用 ✔ 多様な学習実行環境を実現 ・ 学習実行環境をコンテナ化 ✔ 適切な権限設定により データの秘匿性担保 ・ テナント・ユーザごとにアクセス権限設定が可能
  48. 48. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 48 Coming Soon ✔ より柔軟なリソース運用 ・ クラウドGPUとの並行使用 ・ ストレージはオンプレミス GPUはクラウド使用 ・ データはクラウド、GPUはオンプレミス
  49. 49. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 49 AI 開発プラットフォーム KAMONOHASHI Web: https://kamonohashi.ai Twitter: @kamonohashi_kqi
  50. 50. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 50
  51. 51. Copyright ©2019 NS Solutions Corporation. All Rights Reserved. 商標についての注記 51 – NS Solutions は、日鉄ソリューションズ株式会社の登録商標です – KAMONOHASHI及びKAMONOHASHI(ロゴ)は、日鉄ソリューションズ株式会社の 登録商標です – その他本文記載の会社名及び製品名はそれぞれ各社の商標又は登録商標です

×