Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

JAWS FESTA 2018 OSAKA AHAB

341 views

Published on

2018年11月3日にパナソニックスタジアム吹田で開催されたイベント「JAWS FESTA 2018 OSAKA ~Passionate~」のセッション「AWSとDockerで実現するAI研究のためのPipeline as Code」で使った資料です。

来栖川電算ではAWS BatchやAmazon SageMaker的なことをオンプレ環境やハイブリッドクラウド環境で実現し、その上で研究プロエスをコード化しているという話です。研究プロセスを工夫すればもっと良い成果がだせるようになるはずです。

Published in: Technology
  • Be the first to comment

JAWS FESTA 2018 OSAKA AHAB

  1. 1. A W S と D o c k e r で 実 現 す る A I 研 究 の た め の Pipeline as Code パ ナ ソ ニ ッ ク ス タ ジ ア ム 吹 田 2 0 1 8 . 1 1 . 3 来 栖 川 電 算 取 締 役 山 口 陽 平 J A W S F E S T A 2 0 1 8 O S A K A ~ P a s s i o n a t e ~ B ト ラ ッ ク # j f t 2 0 1 8 _ b
  2. 2. Pipeline as Code ソフトウェア開発のノウハウで管理を効率化する考え方 • “XXX” as Code – 管理対象をコードとして記述することで、対 象の管理にソフトウェア開発のベストプラク ティス(自動化・版管理)を適用する手法 • 恩恵:再現性・追跡可能性・再利用性の向上 • 具体例:Infrastructure as Code,CI,CD • Pipeline as Code (= PaC) – あらゆる管理対象はパイプライン(それを生 成するプロセス)とみなせるので、あまたあ る “XXX” as Code の総称として使える言葉 2
  3. 3. 今日話すこと • PaC を AI 研究へ適用する話 ×PaC を AI 開発運用へ適用する話ではない。 • 最近よく聞くようになった MLops(機械学習 のための DevOps)は AI 開発運用の話が多い。 3 AI 開発 AI 運用AI 研究
  4. 4. 話の流れ 1. はじめに 2. 来栖川電算での AI 研究 3. 実験スケジューラ 4. まとめ 5. 付録 4
  5. 5. はじめに 自己紹介 & 会社紹介 5
  6. 6. 山 口 陽 平 @melleo1978 • 所属 – 有限会社 来栖川電算 取締役 – 名古屋工業大学大学院博士前期課程修了 • 実績 – IPA 未踏ソフトウェア創造事業採択 – Mashup Awards 9 優秀賞受賞 • 興味 – 機械学習,強化学習,UI/UX – 高速化,省資源化,並列分散 ※実物に髪の毛はありません 6
  7. 7. 山 口 陽 平 @melleo1978 • [実践]画像認識 を執筆 WEB+DB PRESS Vol.83 – これから画像認識をはじめる人におススメ 7 – OpenCV の使い 方や実装例 – SIFTなどの各種 アルゴリズムや 特定物体認識の しくみ – 精度改善への取 り組み方
  8. 8. 来栖川電算 設立 2003年(名古屋工業大学発ベンチャー) 従業員 62人 • SF 世界の技術を実現し、社会に役立てる – AI 技術のライセンス販売・研究・SI • 文字認識,物体認識,動作認識,行動認識 – スマホアプリの企画・制作・運営 スマートライフ技術 NTTドコモ様との共同研究 スマートドライブ技術 大手自動車メーカー様むけ メイドさん もふくめて 8
  9. 9. 9 タンゴチュウ 写真に写る単語を抽出するサービス ヒーローの動きでゲームを制御 なりきり2.0 動作推定API 加速度センサで人の行動を推定 毎朝体操 腕の動きで体操採点するアプリ 走行データ解析 周辺環境を認識し、様々な解析に活用 地図生成 オルソ画像から地物・交通規則を抽出 ANNOFAB 高品質なアノテーションを大量に生産可能 DNNコンパイラ DNNの推論を10~1000倍も効率化 AHAB 大量の実験と計算資源を効率的に管理 AR付箋 書籍の中身を検索するアプリ Cellars ワインラベルで情報検索するアプリ 画像認識API 商品パッケージで情報検索するAPI 類 似 検 索 GameControllerizer プログラマブル・ゲームコントローラ 生活情報調査 道路沿いの視覚情報を収集し、活用 交通情報調査 道路沿いの視覚情報を収集し、活用 類 似 検 索 類 似 検 索 物 体 認 識 文 字 認 識 モ ー シ ョ ン 認 識 研 究 開 発 支 援 物 体 認 識 物 体 認 識 物 体 認 識 研 究 開 発 支 援 モ ー シ ョ ン 認 識 モ ー シ ョ ン 認 識 研 究 開 発 支 援 研 究 開 発 支 援 事 例 ・ 製 品 ・ サ ー ビ ス
  10. 10. 技術者集団 様々なアルゴリズムや知識で課題解決 • 最先端の AI 技術 – 文字認識,物体認識,モーション認識 • 限界性能を引き出す優れた実装技術 – 機械学習・コンパイラ・データベースなどの アルゴリズムやバイナリハックを駆使した高 精度化・高速化・省資源化・並列化・分散化 • 高品質なソフトウェアを実現する技術 – 言語・アーキテクチャ・プロセスに対する深 い理解に基づく設計と計画 10
  11. 11. コミュニティ活動 様々な勉強会を積極的に主催、スタッフとして協力 11
  12. 12. 来栖川電算での AI 研究 すぐ分かる 12
  13. 13. AI 研究の具体例 そもそも、どうやればいいか分からないところから出発する 13
  14. 14. 地図生成 オルソ画像から地物・交通規則を抽出 自動運転に使用可能な高品質な地図をオルソ画像から 高速に抽出できる深層学習手法を開発。株式会社トヨ タマップマスター様との応用事例。 14
  15. 15. 交通情報調査 道路沿いの視覚情報を収集し、活用 首都圏を走行する大量の車両のドラレコを解析し、視 覚情報(天候,路面状態,レーン別交通量,…)を DB 化。顧客との研究事例。 15
  16. 16. 生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 16
  17. 17. AI 研究者の仕事 手数が重要になる 17
  18. 18. AI 研究者の仕事 仮説検証を回し、どうやればいいかを明らかにすること • たくさんの実験の実施 ⇒ 良い結果 • 絡み合う実験の管理 ⇒ 研究の信頼性 18
  19. 19. AI 研究にまつわる課題 量が多いだけで厄介になる 19
  20. 20. AI 研究者の悩み たくさんの絡み合う実験の扱いが厄介 • こんな実験がたくさんあるから – 複数の工程からなる実験 – 少しだけ設定が異なる実験 – 過去のチャンピオンをベースにした実験 • ⇒ こんなことが起きる – 手作業が挟まると取り違える。 – 後で確認(やり直し)したくなる。 • ⇒ 実験パイプラインのコード化が重要 20
  21. 21. 計算環境の制約 いろいろな環境の GPU を必要な時に必要なだけ使いたい • 各人が占有するやり方はしたくない – 費用・電源が足りない。調達運用したくない。 – そもそも GPU 1 枚/人程度じゃ全然足りない。 • お客様が貸してくれる環境も活用したい – 大規模なオンプレ環境を用意してくれる。 • よく不足するのでクラウドも活用したい – 突発的に百枚単位でいることがある。 • ⇒ 計算環境の抽象化・共有が重要 21
  22. 22. 実験スケジューラ AWS × Docker で実現する 22
  23. 23. AHAB (実験スケジューラ) 来栖川電算の研究者が使う研究基盤 23
  24. 24. 計算環境の抽象化 計算環境を替えても同じコードで OK ハードの隠蔽 24 WebAPI・CLI WebAPI・CLI WebAPI・CLI 実験パイプライン ・実験コードの Docker 化 ・実験の依存関係のコード化 ※二段階のコード化
  25. 25. スケジューリング 実験の自動化と計算環境の隔離 計算資源の割当 25
  26. 26. まとめ AHAB は AI 研究にまつわる課題を解決 • 実験の自動化と計算環境の隔離 ※Docker – 他の実験の計算環境・コード・データとの干 渉による不正計算や異常停止が起きない。 • 計算環境の抽象化 ※Web API,CLI – 計算環境(自社・お客様・クラウドなど)が 変わっても同じコード・データが使える。 • 効率的な計算資源の割当と伸縮 – 個人で計算資源を占有せず、全員で共有 26
  27. 27. 何かに似ている・・・ 嫌な予感がする・・・ 27
  28. 28. Amazon ECS コンテナ実行環境:すげー似てる・・・ 28
  29. 29. 29
  30. 30. AWS Batch コンテナ型ジョブスケジューラ:ほぼ同じじゃん・・・ 30
  31. 31. 31
  32. 32. Amazon SageMaker 機械学習環境:機械学習に特化しててめちゃ便利・・・ 32
  33. 33. 33 また同じの作っちゃったよ 毎朝体操のデータ同期基盤のときもヤラレタ Amazon Cognito Sync & AWS AppSync
  34. 34. まとめ AI 研究のための Pipeline as Code 34
  35. 35. まとめ1 Pipeline as Code は AI 開発の課題を解決 • 研究を上手く進めるには – たくさんの実験の実施 ⇒ 良い結果 – 絡み合う実験の管理 ⇒ 研究の信頼性 • たくさんの絡み合う実験の管理には – 実験パイプラインのコード化が重要 – 計算環境の抽象化・隔離・共有が重要 • 実験スケジューラがあればやれる – AHAB,AWS Batch,Amazon SageMaker 35
  36. 36. まとめ2 AI 開発のための Pipeline as Code やるなら • AWS Batch / Amazon SageMaker – すごく便利なので初心者は使うべき – ただし、ちょっとお高い • AHAB – 規模が大きくなってきて費用が気になるなら – オンプレ・ハイブリッドクラウドなら • 教訓 – 基盤的な機能が欲しいと思ったら数年後待て 36
  37. 37. 製品・サービス 付録① 37
  38. 38. 類似検索 膨大なデータの中から類似データを高速・高精度に照合できる 38
  39. 39. 画像認識 API 商品パッケージで情報検索する API 商品パッケージが写った画像を送信するだけで、膨大 な DB から瞬時に種類を特定。クロールした画像から 直接構築した DB を利用。 39
  40. 40. Cellars ワインラベルで情報検索するアプリ ワインラベルにスマホをかざすだけで、18 万件から 瞬時に種類を特定。国内外のコンテストで入賞。株式 会社 Cellars 様による弊社技術の応用事例。 40
  41. 41. AR 付箋 書籍の中身を検索するアプリ 書籍を開いてスマホをかざすだけで、膨大な DB から 瞬時にページを特定し、貼られている付箋を表示。お 客様による弊社技術の応用事例。 41
  42. 42. 物体認識 物体の位置・向き・姿勢・種類を高速・高精度に捉える 42
  43. 43. 走行データ解析 周辺環境を認識し、様々な解析に活用 膨大な走行データから歩行者・車両・白線・標識など を検出・追跡し、索引化。必要に応じて、CAN や Lidar なども活用し、高品質化。 43
  44. 44. 地図生成 オルソ画像から地物・交通規則を抽出 自動運転に使用可能な高品質な地図をオルソ画像から 高速に抽出できる深層学習手法を開発。株式会社トヨ タマップマスター様との応用事例。 44
  45. 45. 交通情報調査 道路沿いの視覚情報を収集し、活用 首都圏を走行する大量の車両のドラレコを解析し、視 覚情報(天候,路面状態,レーン別交通量,…)を DB 化。顧客との研究事例。 45
  46. 46. 生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 46
  47. 47. 文字認識 様々な書体・外乱に対応した 47
  48. 48. タンゴチュウ 写真に写る単語を抽出するサービス 情景画像(スマホで撮影した写真など)に写る単語を 抽出。様々な書体・配置・劣悪な環境(歪み・隠れ・ 擦れ・照明など)での利用を想定。 48
  49. 49. モーション認識 身体の動き・姿勢を高速・高精度に捉える 49
  50. 50. 動作推定 API 加速度センサで人の行動を推定 スマホやウォッチの動きから静止・歩行・走行・食 事・睡眠などを推定。同じ仕組みで撮影時の手振れ検 出も可能。株式会社 NTT ドコモ様との共同研究。 50
  51. 51. 毎朝体操 腕の動きで体操採点するアプリ 100 ヶ国 20 万人を超えるユーザから日々送られてく るセンサデータを学習することで体操採点の正確さが 自動改善。JFE スチール株式会社様へ導入。 51
  52. 52. なりきり 2.0 ヒーローの動きでゲームを制御 腕や脚に装着したセンサで体の動きを捉え、家庭用 ゲーム機のコマンドを生成。格闘ゲームが遊べるほど の速さと正確さをスマホ上で実現。 52
  53. 53. 研究開発支援 日々使い改良される道具による 53
  54. 54. DNN コンパイラ DNNの推論を 10 ~ 1000 倍も高速化 重みや活性の量子化・スパース化、計算の共有などの 様々な手法で DNN を近似し、高速化・省資源化され た実行形式(Linux・Android・iOS)へ変換。 54
  55. 55. AHAB 大量の実験と計算資源を効率的に管理 計算資源をハイブリッドクラウド化する実験スケ ジューラ。実験のスクリプト化、信頼性や再現性の向 上、資源割り当ての効率化などを促進。 55
  56. 56. ANNOFAB 高品質な教師データを大量に生産可能 品質と生産性のトレードオフ、誤り漏れの削減、きめ 細かく柔軟な仕様・課題・進捗の管理。実務で培った ノウハウが詰まったアノテーションサービス。 56
  57. 57. GameControllerizer プログラマブル・ゲームコントローラ ゲーム機・PC・スマホなどに接続するだけでゲーム 操作をプログラミング可能にするデバイス。ビジュア ル・プログラミング(Node-REDなど)にも対応。 57
  58. 58. 体制・設備・サポート 付録② 58
  59. 59. 体制 AI 実現のための全業務をカバー 59 AI アプリ SI インフラ AI インフラ データ モデル 研究者アノテータ デザイナ 開発者 職種 正社員 アルバイト 合計 24 時/週以上 12 時/週以上 ※即戦力 試用期間 研究者 21 % 2 % 9 % 0 % 32 % 開発者 14 % 9 % 5 % 4 % 32 % アノテータ 5 % 27 % 0 % 0 % 32 % デザイナ 0 % 4 % 0 % 0 % 4 % 合計 41 % 41 % 14 % 4 % 100 %
  60. 60. 設備 研究開発を円滑にするためにあらゆる手を尽くす • 理想的な個人設備 ※好きなものが選べる – PC,椅子,モニタ,キーボード,マウス,… • 豊富な計算資源とアノテータ ※使いやすい – AHAB:実験用ハイブリッドクラウド – ANNOFAB:アノテーションサービス • 豊富な独自データ ※世界中からどんどん集まる – 自動運転用データ,商品認識用データ,文字 認識用データ,体操採点用データ,… 60
  61. 61. サポート 技術を磨きやすくするためにあらゆる手を尽くす • 様々な働き方 – 自由な時間帯・場所,冒険者制度,… • 優秀な同僚 ※メンタリング(JEDI) – IPA 未踏ソフトウェア創造事業採択者,コン テスト入賞者,OSS コントリビュータ,… • その他 ※全て会社負担 – 自己研鑽のための書籍・機材の購入 – 勉強会・懇親会の開催・参加・移動・宿泊 – 会社の昼会・夕会・飲み会で供される飲食物 61
  62. 62. 62 募集中! ・研究者 ・開発者 ・デザイナ

×