Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

JAWS DAYS 2019

455 views

Published on

来栖川電算では、お客様と共に様々な AI 技術を研究開発しています。それだけでなく、研究開発プロセスを効率化する基盤サービスも開発運営し、自らの生産性を高めています。このセッションでは、代表的な2つの基盤サービスを開発する上で、AWS がどのように使われ、どのように役立っているか、について解説します。
・[AHAB] 機械学習の実験を効率的に行うためのサービス
・[ANNOFAB] 機械学習に必要なアノテーション(教師データ)を効率的に生産するためのサービス

Published in: Technology
  • Be the first to comment

JAWS DAYS 2019

  1. 1. A W S と D o c k e r で 実 現 す る A I 研 究 の た め の Pipeline as Code T O C 五 反 田 メ ッ セ 2 0 1 9 . 2 . 2 3 来 栖 川 電 算 取 締 役 山 口 陽 平 JAWS DAYS 2019 ~食せ!!選りすぐりのメニューを!~ Aトラック #jd2019_a
  2. 2. Pipeline as Code ソフトウェア開発のノウハウで管理を効率化する考え方 • “XXX” as Code – 管理対象をコードとして記述することで、対 象の管理にソフトウェア開発のベストプラク ティス(自動化・版管理)を適用する手法 • 恩恵:再現性・追跡可能性・再利用性の向上 • 具体例:Infrastructure as Code,CI,CD • Pipeline as Code (= PaC) – あらゆる管理対象はパイプライン(それを生 成するプロセス)とみなせるので、あまたあ る “XXX” as Code の総称として使える言葉 2
  3. 3. 今日話すこと • PaC を AI 研究へ適用する話 ×PaC を AI 開発運用へ適用する話ではない。 • 最近よく聞くようになった MLops(機械学習 のための DevOps)は AI 開発運用の話が多い。 3 AI 開発 AI 運用AI 研究
  4. 4. 話の流れ 1. はじめに 2. 来栖川電算での AI 研究 3. 実験スケジューラ 4. まとめ 5. 付録 4
  5. 5. はじめに 自己紹介 & 会社紹介 5
  6. 6. 山 口 陽 平 @melleo1978 • 所属 – 有限会社 来栖川電算 取締役 – 名古屋工業大学大学院博士前期課程修了 • 実績 – IPA 未踏ソフトウェア創造事業採択 – Mashup Awards 9 優秀賞受賞 • 興味 – 機械学習,強化学習,UI/UX – 高速化,省資源化,並列分散 ※実物に髪の毛はありません 6
  7. 7. 山 口 陽 平 @melleo1978 • [実践]画像認識 を執筆 WEB+DB PRESS Vol.83 – これから画像認識をはじめる人におススメ 7 – OpenCV の使い 方や実装例 – SIFTなどの各種 アルゴリズムや 特定物体認識の しくみ – 精度改善への取 り組み方
  8. 8. 来栖川電算 設立 2003年(名古屋工業大学発ベンチャー) 従業員 62人 • SF 世界の技術を実現し、社会に役立てる – AI 技術のライセンス販売・研究・SI • 文字認識,物体認識,動作認識,行動認識 – スマホアプリの企画・制作・運営 スマートライフ技術 NTTドコモ様との共同研究 スマートドライブ技術 大手自動車メーカー様むけ メイドさん もふくめて 8
  9. 9. 9 AR付箋 書籍の中身を検索するアプリ Cellars ワインラベルで情報検索するアプリ 画像認識API 商品パッケージで情報検索するAPI 生活情報調査 道路沿いの視覚情報を収集し、活用 交通情報調査 道路沿いの視覚情報を収集し、活用 研究開発支援 タンゴチュウ 写真に写る単語を抽出するサービス 走行データ解析 周辺環境を認識し、様々な解析に活用 地図生成 オルソ画像から地物・交通規則を抽出 動作推定API 加速度センサで人の行動を推定 毎朝体操 腕の動きで体操採点するアプリ ヒーローの動きでゲームを制御 なりきり2.0 ー シ ョ ン 認 識 研究開発支援 研究開発支援 AHAB 大量の実験と計算資源を効率的に管理 ANNOFAB 高品質なアノテーションを大量に生産可能 DNNコンパイラ DNNの推論を10~1000倍も効率化 GameControllerizer プログラマブル・ゲームコントローラ 研究開発支援 類似検索 類似検索 類似検索 文字認識 物体認識 物体認識 物体認識 物体認識 モーション認識 モーション認識 モーション認識物体認識 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用
  10. 10. 体制 AI に関わる全てを提供できる体制 10 技術者育成 プロセス開発 ツール開発 チーム育成 データ収集 データ作成 サービス開発 アルゴリズム研究 アルゴリズム開発 サービス運営 企画
  11. 11. 技術者集団 様々なアルゴリズムや知識で課題解決 • 最先端の AI 技術 – 文字認識,物体認識,モーション認識 • 限界性能を引き出す優れた実装技術 – 機械学習・コンパイラ・データベースなどの アルゴリズムやバイナリハックを駆使した高 精度化・高速化・省資源化・並列化・分散化 • 高品質なソフトウェアを実現する技術 – 言語・アーキテクチャ・プロセスに対する深 い理解に基づく設計と計画 11
  12. 12. コミュニティ活動 様々な勉強会を積極的に主催、スタッフとして協力 12
  13. 13. 来栖川電算での AI 研究 すぐ分かる 13
  14. 14. AI 研究の具体例 そもそも、どうやればいいか分からないところから出発する 14
  15. 15. 地図生成 オルソ画像から地物・交通規則を抽出 自動運転に使用可能な高品質な地図をオルソ画像から 高速に抽出できる深層学習手法を開発。株式会社トヨ タマップマスター様との応用事例。 15
  16. 16. 交通情報調査 道路沿いの視覚情報を収集し、活用 首都圏を走行する大量の車両のドラレコを解析し、視 覚情報(天候,路面状態,レーン別交通量,…)を DB 化。顧客との研究事例。 16
  17. 17. 生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 17
  18. 18. 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用 スマートグラスで撮影した映像から瞳孔位置・閉眼状 態を高精度に推定。個人差・外乱に頑健。エッジで 60 fps。知の拠点あいち重点研究プロジェクト事業。 18
  19. 19. AI 研究者の仕事 手数が重要になる 19
  20. 20. AI 研究者の仕事 仮説検証を回し、どうやればいいかを明らかにすること • たくさんの実験の実施 ⇒ 良い結果 • 絡み合う実験の管理 ⇒ 研究の信頼性 20
  21. 21. AI 研究にまつわる課題 量が多いだけで厄介になる 21
  22. 22. AI 研究者の悩み たくさんの絡み合うデカい実験を扱えるツールがない! • こんな実験が “めっちゃ” たくさんある – 複数の工程からなる微妙に設定が異なる実験 – デカくて時間がかかる実験 • こんなことが ”よく” 起きる – 手作業が挟まると取り違える。 – 後で確認(やり直し)したくなる。 – たまに死ぬので途中から再開したくなる。 • ⇒ 実験パイプラインのコード化が重要 22
  23. 23. 計算環境の制約 いろいろな環境の GPU を必要な時に必要なだけ使いたい • 各人が占有するやり方はしたくない – 費用・電源が足りない。調達運用したくない。 – そもそも GPU 1 枚/人程度じゃ全然足りない。 • お客様が貸してくれる環境も活用したい – 大規模なオンプレ環境を用意してくれる。 • よく不足するのでクラウドも活用したい – 突発的に百枚単位でいることがある。 • ⇒ 計算環境の抽象化・共有が重要 23
  24. 24. 実験スケジューラ AWS × Docker で実現する 24
  25. 25. AHAB (実験スケジューラ) 来栖川電算の研究者が使う研究基盤 25
  26. 26. 計算環境の抽象化 計算環境を替えても同じコードで OK ハードの隠蔽 26 WebAPI・CLI WebAPI・CLI WebAPI・CLI 実験パイプライン ・実験コードの Docker 化 ・実験の依存関係のコード化 ※二段階のコード化
  27. 27. スケジューリング 実験の自動化と計算環境の隔離 計算資源の割当 27
  28. 28. まとめ AHAB は AI 研究にまつわる課題を解決 • 実験の自動化と計算環境の隔離 ※Docker – 他の実験の計算環境・コード・データとの干 渉による不正計算や異常停止が起きない。 • 計算環境の抽象化 ※Web API,CLI,Docker – 計算環境(自社・お客様・クラウドなど)が 変わっても同じコード・データが使える。 • 効率的な計算資源の割当と伸縮 – 個人で計算資源を占有せず、全員で共有 28
  29. 29. 何かに似ている・・・ 嫌な予感がする・・・ 29
  30. 30. Amazon ECS コンテナ実行環境:すげー似てる・・・ 30
  31. 31. 31
  32. 32. AWS Batch コンテナ型ジョブスケジューラ:ほぼ同じじゃん・・・ 32
  33. 33. 33
  34. 34. Amazon SageMaker 機械学習環境:機械学習に特化しててめちゃ便利・・・ 34
  35. 35. 35 また同じの作っちゃったよ 毎朝体操のデータ同期基盤のときもヤラレタ Amazon Cognito Sync & AWS AppSync
  36. 36. 36 しかし AHAB は負けない
  37. 37. AHAB ユーザ増殖中 顧客が来栖川電算のプロセスを取り入れたい • 研究プロセスを標準化したい – ⇒ AHAB で Pipeline as Code • 計算資源の利用を促進したい – ⇒ AHAB でオンプレの計算資源をクラウド化 • 計算資源のコストを抑えたい – ⇒ AHAB でオンプレと AWS のハイブリッド • 納品物の検収を楽にしたい – ⇒ AHAB で納品して勝手に検収環境を構築 37
  38. 38. まとめ AI 研究のための Pipeline as Code 38
  39. 39. まとめ1 Pipeline as Code は AI 研究の課題を解決 • 研究を上手く進めるには – たくさんの実験の実施 ⇒ 良い結果 – 絡み合う実験の管理 ⇒ 研究の信頼性 • たくさんの絡み合う実験の管理には – 実験パイプラインのコード化が重要 – 計算環境の抽象化・隔離・共有が重要 • 実験スケジューラがあればやれる – AHAB,AWS Batch,Amazon SageMaker 39
  40. 40. まとめ2 AI 研究のための Pipeline as Code やるなら • AWS Batch / Amazon SageMaker – すごく便利なので初心者は使うべき – ただし、ちょっとお高い • AHAB – 規模が大きくなってきて費用が気になるなら – オンプレ・ハイブリッドクラウドなら • 教訓 – 基盤的な機能が欲しいと思ったら数年待て – なければ作れ!数年先行できるのはデカい 40
  41. 41. ANNOFAB 今日は紹介する時間が足りないので軽く紹介 41
  42. 42. 高品質アノテーションを効率的に生産する “技” が詰まったクラウドサービス 42
  43. 43. 開始までたったの3分 カスタマイズされたエディタを利用可能(改修不要) ⇒ データをアップロードして、アノテーション仕様を入力するだけ 43
  44. 44. 豊富な編集機能 漏れと矛盾を防ぎ迅速で正確な作業を可能にする機能が満載 ⇒ 自動検査,入力補完,ショートカット,ガイド表示,検査コメント,… 44
  45. 45. きめ細やかな課題管理 指摘と現物を見比べながら円滑な修正が可能 ⇒ タスク一覧,エディタに統合された課題管理(前頁図) 45
  46. 46. 自動的な計測と可視化 品質や生産性に関わる様々な指標を確認可能 ⇒ 差戻回数,進捗状況,作業時間,… 46
  47. 47. その他 徹底的な自動化支援 ⇒ Web API と CLI により、大量一括処理や外部システムとの連携が容易 多言語対応 ⇒ 表示されるメッセージは全て日本語と英語に対応。カスタマイズ可能 プライベートストレージ対応 ※有料オプション ⇒ セキュリティが心配な方のために、社内ストレージに対応 プロフェッショナルサービス ※有料オプション ⇒ アノテーション作業,AI開発,これらに対するコンサルティング 47
  48. 48. ANNOFAB Scala.js × AWS Lambda でサーバレスを実現 • スケーラブル • インフラ監視不要 • アクセス量に応じたコスト 48 Cognito LambdaAPI GatewayCloudFrontUsers S3 DynamoDB ElasticsearchSQS SNS X-RayCloudWatch SES
  49. 49. 製品・サービス 付録① 49
  50. 50. 類似検索 膨大なデータの中から類似データを高速・高精度に照合できる 50
  51. 51. 画像認識 API 商品パッケージで情報検索する API 商品パッケージが写った画像を送信するだけで、膨大 な DB から瞬時に種類を特定。クロールした画像から 直接構築した DB を利用。 51
  52. 52. Cellars ワインラベルで情報検索するアプリ ワインラベルにスマホをかざすだけで、18 万件から 瞬時に種類を特定。国内外のコンテストで入賞。株式 会社 Cellars 様による弊社技術の応用事例。 52
  53. 53. AR 付箋 書籍の中身を検索するアプリ 書籍を開いてスマホをかざすだけで、膨大な DB から 瞬時にページを特定し、貼られている付箋を表示。お 客様による弊社技術の応用事例。 53
  54. 54. 物体認識 物体の位置・向き・姿勢・種類を高速・高精度に捉える 54
  55. 55. 走行データ解析 周辺環境を認識し、様々な解析に活用 膨大な走行データから歩行者・車両・白線・標識など を検出・追跡し、索引化。必要に応じて、CAN や Lidar なども活用し、高品質化。 55
  56. 56. 地図生成 オルソ画像から地物・交通規則を抽出 自動運転に使用可能な高品質な地図をオルソ画像から 高速に抽出できる深層学習手法を開発。株式会社トヨ タマップマスター様との応用事例。 56
  57. 57. 交通情報調査 道路沿いの視覚情報を収集し、活用 首都圏を走行する大量の車両のドラレコを解析し、視 覚情報(天候,路面状態,レーン別交通量,…)を DB 化。顧客との研究事例。 57
  58. 58. 生活情報調査 道路沿いの視覚情報を収集し、活用 アスクル株式会社様の営業車のドラレコを解析し、視 覚情報(ガソリン価格,駐車場満空,渋滞,事故,行 列,…)を DB 化。ヤフー株式会社様との共同研究。 58
  59. 59. 瞳孔位置推定 眼球運動を監視し、眠気の推定に活用 スマートグラスで撮影した映像から瞳孔位置・閉眼状 態を高精度に推定。個人差・外乱に頑健。エッジで 60 fps。知の拠点あいち重点研究プロジェクト事業。 59
  60. 60. 文字認識 様々な書体・外乱に対応した 60
  61. 61. タンゴチュウ 写真に写る単語を抽出するサービス 情景画像(スマホで撮影した写真など)に写る単語を 抽出。様々な書体・配置・劣悪な環境(歪み・隠れ・ 擦れ・照明など)での利用を想定。 61
  62. 62. モーション認識 身体の動き・姿勢を高速・高精度に捉える 62
  63. 63. 動作推定 API 加速度センサで人の行動を推定 スマホやウォッチの動きから静止・歩行・走行・食 事・睡眠などを推定。同じ仕組みで撮影時の手振れ検 出も可能。株式会社 NTT ドコモ様との共同研究。 63
  64. 64. 毎朝体操 腕の動きで体操採点するアプリ 100 ヶ国 20 万人を超えるユーザから日々送られてく るセンサデータを学習することで体操採点の正確さが 自動改善。JFE スチール株式会社様へ導入。 64
  65. 65. なりきり 2.0 ヒーローの動きでゲームを制御 腕や脚に装着したセンサで体の動きを捉え、家庭用 ゲーム機のコマンドを生成。格闘ゲームが遊べるほど の速さと正確さをスマホ上で実現。 65
  66. 66. 研究開発支援 日々使い改良される道具による 66
  67. 67. DNN コンパイラ DNNの推論を 10 ~ 1000 倍も高速化 重みや活性の量子化・スパース化、計算の共有などの 様々な手法で DNN を近似し、高速化・省資源化され た実行形式(Linux・Android・iOS)へ変換。 67
  68. 68. AHAB 大量の実験と計算資源を効率的に管理 計算資源をハイブリッドクラウド化する実験スケ ジューラ。実験のスクリプト化、信頼性や再現性の向 上、資源割り当ての効率化などを促進。 68
  69. 69. ANNOFAB 高品質な教師データを大量に生産可能 品質と生産性のトレードオフ、誤り漏れの削減、きめ 細かく柔軟な仕様・課題・進捗の管理。実務で培った ノウハウが詰まったアノテーションサービス。 69
  70. 70. GameControllerizer プログラマブル・ゲームコントローラ ゲーム機・PC・スマホなどに接続するだけでゲーム 操作をプログラミング可能にするデバイス。ビジュア ル・プログラミング(Node-REDなど)にも対応。 70
  71. 71. 体制・設備・サポート 付録② 71
  72. 72. 体制 AI 実現のための全業務をカバー 72 AI アプリ SI インフラ AI インフラ データ モデル 研究者アノテータ デザイナ 開発者 職種 正社員 アルバイト 合計 24 時/週以上 12 時/週以上 ※即戦力 試用期間 研究者 20 % 2 % 10 % 0 % 32 % 開発者 15 % 7 % 12 % 3 % 37 % デザイナ 0 % 0 % 3 % 0 % 3 % アノテータ 5 % 23 % 0 % 0 % 28 % 合計 40 % 32 % 25 % 3 % 100 %
  73. 73. 設備 研究開発を円滑にするためにあらゆる手を尽くす • 理想的な個人設備 ※好きなものが選べる – PC,椅子,モニタ,キーボード,マウス,… • 豊富な計算資源とアノテータ ※使いやすい – Ahab:実験用ハイブリッドクラウド – ANNOFAB:アノテーションサービス • 豊富な独自データ ※世界中からどんどん集まる – 自動運転用データ,商品認識用データ,文字 認識用データ,体操採点用データ,… 73
  74. 74. サポート 技術を磨きやすくするためにあらゆる手を尽くす • 様々な働き方 – 自由な時間帯・場所,冒険者制度,… • 優秀な同僚 ※メンタリング(JEDI) – IPA 未踏ソフトウェア創造事業採択者,コン テスト入賞者,OSS コントリビュータ,… • その他 ※全て会社負担 – 自己研鑽のための書籍・機材の購入 – 勉強会・懇親会の開催・参加・移動・宿泊 – 会社の昼会・夕会・飲み会で供される飲食物 74
  75. 75. 75 募集中 研究者 開発者 デザイナ

×