本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
PFN福田圭祐による東大大学院「融合情報学特別講義Ⅲ」(2022年10月19日)の講義資料です。
・Introduction to Preferred Networks
・Our developments to date
・Our research & platform
・Simulation ✕ AI
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
PFN福田圭祐による東大大学院「融合情報学特別講義Ⅲ」(2022年10月19日)の講義資料です。
・Introduction to Preferred Networks
・Our developments to date
・Our research & platform
・Simulation ✕ AI
NTTコミュニケーションズでは、Azure Stack Hub with GPUを先行で導入し検証を行っています。本資料では、実際に利用している立場からデモを交えつつAzure Stack Hub with GPUのユースケースをお話すると共に、GPUのベンチマークを含む他社クラウドとの性能比較結果について情報共有をいたします。
[db analytics showcase Sapporo 2017] B14: GPU コンピューティング最前線 by エヌビディア 佐々木邦暢Insight Technology, Inc.
GPUの演算能力を汎用的に活用する「GPUコンピューティング」が誕生してはや10年。多くのスーパーコンピューターに採用されるなど科学技術計算の領域で実績を積み重ねたこの技術は、近年のAIムーブメントを支える重要な存在になっています。高度な画像認識、自然言語処理、そして自動運転などますます複雑になる問題のために登場した Volta 世代の新型GPUをはじめ、GPUコンピューティングの最新情報をお伝えします。
イベント名:HWAUG & GPU-Accelerated VDI Community Meetup in 札幌
https://h-watson.connpass.com/event/44378/
テーマ:「IBM Watson技術紹介とGPUを利用した高性能仮想デスクトップの最新動向」
主催 : 北海道Watsonユーザー会(HWAUG) & Japan GPU-Accelerated VDI Community
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
2. “NVIDIA REINVENTS ITSELF EVERY SINGLE YEAR. WE
ARE GOING TO CALL NVIDIA ‘THE GOAT,’ THAT IS, THE
GREATEST OF ALL TIME.”
MAD MONEY
NVIDIA pioneered accelerated computing to tackle challenges ordinary computers
cannot. We make computers for the da Vincis and Einsteins
of our time so that they can see and create the future.
3. CUDA: NVIDIA’S COMPUTING PLATFORM
様々なユースケース
AI Training & Inference
Speech Visual Search
Video Analysis
Robotics
Gaming Science
Media & Entertainment
http://developer.nvidia.com/cuda-downloads
6. NVIDIA IS A FULL STACK COMPUTING PLATFORM
多くのイノベーションと NVIDIA エコシステムの拡大
30M
CUDA Downloads
2,500
GPU-Accelerated Applications
9,000
AI Startups
AI DRIVE
METRO ISAAC
CLARA
RAPIDS
AERIAL
5G
RTX HPC
MAGNUM IO
CUDA
CUDA-X-AI
3M
Developers
150
SDKs
COMPLETE SOFTWARE STACK GROWING ECOSYSTEM
1B
CUDA GPUs
CHIPS
SYSTEMS
SDK & ENGINES
APPLICATIONS
ECOSYSTEM
FULL STACK INNOVATION
65 updates from last GTC
9. PYTHON から CUDA を叩く場合の典型的な構造
Cython 経由で CUDA C/C++ が呼び出される
CUDA
Each library Python Interface
GPU
Cython
Each library C/C++
CUDA libraries
JIT/NVRTC
10. PYTHON から GPU を利用するには
さまざまな階層のライブラリ
• CUDA の公式 low-level binding
github.com/NVIDIA/cuda-python
CUDA Python
• GPU 向け NumPy 互換 API
github.com/cupy/cupy
CuPy
• 大規模にスケールする目的の NumPy
互換 API
developer.nvidia.com/cunumeric
cuNumeric
• 主にディープラーニング用の API
• 拡張ツールなどが豊富
github.com/tensorflow/tensorflow
github.com/pytorch/pytorch
Deep Learning frameworks
(TensorFlow/PyTorch/etc)
• GPU 版 pandas / sklearn /
NetworkX / etc といったライブラリ群
rapids.ai
RAPIDS
• 大規模テーブルデータ向けの特徴量
エンジニアリング&前処理ライブラリ
developer.nvidia.com/nvidia-merlin
NVTabular
など。他にも多数のライブラリなどが存在。
11. AI INFERENCE IS HARD
AI INFERENCE
MODELS FRAMEWORKS
MIDDLEWARE
PROCESSORS
Real Time
V100 GPU x86 CPU
A30 GPU A100 GPU Arm CPU
Cloud
Batch Streaming
APP
CONSTRAINTS
DEPLOYMENT
Data Center Embedded
Edge
Azure
Machine
Learning
Google
Vertex AI
Amazon
SageMaker
CNNs TRANSFORMERS RNNs
GNN DECISION TREES
15. TORCH-TensorRT
Torch-TensorRT に nn.Module を渡す
必要に応じて引数を設定
C++ APIs も利用可能
TorchScript での利用も可能
Python QuickStart
import torch
import torch_tensorrt as torchtrt
# SET trained model to evaluation mode
model = model.eval()
# COMPILE TRT module using Torch-TensorRT
trt_module = torchtrt.compile(model, inputs=[example_input]
enabled_precisions={torch.half})
# RUN optimized inference with Torch-TensorRT
trt_module(x)
16. import tensorflow as tf
from tf.python.compiler.tensorrt import trt_convert as tftrt
# COMPILE TRT module using TensorFlow-TensorRT
trt_module = tftrt.TrtGraphConverterV2(saved_model_pth).convert()
# RUN optimized inference with TensorFlow-TensorRT
trt_module(x)
TENSORFLOW-TensorRT
TensorFlow-TensorRT に SavedModel を渡す
必要に応じて引数を設定
C++ APIs も利用可能
Python QuickStart
18. TRITON: モダンなデータセンターにおけるコンピュートエンジン
数百万のアプリケーション | 数十億のユーザ | 数兆のクエリ
Batching & Scheduling
Real time | Batch | Stateful Stream | Ensemble
Multiple Framework Backends
Custom C++, Python
Triton 上で動作する
マイクロサービス
Triton Inference
Server
NLP Recommender
Image
Classify
TTS
Image
segment
ASR
マイクロサービスベースの
アプリケーション
App App
App
…
すべてのプロセッサに対する
最適化
クエリとレスポンス
X86 CPU V100 GPU
A100 MIG
A30 GPU A100 GPU ARM CPU
19. TRITON INFERENCE SERVER
スケーラブルでシンプルな推論サービング オープンソース ソフトウェア
Kubernetes,
Prometheus
Metrics
標準的な
HTTP/gRPC
Or
C API
(クライアント
アプリケーションへの
直接組み込み)
CPU
Dynamic Batching
(リアルタイム、バッチ、
ストリーム)
モデルごとの
スケジューラー キュー
…
柔軟なモデルロード
(全体一括、選択的)
複数の GPU & CPU
バックエンド
Custom
Backends
Utilization, Throughput, Latency Metrics
GPU
モデル
リポジトリ
Query
Result
複数の
クライアント
アプリケーション
Python/C++
Client Library
Query
Result
Python/C++
Client Library
Query
Result
Python/C++
Client Library
多くの
アクティブ
なモデル
月次アップデートは、docker コンテナ形式で GitHub と NGC から入手できます
20. TRITON INFERENCE SERVER の使い方
models/
└── resnet
├── 1
│ └── model.savedmodel
│ ├── saved_model.pb
│ └── variables
│ ├── variables.data-00000-of-00001
│ └── variables.index
└── config.pbtxt
:
規定に従いモデルを配置、
設定を記述し、
$ docker run --gpus=all --rm
-p8000:8000 -p8001:8001 -p8002:8002
-v ./models:/models
nvcr.io/nvidia/tritonserver:21.11-py3
tritonserver --model-repository=/models
...
I1207 06:26:28.710564 1 grpc_server.cc:3979]
Started GRPCInferenceService at 0.0.0.0:8001
I1207 06:26:28.710986 1 http_server.cc:2717]
Started HTTPService at 0.0.0.0:8000
I1207 06:26:28.753317 1 http_server.cc:2736]
Started Metrics Service at 0.0.0.0:8002
コンテナを起動
https://github.com/triton-inference-server/server/
21. TRITON INFERENCE SERVER の使い方
https://github.com/triton-inference-server/client
クライアント側の API (例):
https://github.com/triton-inference-server/python_backend
Python バックエンドの API:
:
22. AI により実現されるエンタープライズ トランスフォーメーション
エンドツーエンドのアプリケーション フレームワーク
デスクトップ環境 スーパーコンピューター GPU アクセラレーテッド クラウド
データセンター ソリューション アクセラレーテッド エッジ
Riva
対話型
AI
Metropolis
スマートシティ
Clara
ヘルスケア
Isaac
ロボティクス
Drive
自動運転
Aerial
テレコム
Merlin
推薦システム
サイバー
セキュリティ
Morpheus
NeMo
大規模
言語モデル
23. ▪ DL ベースの会話&言語理解モデル
▪ Correct-by-Construction アーキテクチャのための、セマンティクス チェックを含む
▪ 複数言語をサポート:
▪ 8 for ASR
▪ 5 for NLU
▪ オープンソース
▪ PyTorch および PyTorch Lightning との統合
▪ 使いやすい API
▪ 最適化された学習パフォーマンス
▪ GPU に最適化された 100 以上の学習済みチェックポイント
▪ 1000 GPU クラスにスケール可能
https://ngc.nvidia.com/catalog/containers/nvidia:nemo
https://github.com/NVIDIA/NeMo
NOTE: ASR – Automatic Speech Recognition | NLU – Natural Language Understanding
最先端の対話モデルを作成するためのツールキット
NVIDIA NEMO
24. World Record
Accuracy
2.96% Gap on
Gehring and Homberger
Scalable to 1,000s
of Locations
3 Seconds
vs
5 Minutes
to Route 1,000
Packages
ANNOUNCING
NVIDIA REOPT
Re-Optimize Logistics and
Supply Chain in Real-Time
Accelerated Solver for Vehicle Route,
Warehouse Picking, Fleet-Mix Optimization
Massively Parallel Algorithm Generates
Thousands of Solution Candidates and
Refinements
Dynamic Rerouting Reduces Travel Time,
Saving Billions for a $10 Trillion Logistics
Industry
Available Now
nvidia.com/reopt
29. 最先端のアプリケーション
Core Omniverse Apps
FOR 3D DEEP LEARNING RESEARCHERS
FOR DESIGNERS, CREATORS, ENGINEERS
FOR GAME DEVELOPERS, ANIMATORS
FOR RTX CREATORS FOR REVIEWERS, PROJECT MANAGERS FOR ROBOTICISTS
30. OMNIVERSE AUDIO2FACE
› Powered by NVIDIA AI
› 容易に利用できる、リアルで自然な表情の自動生成
› 声質、性別や言語間の変換
› 会話や歌の音声を利用
› 推奨スペック: GeForce RTX 3070, NVIDIA RTX A4000 or
higher
AI による音声からの表情生成
31. Omniverse Kaolin App
NVIDIA KAOLIN
3D を加速するディープラーニング研究のためのツールキット
https://developer.nvidia.com/nvidia-kaolin | https://github.com/NVIDIAGameWorks/kaolin
Render Synthetic Data
Visualize Model Training Inspect 3D Datasets
Kaolin Library
Modular Differentiable Renderer 3D Data Loading GPU Optimized 3D Operations 3D Checkpoints