Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
What to Upload to SlideShare
What to Upload to SlideShare
Loading in …3
×
1 of 18

Intellectual Highway/貞末様 講演資料

0

Share

Download to read offline

2021年9月7日 「ザイリンクス ビジョンAIで実現するスマートワールドソリューション」講演資料

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Intellectual Highway/貞末様 講演資料

  1. 1. Xilinx DCG主催 Webinar 多地点映像処理向け SmartNICソリューション 2021/09/07 Intellectual Highway, LLC. 1
  2. 2. 会社概要 2 ◼ Intellectual Highway合同会社 ◼ 2019年設立 ◼ 事業内容 – ネットワークアクセラレータ IPの開発・販売 – IPの組み込み・インテグレーション – 画像処理分野の開発 ◼ Xilinx社様との関係性 – FPGAベース開発 – ACRi (アダプティブコンピューティング研究推進体) • 手軽にFPGA開発に触れられる環境整備(東工大)・情報発信・アウトリーチ活動 • 2021年にエントリー企業として参加 https://www.acri.c.titech.ac.jp/wp/
  3. 3. 弊社IPのご紹介 ◼ IP層より上位の標準化されたプロトコル・暗号通信を ハードロジックで実現したIP ◼ 高性能かつ低消費電力な通信路を確立 ◼ アプリケーション特化のインテグレーションが可能 3 ネットワークアクセラレータIP (Protocol Termination Unit) CPU 受 信 部 Ether net 送 信 部 DMA メ モ リ MAC ICMP RawIP UDP TCP ARP CPU I/F データリンク層 物理層 インターネット層 トランスポート層 アプリケーション層 TCP/UDP IP/ICMP/ARP Ethernet DPI/Filtering/Monitoring SSL/TLS/DTLS crypt HTTPS, MAIL, CoAP ハードウェア オフロード PTU(Protocol Termination Unit)
  4. 4. TCP/UDP/IP オフロード機能 4 ◼ フルハードによるTCPフル機能のオフ ロード ◼ 10000以上の同時接続可能 ◼ 耐タンパ性(脆弱性の隠蔽) ◼ DDos攻撃への耐性 ◼ 省面積 (LUT:70K = 8%@AlveoU50) Item Description プロトコル ・802.3, ARP, ICMP, IPv4, TCP, UDP, RTP 性能 ・スループット: 25Gbps TCP ・HWによるTCP終端機能:パケット生成, チェックサム, 3-wayハン ドシェイク, パケット再送, 高速再転送, TCPリアセンブル, Delayed Ack, フロー制御 (ソケットライブラリ同等のTCPフル機能) ・最大コネクション数: 16,000 (コンフィグ可能) ・スループット: 25Gbps / 1コア UDP ・10,000セッション以上 ・H.264 over RTP ・各種プロトコルにカスタムで対応 対応デバイス ・Xilinx, Intel ・Xilinx Alveo, Intel PACに対応 ・ASIC対応 ソフトウェアI/F ・Linux用ドライバ, ソケットライブラリ セキュリティ機能 ・DDoS対応HW高速フィルタリング ・HW実装されたIP フィルタ 省面積で多数接続可能な フルハードTCP/IPスタック
  5. 5. SSL/TLS オフロード ◼ アプリケーションはデータを準備、暗号とTCP送受信を HWが肩代わり ◼ データコピー最小化・HW連動による高スループット 5 CPU FPGAカード PTU TLS/TCP/IP ホスト アプリケーション PCIe HTTPS HTTP Item Description バージョン TLS 1.2 データ暗号化 AES-GCM 128bit / 192bit / 256bit メッセージ認証 GCM, SHA2 鍵交換 RSA, Diffie-Hellman TLS Proxy App Crypt TCP copy copy encrypt send 余分な データコピー 高負荷なTLS処理をオフロードし サーバーリソースをアプリケーションに専念
  6. 6. 多地点映像集約システムへの応用 ◼ カメラ映像解析を用いたソリューションが増 加している ◼ IoT時代には、カメラ映像を一拠点に集め て映像解析を行う必要がある – 設置場所メリット – 設置コストメリット – 運用コストメリット ◼ 映像転送・映像集約の処理が必要 – 動画は圧縮され、ネットワークプロトコルに カプセル化されて入って来る 6 映像集約サーバー 映像解析 LAN WAN 映像
  7. 7. 多地点映像集約システムの技術課題 ◼ 多地点映像ストリームに対する以下の処理が、CPUで処理し切れない – ストリームパケット受信処理 – セッション管理・制御 – 動画伸長処理 – 画像処理 (補正・変換・間引き) ・・・ AI処理の精度向上・性能安定化のため ◼ 処理遅延が大きくなり、リアルタイム性が確保できない – 受信・動画デコード・画像処理の各中間バッファが増え、転送回数の増加による ◼ AIの前処理として、カスタマイズ性のある高負荷な処理が要求される 7 リアルタイム性とカスタマイズ性の両立が不可欠
  8. 8. 解決方法 ◼ 多地点映像ストリームに対する以下の処理が、CPUで処理し切れない – ストリームパケット受信処理 – セッション管理・制御 – 動画伸長処理 – 画像処理 (補正・変換・間引き) ・・・ AI処理の精度向上・性能安定化のため ◼ 処理遅延が大きくなり、リアルタイム性が確保できない – 受信・動画デコード・画像処理の各中間バッファが増え、転送回数の増加による ◼ AIの前処理として、カスタマイズ性のある高負荷な処理が要求される 8 FPGAアクセラレータ・プラットフォームによる Smart NICソリューション ネットワーク・動画伸長の FPGAオフロード 高位合成によるHW化
  9. 9. Smart NICソリューション ◼ FPGA上でパケット受信→動画デコード→ 画像処理をHWで一気通貫処理する ◼ AI前処理としての画像処理は、お客様でカ スタマイズ容易とするために、HLS(高位合 成)を利用 ◼ ネットワーク・コーデック部分はRTL(固いH W)で、画像処理部分は高位合成(柔らか いHW)で実現するフレームワーク 9 映像集約サーバー Host (CPU/GPU) 映像解析 Smart NIC (FPGA) ネットワーク デコード 映像 画像処理 (HLS) LAN WAN
  10. 10. 映像集約サーバー PCIe HW一気通貫処理のメリット ◼ 部分的なオフロードでは、大容量のRAW画像転送 がHost⇔FPGA間で発生 ◼ CPUへの負荷集中で、ネットワークのパケットロス の形で影響 10 Host (CPU/GPU) 映像解析 FPGA ネットワーク デコード 画像処理 映像 データ フィード DRAM DRAM 部分的オフロードの例 ◼ FPGA上でHW連動して処理することにより、圧倒 的な低レイテンシ ◼ HW処理による、安定した確実なリアルタイム処理
  11. 11. システムの内部構成 11 PCIe 映像集約認識サーバー Smart NIC (FPGA) Host (CPU/GPU) AI解析エンジン Network(PTU) Image Process Kernels 補正・変換 Register / Packet PTUとの通信 Storageとの通信 カメラとの通信 format認識 H.264 Decode(#3) H.264 Decode(#2) session管理 H.264 Decode(#1) 間引き 補正・変換 補正・変換 間引き 補正・変換 補正・変換 間引き 補正・変換 出力フレーム 抽出結果 Hostとの連携機能 Formatによるstream振り分け HLS RTL *動画コーデックは3rd Party製 H.264 over RTP
  12. 12. デモ映像:HD映像14チャネル 12 <CPU処理> (40コア80スレッド (Xeon Gold 6148 x2), 2.4GHz) DDRチャネル数: 12 (6 x2) <FPGA処理> DDRチャネル数:2 CPU負荷: 4000%(40コア) CPU負荷: 100%(1コア)
  13. 13. HD映像42チャネル 13 42chのHD映像を受信しつつMedian, Sobelの画像処理を施す → パケロス、フレーム落ち無し
  14. 14. Smart NICソリューション効果 ◼ CPUでは処理負荷を要するNW・デコード・画像補正・変換処理を、FPGA上で実現することにより、多 数の映像チャネルを収容可能 ◼ AI解析処理までのレイテンシの大幅短縮(→数10msec) ◼ 確実なリアルタイム性の確保 ◼ CPUの大幅なオフロードにより、インテリジェントな処理に専念させることが可能 ◼ 高性能サーバを用いることなく必要な処理を実施し、コストダウン ◼ 大幅な消費電力の低減(1200W ⇒ 80W) 14 HD映像チャネル数 必要サーバ台数 備考 Smart NIC CPU処理 (Smart NIC無し) 14 1 (Alveo U50 x 1) 4 CPUは1socket/サーバ 28 2 (Alveo U50 x 2) 4 CPUは2socket/サーバ 50 1 (Alveo U250 x 1) 12 CPUは1socket/サーバ 100 2 (Alveo U250 x 2) 12 CPUは2socket/サーバ <受信・デコードのみを行った場合のサーバー台数比較>
  15. 15. 多地点映像処理Smart NIC 仕様概要 入力映像ストリーム 動画フォーマット H.264 Baseline, Main, High Profile 最大解像度 FHD (1080P) 最大フレームレート 30fps 最大処理チャネル数 FHD 24ch (Alveo U250) HD 50ch (Alveo U250) ネットワーク プロトコル H.264 over RTP/UDP インターフェース 10Gbps, 1Gbps 画像処理 開発言語 C / C++ / OpenCL (HLS) 画像処理 間引き、解像度変換、歪み補正、射影変換、輝度 補正などを想定 15
  16. 16. カスタマイズ性 ◼ 前処理部をソフトウェア言語により、短 期間でカスタマイズ可能 ◼ HWでオフロードするパケット以外は、ホ スト側で処理 ◼ クライアント認証などにも対応 16 CPU FPGA 動画デ コーダ 前処理 エンジン AI解析エンジン 映像 クライアント認証 制御処理 PTU (NWアクセラレータ) フィルタリング ルーティング IPやポート による振り分け RTP カプセル/ 解除 TCP カプセル/ 解除 圧縮動画 パケット パケット
  17. 17. サマリ 17 弊社はネットワーク処理を中心に、様々なアルゴリズムをFPGAオフロードする インテグレーション技術を強みとしており、 多地点映像処理向けソリューションは、富士通株式会社様・加賀FEI株式会社様 と共同で開発しました。 今後もお客様の課題を弊社の強みで解決いたします 問い合わせ先: Intellectual Highway, LLC. info@i-highway.com
  18. 18. ご清聴ありがとうございました 18

×