ドライブレコーダ映像からの
3次元空間認識
宮澤一之
AI本部AIシステム部AI研究開発第二G
株式会社ディー・エヌ・エー
自己紹介
2
@kzykmyzw
宮澤 一之
AI本部AIシステム部AI研究開発第二G
株式会社ディー・エヌ・エー
2007〜2010年 東北大学博士課程
2010〜2019年 電機メーカ研究所
2019年〜 DeNA
生体認証やステレオビジョンの研究に従事
日本学術振興会特別研究員(DC1)
映像符号化、標準化活動
車載・監視カメラ物体認識、外観検査
AI研究開発エンジニア(コンピュータビジョン技術)
目次
3
次世代交通における地図
映像からの3次元空間認識技術
性能評価実験
1
3
まとめ4
2
自動運転/V2X/ITS/MaaS/ …
4イギリス政府資料より引用
https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/737778/ccav-research-and-development-projects.pdf
オーストラリア政府資料より引用
https://future.transport.nsw.gov.au/plans/future-transport-strategy/a-vision-for-transport
アルゴンヌ国立研究所資料より引用
https://www.anl.gov/es/article/demystifying-the-future-of-connected-and-autonomous-vehicles
次世代の地図
• 高度な交通社会の実現に向け、高精細な情報をリアルタイムに地図に反映
させることが求められている
• 特殊なセンサを搭載した計測専用車両や人海戦術による地図の作成・メン
テナンスだけではコストがかかりすぎる 5
首都高技術株式会社資料より引用
https://www.infradoctor.jp/details/detail20190313.pdf
©️OpenStreetMap contributors
動的情報
準動的情報
準静的情報
静的情報
Google LLC資料より引用
https://www.google.com/streetview/explore/
ドライブレコーダーの普及
6
ドライブレコーダ国内販売台数*
*GfKジャパン調べ https://www.gfk.com/fileadmin/user_upload/dyna_content/JP/20190328_drivinngrecorders.pdf
ドライブレコーダ映像からわかること
7
ドライブレコーダ映像からわかること
8
ドライブレコーダ映像からわかること
9
ドライブレコーダ映像からわかること
10
ドライブレコーダ映像からわかること
11
ドライブレコーダ映像からわかること
12
ドライブレコーダ映像 + インターネット + AI
低コストな地図作成・メンテナンス技術の実現
コンピュータビジョン技術の急速な進化
13
R-FCN: Object Detection via Region-based Fully Convolutional Networks
https://arxiv.org/pdf/1605.06409v2.pdf
OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
https://arxiv.org/pdf/1812.08008.pdf
Panoptic Segmentation
https://arxiv.org/pdf/1801.00868.pdf
CNNを使った信号機/標識検出技術の開発
• 地図での管理対象の中でも重要度が高い信号機と標識について、ドライブレコーダ
映像からそれらを検出する技術を開発
• 画像認識におけるデファクト技術である畳み込みニューラルネットワーク(CNN)
に基づくアルゴリズムを利用
• クラウド計算環境等を活用し、学習・評価・改善のループを高速に回すことで、
100種類以上の標識を検出可能なモデルを短期間で開発
14
分類
回帰
信号機
一時停止
最高速度
通行止め
座標
…
CNN
標識候補領域
検出結果例
15
3次元空間認識の必要性
16
Wikipediaより引用
https://en.wikipedia.org/wiki/Geographic_coordinate_system
地図に反映させるためには
2次元の画像座標から実世界の3次元座標への変換が必要
複数画像からの3次元復元
17
ワシントン大学資料より引用
https://grail.cs.washington.edu/rome/dubrovnik.avi
ドライブレコーダ映像からの3次元復元
18
ドライブレコーダ映像
ドライブレコーダ映像からの3次元復元
19
ドライブレコーダ映像
緯度・経度の算出
• 画像上での検出結果と3次元復元結果、さらにGPS情報を組み合わせ、
検出物体の緯度・経度を推定
• 新たな地図の作成や、既存地図との差分抽出による地図更新が可能に
20
©️OpenStreetMap contributors
3次元復元
座標変換
GPS
国内走行映像データセットの構築
• 研究用途で公開されているデータセットはほとんどが海外のもので
あるため、日本国内の走行映像データセットを構築
• 市街地や郊外、山野など多様な領域をカバー
• 学習・評価のために映像内の信号や標識などをマニュアルでアノ
テーションし、さらにそれぞれに緯度・経度を付与
21
緯度・経度の推定精度評価
22
推定したカメラ位置
推定した標識位置
実際の標識位置(真値)
誤差約0.2m
©️OpenStreetMap contributors
ドライブレコーダ映像
精度評価結果
車両進行方向
緯度・経度の推定精度評価
23
推定したカメラ位置
推定した標識位置
実際の標識位置(真値)
誤差約1.25m
©️OpenStreetMap contributors
ドライブレコーダ映像
精度評価結果
車両進行方向
緯度・経度の推定精度評価
24
推定したカメラ位置
推定した標識位置
実際の標識位置(真値)
誤差約13m
©️OpenStreetMap contributors
ドライブレコーダ映像
精度評価結果
車両進行方向
まとめ
• 次世代の交通システムにおいては地図の正確性、リアルタイム性が重要となるが、
特殊車両や人海戦術による地図の作成・メンテナンスには限界がある
• 急速に装着率が高まっているドライブレコーダの映像には、地図に必要な情報が
多く含まれており、近年大きな進歩が得られているコンピュータビジョン技術を
活用すればそれらの抽出が可能
• 3次元空間認識によりドライブレコーダ映像に写った物体の緯度・経度を求める技
術を自社で研究開発
• 評価用データセットを構築し、緯度・経度の高精度な推定が可能なことを確認
25
ドライブレコーダ映像 + インターネット + AI
低コストな地図作成・メンテナンス技術の実現

ドライブレコーダ映像からの3次元空間認識 [MOBILITY:dev]

Editor's Notes

  • #3 まず簡単に自己紹介させていただきますが、私、宮澤と申します。 実はDeNAには入ってまだ半年でして、その前は電機メーカでR&Dをしておりました。 学生時代から画像を使ったコンピュータビジョン関連の研究をずっとやっておりまして、今おりますDeNAでもコンピュータビジョン関連のAI研究開発エンジニアをやっております。
  • #4 本日の発表ですが、まず背景として少し次世代の地図における課題をお話しします。 そして、その課題を解決するために我々が開発している技術と、その性能評価実験についてお話しします。 最後にまとめです。
  • #5 さて、伊藤先生のご講演でもありましたように、モビリティ業界では100年に一度の変革期などと言われておりますが、MaaSやV2X、自動運転など、次世代の交通社会を実現するための様々な技術やサービスが次々と出てきております。
  • #6 それらのコアとなる技術は多種多様ですが、地図というのも非常に重要なコンポーネントです。 従来の地図よりもさらに高精細で、リアルタイム性の高いHDマップやダイナミックマップなどと呼ばれる次世代の地図が必要と言われております。 こちらはダイナミックマップの例ですが、次世代の地図ではこのように従来の静的な地図に加えて、渋滞や工事情報、さらには人や車の動きなど、よりリアルタイム性の高い情報も扱えるようになる、と言われております。 これまで、地図の作成やメンテナンスには例えばレーザなどの計測器を搭載した特殊車両や、あるいは多数の調査員を使った人海戦術などが用いられてきましたが、こうした次世代の地図に対応していくためにはそうしたやり方だけでは時間やコストの観点から限界があります。
  • #7 そこで我々は、一般に急速に普及しつつあるドライブレコーダに着目しております。 現在、ドライブレコーダと保険を組み合わせたようなサービスは非常に多くありますし、我々DeNAでもドライブレコーダを使った安全運転支援のためのサービスなどを展開しております。 したがって今後もドライブレコーダを搭載した車というのはどんどん増えていくと考えられます。
  • #8 こちらは、実際のドライブレコーダの映像のフレームを切り出したものです。 これを見てみると、
  • #9 交通標識や、
  • #10 走行可能な道路領域、
  • #11 そこに書かれた区画線や、
  • #12 また周囲の建築物の情報など、地図の作成やメンテナンスに必要な情報が非常に豊富に含まれていることがわかります。
  • #13 つまり、たくさんの車に取り付けられたドライブレコーダの映像をインターネットを通して集め、そこから必要な情報を抽出すれば、地図の作成やメンテナンスを非常に低コストに行えるのではないかと考えております。 そこで重要となってくるのが、映像から情報を抽出するためのAI技術、特にコンピュータビジョンと呼ばれる技術となります。
  • #14 みなさんもご存知のとおり、ディープラーニングが登場したことによって、映像や画像を解析するコンピュータビジョン技術はこれまでにないレベルで急速に発展しています。 画像から特定の物体を検出するというタスクではすでに人間を上回ったとも言われておりますし、それだけでなくこのように多数の人が写っているシーンでそれぞれの人の姿勢を認識したり、画像中に写っている一つ一つの物体を画素単位で認識することも可能となっております。
  • #15 そこで我々はまず、地図で管理されている対象の中でもモビリティ観点で特に重要となる信号機や交通標識をドライブレコーダの映像から検出する技術の開発に着手しました。 ここでは、先ほども説明したディープラーニング、特に、画像認識でデファクトスタンダードとなっている畳み込みニューラルネットワーク、CNNと呼ばれる技術を使っています。 CNNの学習や評価、パラメータ調整には非常に大きなマシンパワーが必要になりますが、我々はクラウド計算環境を効率的に運用し、学習、評価、改善のループを高速に回す仕組みを作っています。 これにより、日本の標識100種類以上を認識可能なモデルを短期間で開発することができました。
  • #16 実際にドライブレコーダの映像から我々の検出モデルが標識や信号を検出する様子をご覧ください。 画像中の標識の位置はもちろん、その種類まで正しく識別できています。
  • #17 さて、これで画像中に写った対象物体を2次元の画像の中で検出することはできるようになったわけですが、これではまだ不十分です。 というのも、あくまでも画像からの検出で得られるのは、物体の画像中の位置に過ぎず、我々がいる実世界の座標とはなんの関係もありません。 画像から得られた2次元の情報を地図に反映させるためには、我々がいる3次元の世界に変換してやる必要があります。 2次元の画像に写っているのは、3次元の世界から投影されたものですが、それを再び3次元に戻すのは容易ではありません。基本的に、1枚の画像だけではその問題を解くことができません。 しかし、たくさんの画像を使うことによって、2次元の画像から3次元の情報を復元することが可能となります。
  • #18 こちらは、その非常に大規模な例ですが、写真共有サイトからダウンロードできる膨大な枚数の画像を使って、ヨーロッパの街並み全体を3次元復元した例になります。 黒で示されている四角錐ひとつひとつがカメラの位置と姿勢を表していて、周囲に雲のように存在しているのが、復元された街並みの3次元点になります。 このように、多数のカメラの画像さえあれば、街全体のような3次元復元も可能になります。 実は、ドライブレコーダ映像というのは、たくさんの静止画の連続ですから、車が動いていれば、その動きに従ってたくさんの位置からたくさんの静止画を撮影したものと考えることができます。 つまり、これと同様の技術を使うことで、ドライブレコーダ映像からの3次元復元ができるということになります。
  • #19 そこで我々は実際に、ドライブレコーダ映像からの3次元復元技術にトライしました。 こちら入力している映像です。最後に車両が左方向に曲がっていきます。 この映像から、3次元復元した結果がこちらになります。赤の四角錐がカメラの位置で、これが車の動きに相当します。 こちらの映像と見比べてわかるように、車の3次元的な動きを正しく求められていることがわかります。 周囲の3次元点についてはスパースにしか得られていませんが、我々の目的は街全体を3次元復元することではなく、地図の作成やメンテナンスに必要な対象物体の3次元情報を抽出することなので、これで十分な結果です。
  • #20 こちらはまた別の例です。
  • #21 このようにドライブレコーダ映像から3次元復元を行い、その結果から対象物体の緯度経度を算出します。 ここでは、ドライブレコーダなどに内蔵されているGPSの情報を使い、すでに求めた物体の3次元座標の変換を行います。 このようにすることで、映像から検出した物体を地図上で扱うことが可能となり、新しい地図を作成したり、すでに持っている地図と比較することでメンテナンスが必要な箇所を特定することができるようになります。
  • #22 さて、これまでご紹介したような技術の開発や評価を行うためには、当然ながらデータセットが必要になります。現在、研究用途で多くのデータセットが公開されていますが、ほとんどが海外の企業や大学により集められたものであり、日本の映像を集めたデータセットはほとんどありません。そこで我々は国内の道路を走行した映像を集めてデータセットを構築し、アノテーションをして自社内での研究開発に利用しています。
  • #23 このデータセットを使って、我々が開発した映像からの物体検出と緯度経度の推定精度を評価しました。 その一部をご紹介します。まずこちらが入力映像で、途中に現れるこの止まれ標識が対象物体です。 この標識を映像から検出し、緯度経度を求めて地図に表すと、このようになります。 我々のデータセットでは、それぞれの物体に緯度経度を付与していますので、それを真値として推定結果との誤差を求めると約20cmと、非常に正確に推定できていることがわかります。 20191001_01/08_7-112-1858-236-19860027_1
  • #24 またこちらは別の例です。こちらは、この標識が対象です。 こちらの推定精度は1.25mとなっています。 20191001_01/02_7-112-1851-236-19729609_1/
  • #25 場合によっては、誤差がやや大きくなるケースもあります。この例では、誤差が10mを超えてしまっています。 今回ご紹介した方法では、最後の緯度経度への変換をGPSに頼っているため、GPS誤差に大きな影響を受けてしまいます。 GPSの単独測位の精度が10〜20mですから、この誤差10mというのもそれほど悪くない精度であると考えています。 今後、GPSの誤差を補正するような技術についても、引き続き開発していく必要があると考えています。 20191001_01/01_7-112-1852-241-15730391_2
  • #26 以上、我々が現在開発している、ドライブレコーダ映像からの物体検出と3次元復元に基づく地図の作成やメンテナンスに向けた技術をご紹介しました。急速に進展しているコンピュータビジョン技術を取り入れることで、高コストなセンサなどを用いなくても、ドライブレコーダ映像だけで地図に必要な情報を高精度に抽出可能であることが確認できています。しかしまだ実用化に向けて多くの課題が残っておりますので、引き続き研究開発を続け、低コストな地図作成・メンテナンス技術の実現を目指していきたいと思います。