Saisyu
- 6. 先行研究
1. 長山 格, 宮原 彬, 島袋 航一 : 深層学習による時系列挙動
認識を用いた次世代型知的防犯カメラシステム
ひったくりの状況をモデル化して推定し、LSTMネットワークに時
系列画像データとして入力し判定
2. Debaditya Roya, C. Krishna Mohana : Snatch Theft
Detection in Unconstrained Surveillance
Videos_Using Action Attribute Modelling
大規模人物動画データセット(HMDB51, UCF101)から、低次元な
action vectorという表現にしてひったくり動作を分類する
5
情報系卒業研究発表会
- 7. 先行研究との違い:映像データからのひったくり検出である
リアルタイム検出が行える
先行研究
1. 長山 格, 宮原 彬, 島袋 航一 : 深層学習による時系列挙動
認識を用いた次世代型知的防犯カメラシステム
入力データがシルエット
2. Debaditya Roya, C. Krishna Mohana : Snatch Theft
Detection in Unconstrained Surveillance
Videos_Using Action Attribute Modelling
リアルタイム検出ができない
6
*1
情報系卒業研究発表会
- 18. 提案手法(9/14)
17
• 歩行者追跡部
• DeepSORT
• 同一人物を追跡するアルゴリズム
歩行者
追跡部
3 23 34 … 44
3 23 34 … 44
3 23 34 … 44
4 24 14 … 45
3 23 34 … 44
3 23 34 … 44
3 23 34 … 44
4 24 14 … 45
追跡物体の特徴ベクトル
3 23 34 … 44
4 54 66 … 55
特徴ベクトル
情報系卒業研究発表会
- 19. 提案手法(10/14)
18
• 歩行者追跡部
• DeepSORT
• 同一人物を追跡するアルゴリズム
歩行者
追跡部
3 23 34 … 44
3 23 34 … 44
3 23 34 … 44
4 24 14 … 45
3 23 34 … 44
3 23 34 … 44
3 23 34 … 44
4 24 14 … 45
追跡物体の特徴ベクトル
3 23 34 … 44
4 54 66 … 55
特徴ベクトル
距離が最小
情報系卒業研究発表会
- 23. 提案手法(14/14)
22
• ひったくり検出部
• ECO Liteを転移学習
ひったくり
検出部
前処理済
データ
フレーム1
フレームn
フレーム16
2DNet
モジュール
結合
3D Net
モジュール
全結合層
2DNet
モジュール
2DNet
モジュール
……
……
*1
16*3*244*244
(frame,ch,hei
ght,width)
400クラス
情報系卒業研究発表会
- 24. 提案手法(14/14)
23
• ひったくり検出部
• ECO Liteを転移学習
ひったくり
検出部
前処理済
データ
フレーム1
フレームn
フレーム16
2DNet
モジュール
結合
3D Net
モジュール
全結合層
2DNet
モジュール
2DNet
モジュール
……
……
*1
16*3*244*244
(frame,ch,heig
ht,width)
2クラス
情報系卒業研究発表会
- 28. • ひったくり検出部の転移学習
• 4分割交差検証を使用する
• 学習時には、開始フレームがランダムな連続16フ
レームをデータセットから入力する
27
実験(4/5)
<例>ひったくりありデータセットから16フレーム 16フレーム入力
ひったくり前後24フレーム
ひったくりありデータセット 情報系卒業研究発表会
- 29. • ひったくり検出部の転移学習
• 事前学習済みの動画分類モデル(ECO Lite,
3DResNet18, 3DResNet50, 3DResNet101)を使用
する
• 最後の全結合層を2クラス分類に変更し、転移学習
28
実験(5/5)
エポック数 40
バッチサイズ 8
最適化アルゴリズム Momentum SGD
学習率 0.0001
モーメント項の係数 0.9
ハイパーパラメータ
情報系卒業研究発表会
- 30. 29
結果
モデル 精度 適合率 再現率 F値
ECO Lite 0.849 0.988 0.708 0.825
3DResNet18 0.818 0.898 0.719 0.799
3DResNet50 0.802 0.914 0.667 0.771
3DResNet101 0.688 0.951 0.396 0.559
• 4分割交差検証の結果を平均
情報系卒業研究発表会
- 36. 結論
35
• 防犯カメラを用いたひったくり犯の検出・追跡
• ECO Liteを転移学習させることでひったくり動作
の検出ができた
• ECO Liteでの結果は以下の表の通り
モデル 精度 適合率 再現率 F値
ECO Lite 0.849 0.988 0.708 0.825
• 課題
• ひったくり動作を検出した根拠
• 学習データの増量
情報系卒業研究発表会
- 37. 参考文献
1. 矢野経済研究所, “監視カメラ世界市場に関する調査を実施(2020年)— ニュース・トピックス —
”https://www.yano.co.jp/press-
release/show/press_id/2480#:~:text=2019%E5%B9%B4%E3%81%AE%E7%9B%A3%E8
%A6%96%E3%82%AB%E3%83%A1%E3%83%A9,%E3%81%AF%E5%9B%9E%E5%BE%
A9%E3%81%99%E3%82%8B%E8%A6%8B%E8%BE%BC%E3%81%BF%EF%BD%9E.
(Accessed on 2021/01/22).
2. 警視庁,”街頭防犯カメラシステム”
https://www.keishicho.metro.tokyo.jp/kurashi/anzen/anshin/gaitocamera.html (アクセス日
2021/01/22).
3. 法務省, “令和元年版 犯罪白書 第 2 編/第 1 章/第 1 節/2.”
http://hakusyo1.moj.go.jp/jp/66/nfm/n66_2_2_1_1_2.html. (アクセス日2021/01/22).
4. 長山格, 宮原彬, 島袋航一. “深層学習による時系列挙動認識を用いた次世代型知的防犯カメラシステ
ム.” 電気学会論文誌C(電子・情報・システム部門誌), Vol. 139, No. 9,pp. 986–992, 2019.
5. SONY “EVI-D70 / D70P(PAL)” https://pro.sony/en_GR/products/ptz-network-
cameras/evi-d70-d70p-pal- (アクセス日 2021/02/05)
6. IODATA アイ・オー・データ機器 , “GV-USB2 | ビデオ・オーディオキャプチャー |”
https://www.iodata.jp/product/av/capture/gv-usb2/ (アクセス日 2021/02/05)
7. Chien-Yao Wang and Alexey Bochkovskiy and Hong-Yuan Mark Liao,“Scaled-YOLOv4:
Scaling Cross Stage Partial Network” https://arxiv.org/pdf/2011.08036.pdf (アクセス日
2021/02/05)
8. Nicolai Wojke, Alex Bewley, and Dietrich Paulus. “Simple online and realtime trackingwith a
deep association metric.” In 2017 IEEE International Conference on ImageProcessing (ICIP),
pp. 3645–3649. IEEE, 2017.
9. 小川雄太郎,「つくりながら学ぶ! PyTorchによる発展ディープラーニング」,マイナビ出版, 2019
10. Mohammadreza Zolfaghari and Kamaljeet Singh and Thomas Brox “ECO: Efficient
Convolutional Network for Online Video Understanding” https://arxiv.org/abs/1804.09066
(アクセス日 2021/01/22)
36
情報系卒業研究発表会
Editor's Notes
- 防犯カメラを用いたひったくり犯の検出、追跡と題しまして、B5研究室福見教授グループの矢野ひろきが発表させていただきます。
- まず研究の背景と目的についてです。
近年、防犯カメラの設置台数が年々増加しています。
以下のグラフは2019年までの防犯カメラの世界での市場規模の推移を示したものです。
2014年には2545万台だったのが2019年で6480万台になり、2倍以上になっていることがわかります。
これより、人々のセキュリティに対する意識が高まり、一般家庭にも防犯カメラの台数が今後増えることが予測されます。
- 次に、警察での防犯カメラの活用についてです。
警察が行っている街頭での犯罪防止策としては主に、パトロール、防犯カメラの使用があげられます。
中でも一部の繁華街に対しては、公共空間に防犯カメラを設置し、モニターする「街頭防犯カメラシステム」を導入しています。
これによって、撮影した映像を常時画面に映し出して、録画、モニターを行います。
これには専門の担当者が24時間体制でモニターし、事件や事故への対応を行います。
このように事件の発生、予測は有人監視が可能な場合のみできることがわかります。
- これから増える、従来型の防犯カメラは映像を記録することが主目的であり、多くの場合それ以上の機能を有していません。
そのため、メインとなる使い方としては証拠確認であり、映像から事件の発生を判断して対処するには、リアルタイムな有人監視ができる場合に限られます。
これより、犯罪行為の自動検知ができると、効果的な防犯につながると考えられます。
- 次にひったくりについてです。
ひったくりは犯罪行為の中でも特殊な技能や道具を必要としないことから、模倣性が高く、人通りの少ない場所で犯行を主に行われるため、パトロールだけでは防犯は困難です。
また、被害者は高齢者が多く、ひったくりの際に大怪我につながることもある悪質な犯罪であるため、今回の研究でひったくりを対象とした自動検知システムを構築するに至りました。
(参考文献1の資料より、被害者の半数以上は高齢者で、90%は女性である)
(犯行に車両が含まれている場合の検挙率は30.7%、含まれていない場合は16.3%)
- 先行研究として挙げられるのは次の2つです。
1の論文では、ひったくり挙動モデルを提案しており、このモデルでひったくりの可能性を検出した際に、ひったくり発生付近のフレームをLSTMネットワークに入力し、ひったくりの判定を行っています。
2の論文では、HMDB51、UCF101という大規模な人物動画のデータセットを使用して、深層学習を使用せずに低次元なaction vectorという表現にして、ひったくり動作を分類しています。
- 先行研究との違いとしては、以下の2つが揚げられます。
それは映像データからのひったくり検出である点と、リアルタイム検出が行える点です。
1の先行研究の場合、入力データが手作業で作成した人物のシルエット画像となっています。
2の先行研究の場合は、リアルタイム検出という点で研究を行っていません。
そのため、これらの違いを挙げることができます。
- 次に提案手法です。
提案手法はデータ取得部、歩行者検出部、歩行者追跡部、前処理部、ひったくり検出部の5つから構成されています。
- まずはデータ取得部から説明させていただきます。
- データ取得部では動画データの取得を行います。
ここでは、SONY製のPTZカメラであるEVI-D70を使用します。
PTZカメラとは、パン、チルト、ズーム機能を持ったカメラのことで、以下の表に示すような水平方向の回転、垂直方向の回転、光学ズームを行うことができます。
このカメラからUSBキャプチャボードであるGV-USB2を使用して、パソコンに映像を取り込みます。
入力される動画情報としては、表の通りになります。
- また、本研究でのひったくりの定義ですが、歩行者同士でハンドバッグが背後から盗難されたときとします。
映像の制約条件としては、同じフレーム内にひったくりの被害者と加害者の2名のみとし、ひとけのない路上の再現を行います。
- 次に歩行者検出部についてです。
歩行者検出部ではリサイズ処理とYOLOバージョン4を使用します。
- まずリサイズ処理です。
入力された映像データに対して、608*608の正方形にリサイズを行います。
- 次にリサイズした画像からYOLOバージョン4を用いて人物の領域を求めます。
YOLOバージョン4はリアルタイムな物体検出が可能な深層学習アルゴリズムです。
YOLOバージョン3をベースに改良を加えた深層学習モデルになっており、推論速度を落とさずに精度を向上させたものになっています。
------
もっと説明かいたほうがいい?
- 次に歩行者追跡部についてです。
ここでは、DeepSORTと呼ばれるアルゴリズムを用いて同一人物にID振りをして追跡を行います。
カルマンフィルタ理解しようとしてできなかったのでDeepSORTどう説明するか問題が発生!!!!
DeepSORTの理解の前にSORT理解しようぜ
SORTはなんとなく理解したぜ
- DeepSORTについてかんたんに説明させていただきます。
DeepSORTは、YOLOバージョン4で検出した結果の領域の情報と、追跡している物体の見た目に関する情報の両方を考慮して、追跡している物体に関連付ける追跡アルゴリズムです。
見た目に関する情報として、検出した領域の画像をCNNに入力して特徴ベクトルに変換します。
ここで使用しているCNNは、事前にいろんな視点から同一人物を識別できるように学習されたネットワークを使用しています。
- 追跡していた画像郡も同じように特徴ベクトルを最大100フレーム分まで保存しています。
- これらの追跡していた物体の特徴ベクトルと、現在のフレームで検出している人物の特徴ベクトルの距離を計算します。
- その中でも最も距離が近いものを同一人物として、関連付けを行います。
このときの距離が、自分で設定したしきい値以上のときは、どことも関連付けを行いません。
- これによって、同一人物の追跡が可能となります。
もし、現在のフレームで検出した人物がどこにも関連づかなかった場合は、追跡していた物体の位置、速度などを考慮して関連付けを行います。
- 次に前処理部についてです。
前処理部では、追跡していた人物を最大16フレームのキューに保存します。
その後、それらに対して、リサイズ処理、パディング処理、標準化を行います。
- リサイズ処理では、以下の図のように行います。
入力された人物領域画像に対して、長い辺を基準に224ピクセルにリサイズします。
その後、パディングを行い、事前学習したデータセットに基づいて標準化を行います。
- 次にひったくり検出部についてです。
ひったくりの検出には、ECO Liteと呼ばれる動画分類に使用されるモデルを転移学習して使用します。
これに前処理した画像16フレームを入力して、ひったくりをしているかどうかの2クラス分類を行います。
- ECO Liteの元のモデルは動画データに対して同じように、任意のフレームを入力して、400クラス分類を行うものになりますが、これを転移学習することで、ひったくりの有無を検出する2クラス分類を行うネットワークにします。
- 次に実験についてです。
実験では、ひったくり検出部で使用する深層学習モデルの転移学習を行います。
まず、転移学習に使用したデータセットについてです。
データセットに使用した動画は以下のように撮影して自作しました。
撮影方向をA,B,Cの3つの方向から撮影し、それぞれひったくりがある場合とない場合を撮影します。
また、ひったくり動作は最初に定義したように「歩行者同士で、後ろからハンドバッグを盗られる」動作をします。
- この条件で移動方向を図に示すように対称的な方向で2パターン撮影しました。
これによって合計237本の動画データを使用してデータセットを作成します。
- 作成したデータセットは以下のようになります。
人物領域画像の切り出しには、提案手法と同じくYOLOバージョン4とDeepSORTを使用しました。
ひったくりありの動画データにおいては、ひったくりの瞬間の動作から前後合計して24フレームをひったくりありのデータセットとして、ひったくり加害者側の人物領域画像を保存します。
ひったくりなしの動画データにおいては、すべての人物領域画像を使用しました。
結果として、データセットはひったくりありが116本、ひったくりなしが119本作成しました。
- 次に作成したデータセットで転移学習を行います。
転移学習では4分割交差検証を行って学習をすすめます。
学習時には、データセット中の画像から先頭フレームをランダムに指定して、そこから連続16フレームを入力して学習を行います。
- また、今回はECO Liteとの比較として3DResNet18、3DResNet50、3DResNet101を使用しました。
これらのモデルもECO Liteと同じデータセットで学習済みのモデルであり、最後の全結合層を変更し、2クラス分類にして転移学習を行います。
表は学習したときのハイパーパラメータです。
- 結果としては以下の表のようになりました。
各モデルの中でも最も良い値をオレンジで色づけしています。
これらは4分割交差検証の結果を平均した値となっており、全体としてECO Liteの結果がいいことがわかります。
- つづいて考察にうつります。
以下の図は混同行列を表しており、ECO Liteの4分割交差検証を行った際のset2のものです。
この図から、ひったくりなしは正しく検出できていますが、ひったくりありが5件正しく検出できていないのがわかります。
- 正しくひったくりが検出できていないデータと、ひったくりが正しく検出できているデータを目視で確認してみます。
上の画像が、正しくひったくりが検出できてないデータで、下の画像がひったくりを正しく検出できているデータになっています。
しかしどちらの動きも、目視では違いが確認できませんでした。
- そのため、ひったくりが検出できているデータに近づけるためにノイズの削除を行って、再度推論しました。
ひったくりが正しく検出できているデータと比べた時に、ノイズとなっているのは、バッグ、人物の左上にうつっているブロックであるとして、画像編集によって削除しました。
緑の丸で囲っている部分がブロックの障害物で、オレンジの丸で囲っている部分がバッグになります。
- ノイズを削除した結果が以下の図になります。
しかし、どちらを削除した場合も、結果は変わらず、ひったくりが正しく検出されませんでした。
- これより、今回のデータでは、人物の動き以外のノイズを削除しても結果に影響がなく、関係がないことがわかりました。
そのため、これからはより多くの学習データを作成することで、ひったくり動作を正しく検出できるようにします。
- 最後に結論になります。
今回は防犯カメラを用いたひったくり犯の検出・追跡として、ECO Liteを用いてひったくり動作の検出を行いました。
現状の課題として、ひったくり動作を正しく検出できているかの確認と、学習データの増量があげられます。
- 参考文献です。これで発表を終わります。