Your SlideShare is downloading. ×
類似度に基づいた評価データの選別によるマルウェア検知精度の向上
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

類似度に基づいた評価データの選別によるマルウェア検知精度の向上

371
views

Published on

近年マルウェアの高度化が進んでおりパターンマッチング等の従来方式に基づいたマルウェア検知が困難になっている。新たな検知方式として機械学習を適用した手法が提案されており、従来に比べて高い検出率を実現できることが様々な研究により報告されている。一方でこれら機械学習による分類は、一般に学習データと傾向の異なる評価データについては著しく精度が下がることが知られている。そこで本研究では、評価データを学習デー …

近年マルウェアの高度化が進んでおりパターンマッチング等の従来方式に基づいたマルウェア検知が困難になっている。新たな検知方式として機械学習を適用した手法が提案されており、従来に比べて高い検出率を実現できることが様々な研究により報告されている。一方でこれら機械学習による分類は、一般に学習データと傾向の異なる評価データについては著しく精度が下がることが知られている。そこで本研究では、評価データを学習データとの類似度に基づいて選別することで選別後の評価データに対して高い検出精度を向上させる手法について考察する。

Published in: Technology

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
371
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. FFRI, Inc. 類似度に基づいた評価データの選別による Fourteenforty Research Institute, Inc. マルウェア検知精度の向上 FFRI, Inc. 株式会社 FFRI http://www.ffri.jp 村上純一
  • 2. FFRI, Inc. はじめに • このスライドは CSS/MWS 2013 の発表資料です – http://www.iwsec.org/css/2013/english/index.html • 詳細なデータについては、元の論文を参照ください – http://www.ffri.jp/assets/files/research/research_papers/M WS2013_paper.pdf • 質問、コメント等は下記までお願いします – research-feedback@ffri.jp 2
  • 3. FFRI, Inc. アジェンダ • • • • • • • • 背景 課題 本研究の目的 実験1 実験2 実験3 考察 まとめ 3
  • 4. FFRI, Inc. 背景 – マルウェア及び対策技術の現状 マルウェア生成ツール マルウェアの急増 パターン方式の限界 難読化ツール 標的型攻撃/未知検体 新たな検知方式 ヒューリスティック ビッグデータ 機械学習 クラウド レピュテーション 4
  • 5. FFRI, Inc. 背景 – 関連研究の概観 • 下記要素の組み合わせ、工夫が中心 – 採用する特徴、特徴の加工方法、各種パラメーター設定等 • TPR90%超, FPR1%未満等、比較的良好な結果も 特徴 適用手法 評価 静的情報 SVM TPR/FRP, etc. 動的情報 Naive bayes Accuracy, Precision ハイブリッド Perceptron, etc. ROC-curve, etc. 5
  • 6. FFRI, Inc. 課題 • 機械学習一般において – 学習データ/評価データの傾向が著しく異なる場合、 分類精度が著しく低下する(結果はデータ次第) • マルウェア/正常系ソフトウェアにおいてはどうか? – 類似性の分布が広い → 学習/評価データで傾向が異なる可能性大 ? ? 6
  • 7. FFRI, Inc. 本研究の目的 機械学習によるマルウェア検知の有効性を検討する ①マルウェア群/正常系ソフトウェア群の分布(類似度) 傾向について調査する(実験1) ②分布の違いによる分類精度への影響を調査する (実験2) ③上記結果に基づき、学習データから類似度が低いデー タを除外した場合の分類精度の変化について調査、考 察する(実験3) 7
  • 8. FFRI, Inc. 実験1(1/3) – 実験方法 • FFRI Dataset 2013 / 独自に用意した正常系ソフトウェアを利用 • マルウェア/ 正常系同士の相互の類似度を算出 (Jubatus, MinHash) • 時系列でのAPIコールの4-gramを特徴として利用 – 例: NtCreateFile_NtWriteFile_NtWriteFile_NtClose: n回 NtSetInformationFile_NtClose_NtClose_NtOpenMutext: m回, etc. マルウェア群 正常系群 A A A B C ... B C ... B C ... 0.52 ... A ー 0.8 B ー ー 1.0 ... C ー ー ー ... ... ー ー ー ー 8
  • 9. FFRI, Inc. 実験1(2/3) – 実験方法 • 類似度に閾値を設けてデータをグループ化 閾値(0.0 ~ 1.0) 正常系 マルウェア 9
  • 10. FFRI, Inc. 実験1(3/3) – 実験結果 正常系は、マルウェアに対して似たものを見つけ難い 100% 80% 60% 40% 仲間無 仲間有 20% 0.8 0.85 0.9 0.95 マルウェア 正常系 マルウェア 正常系 マルウェア 正常系 マルウェア 正常系 マルウェア 正常系 0% 1 類似度の閾値 10
  • 11. FFRI, Inc. 実験2(1/3) – 実験方法 • 学習-評価データの傾向差異は、分類精度にどの程度の影響を与えるか? • 閾値0.9の状態を2分割し、学習・分類を実施(Jubatus, AROW) 学習 分類 jubatus jubatus TPR: ? FPR: ? マルウェア群 正常群 TPR: True Positive Rate FPR: False Positive Rate 学 評 習 価 11
  • 12. FFRI, Inc. 実験2(2/3) – 実験方法 • 学習-評価データの傾向差異は、分類精度にどの程度の影響を与えるか? • 閾値0.9の状態を2分割し、学習・分類を実施(Jubatus, AROW) 学習 jubatus マルウェア群 正常群 学 評 習 価 分類 jubatus TPR: ? FPR: ? 12
  • 13. FFRI, Inc. 実験2(3/3) – 実験結果 学習データ/評価データの傾向が異なると分類精度が低下する ■TPR ■FPR 0.624(仲間有) +3.866 97.996(仲間有) 81.297(仲間無) 4.49(仲間無) -16.699 0 50 100 % 0 1 2 3 4 5 % 13
  • 14. FFRI, Inc. 実験3(1/6) - 学習完了状態 分離面 マルウェア 正常(学習) 正常系 マルウェア(学習) 正常(評価) マルウェア(評価) 14
  • 15. FFRI, Inc. 実験3(2/6) - 分類完了状態 分離面 正常(学習) マルウェア(学習) 正常(評価) マルウェア(評価) 15
  • 16. FFRI, Inc. 実験3(2/6) - 分類完了状態 分離面 FP(誤検知) FN(見逃し) 正常(学習) マルウェア(学習) 正常(評価) マルウェア(評価) 16
  • 17. FFRI, Inc. 実験3(3/6) - 類似度の低い評価データ 分離面 たまたま正解 除外 FN(見逃し) 正常(学習) FN(見逃し) マルウェア(学習) 正常(評価) マルウェア(評価) 17
  • 18. FFRI, Inc. 実験3(4/6) - TPRへの影響 分類対象の減少 ∝ TPR向上 1.00 1200 分類対象データ数 1400 0.98 1000 0.96 800 0.94 600 0.92 400 200 0.90 0 TP FN TPR 0.88 0 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 類似度に対する閾値 18
  • 19. FFRI, Inc. 実験3(5/6) - FPRへの影響 分類対象の減少 ∝ FRP向上 2500 0.014 0.012 分類対象データ数 2000 0.010 1500 0.008 1000 0.006 TN FP FPR 0.004 500 0.002 0 0.000 0 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 類似度に対する閾値 19
  • 20. FFRI, Inc. 実験3(6/6) - 分類対象データ数の推移 分類対象データ数/計評価データ 正常系の方がマルウェアに比べて減少率が高い マルウェア 正常系ソフトウェア 120% 100% 80% 60% 40% 20% 0% 0 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 類似度に対する閾値 20
  • 21. FFRI, Inc. 考察(1/3) • 実際の適用シーン – マルウェアか正常系か分からないファイルを分類 • 実験3を適用した場合 – 学習データ中に似たものがあれば分類対象に – 似たものがなければ対象外 • 正解がマルウェアであればFalse Negative(見逃し) • 正解が正常系であればTrue Negative(結果的に正解) • 上記より本質的には 「ユニークなマルウェアのTPR」に関する問題 (ユニークなマルウェアは見逃しがちに) 21
  • 22. FFRI, Inc. 考察(2/3) • 現状のようにマルウェアが多数の亜種を持つ場合、 – 機械学習によるマルウェア検知は効果が期待できる • 多数の亜種を持つ = 生成ツール • 下記の調査が必要ではないか – マルウェア生成ツールの利用、普及動向 – Anti-Machine Learning detection等の可能性 22
  • 23. FFRI, Inc. 考察(3/3) • 対象外としたマルウェアについて 1. 別の特徴を用いた分類を行う 2. データを増やす(ユニーク → 非ユニークへの推移) 3. 機械学習以外の手法による検知を行う 23
  • 24. FFRI, Inc. まとめ • マルウェアと正常系では類似度の分布が異なる(実験1) • これにより分類精度の悪化が発生する(実験2) • 類似度の低いデータを除外した場合、 ユニークなマルウェアのTPRが悪化する(実験3) • 継続的なマルウェア、及び生成ツール等の動向調査が必要 • (正常系ソフトウェアを検知する技術が必要ではないか?) 24