Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Jubatus で始める機械学習
と
そのアルゴリズム
株式会社 Preferred Infrastructure 柏原秀蔵
2013 年 6 月 28 日
〜 Jubatus の使い方は説明しません〜
自己紹介
 柏原 秀蔵 (@suma90h)    
 Jubatus 中の人( 2012 年 5 月頃から参加)
 JubatusOSS(github) のリリースマネジメント
 アーキテクチャ設計など
 専門
 分散システム・シ...
アジェンダ
 機械学習の導入(スキップ ? )
 http://www.slideshare.net/pfi/
 機械学習の理論と実践 など !
 Jubatus
 概要
 分散の仕組み
 分類器のアルゴリズム紹介
 開発コミュ...
機械学習とセキュリティ
4
セキュリティに対する期待
 製品化・実用化はあまり進んでいない?
 機械学習とセキュリティに関する研究も見かける
 ただ、製品・実運用で耐えうるレベルへ活用しきれていない印象
 参入のチャンス!
 セキュリティ以外の事例
 自然言語...
セキュリティへの応用はこれから進む?
 研究レベル
 ウェブのストリームからの攻撃検知(特徴抽出)
 マルウェアのクラスタリングや分類
 プログラム実行ファイル (PE ヘッダ ) からの特徴抽出
 データセット

DARPA デー...
セキュリティあるある
 未知の攻撃 / マルウェアを発見したい!

ルールベースでは未知の物に対応できない

欠点:精度が高くても、誤検知は避けられない
– 99.9% の精度で、 10,000 件につき 1 件は誤検知する可能性
 誤...
例:機械学習を用いた検出エンジン (IDS)
 IDS に期待される要望
 攻撃らしき怪しいデータを即座(リアルタイム)に検知したい
 被害が出る前・広がる前に見つけたい。すぐに止めたい
 機会学習と検索を用いた IDS
 …でも誤検...
例:機械学習と検索を用いた IDS
 機械学習と検索によるアプローチ
 ログには属性を付与し、後から追跡できるように蓄積する
 データがくるたびに機械学習は用いる

蓄積したログから検索・集計し、それを元にアラートを出すか判断

判断...
セキュリティとビッグデータ
 ビッグデータ /Hadoop/ 他 , 製品群
 ストレージ屋さんが儲けている雰囲気?
 頑張って Hadoop 使わなくても実現できることは多い

採用事例が増えるほど、デファクトスタンダードとなった
...
まとめ:頑張ればセキュリティでも実用化できそう
 機械学習とセキュリティには期待!
 セキュリティで実用化するには、工夫が必要
 何かの制約を捨てて、別のパフォーマンスを最大化する案
 時系列
 精度(検出率)が高い・低いだけの問題で...
コンテストを考える
 Poisoning Attacks against Support Vector Machines (Biggio+)
 機械学習の精度を落とすようなデータを学習させる
 解説: ICML2012 読み会で発表しまし...
Copyright © 2006-2013
Preferred Infrastructure All Right Reserved.
Upcoming SlideShare
Loading in …5
×

Jubatusで始める機械学習/セキュリティと機械学習

4,895 views

Published on

2013年6月23日に開催された「セキュリティと機械学習」の資料となります。
https://atnd.org/events/40918
http://matsudalab.office-server.co.jp/security_machine_learning/saml_index.html

セキュリティについては、どうしても人の判断が入る部分がシステムに存在し、
そこでの判断にトレードオフがあるため人的リソースを減らす方向で機械学習を活かしたシステムを組むことができると筋が良さそうに思えるという主張です。
Jubatusに関するスライドは情報が古い/オフィシャルブログ等の方が充実しているため削除しています。

Published in: Technology
  • Be the first to comment

Jubatusで始める機械学習/セキュリティと機械学習

  1. 1. Jubatus で始める機械学習 と そのアルゴリズム 株式会社 Preferred Infrastructure 柏原秀蔵 2013 年 6 月 28 日 〜 Jubatus の使い方は説明しません〜
  2. 2. 自己紹介  柏原 秀蔵 (@suma90h)      Jubatus 中の人( 2012 年 5 月頃から参加)  JubatusOSS(github) のリリースマネジメント  アーキテクチャ設計など  専門  分散システム・システムプログラミング  セキュリティとの関わり  趣味で難読化、パッカー作成、マルウェア解析(最近はご無沙汰)  2005 年 セキュリティキャンプ参加 (2006 年チューター )  2008 〜 2010 年: 某セキュリティ会社にて製品開発  AVTokyo 2008, AVTokyo 2012 発表 2
  3. 3. アジェンダ  機械学習の導入(スキップ ? )  http://www.slideshare.net/pfi/  機械学習の理論と実践 など !  Jubatus  概要  分散の仕組み  分類器のアルゴリズム紹介  開発コミュニティ(中の人より)  セキュリティと機械学習への期待 3
  4. 4. 機械学習とセキュリティ 4
  5. 5. セキュリティに対する期待  製品化・実用化はあまり進んでいない?  機械学習とセキュリティに関する研究も見かける  ただ、製品・実運用で耐えうるレベルへ活用しきれていない印象  参入のチャンス!  セキュリティ以外の事例  自然言語処理の分野は、機械学習によって既存研究・製品が荒らさ れたらしい  これからセキュリティにも波がきてもおかしくない! 5
  6. 6. セキュリティへの応用はこれから進む?  研究レベル  ウェブのストリームからの攻撃検知(特徴抽出)  マルウェアのクラスタリングや分類  プログラム実行ファイル (PE ヘッダ ) からの特徴抽出  データセット  DARPA データセット ( パケット ) ← 入手しやすい  日本国内 : MWS Dataset, CCC Dataset  Malware Analytics at Stream Rate: Higher Analyst Productivity and Reduced Threat Exposure [Harold Jones, GFIRST 2012]  イギリス BAE System 社による IDS/IPS へ機械学習の適用例
  7. 7. セキュリティあるある  未知の攻撃 / マルウェアを発見したい!  ルールベースでは未知の物に対応できない  欠点:精度が高くても、誤検知は避けられない – 99.9% の精度で、 10,000 件につき 1 件は誤検知する可能性  誤検知が増えても、人手で処理しきれない  ルールベースでも、人手が入るとそこがボトルネックになる  未知の物は人手で確認しないと判断がつかない・機械には無理・人間 でも判断に迷うことがある  問題設定や、トレードオフを見極める必要がある  誤検知が多いことを許容したシステム?  「誤検知からいかに未知のマルウェアを発見するか・受け身に回らな いで攻めに転じるか」策? 7
  8. 8. 例:機械学習を用いた検出エンジン (IDS)  IDS に期待される要望  攻撃らしき怪しいデータを即座(リアルタイム)に検知したい  被害が出る前・広がる前に見つけたい。すぐに止めたい  機会学習と検索を用いた IDS  …でも誤検知は ?  1 回目の攻撃からすぐに防ぐというのは諦める  専門家が絶対に怪しいと感じるデータを 1 回発見できたとする  しかし未知のデータなので、単体では攻撃と断定できない! – パケットを停止したときの被害 vs 攻撃を許したときの被害  では過去に、同じ IP アドレスから攻撃の予兆と断定できる痕跡が あったとしたら? → 直感的には、どう考えてもアウト  攻撃者視点で考える: 1 分以内に、攻撃・侵入・機密データを流出 させる仕組みを仕掛ける。機密データを盗むまでに N 分以内で終わ らせる → 無理ゲー 8
  9. 9. 例:機械学習と検索を用いた IDS  機械学習と検索によるアプローチ  ログには属性を付与し、後から追跡できるように蓄積する  データがくるたびに機械学習は用いる  蓄積したログから検索・集計し、それを元にアラートを出すか判断  判断手法 – 人手・ルールベース・機械学習 – 組み合わせは自由・集計結果を機械学習の特徴にしても良い  問題点  貯めたデータから即時に集計・検索するのは困難  → ここで Preferred Infrastructure の Sedue( 次スライドへ ) 9
  10. 10. セキュリティとビッグデータ  ビッグデータ /Hadoop/ 他 , 製品群  ストレージ屋さんが儲けている雰囲気?  頑張って Hadoop 使わなくても実現できることは多い  採用事例が増えるほど、デファクトスタンダードとなった  企業・ OSS コミュニティ(エコシステム)の成熟  SIEM(Security Information and Event Management)  よくわかりません><  貯まったデータをどう扱うか  大規模なログデータから、即座に検索・集計するのは難しい  → 解析ソリューション「 Sedue for BigData 」  Preferred Infrastructure までお問い合わせを 10
  11. 11. まとめ:頑張ればセキュリティでも実用化できそう  機械学習とセキュリティには期待!  セキュリティで実用化するには、工夫が必要  何かの制約を捨てて、別のパフォーマンスを最大化する案  時系列  精度(検出率)が高い・低いだけの問題ではない  矛と盾のいたちごっこにおいて、効率的に盾を新調するには?  21 世紀だけどあと何年、人が張り付くことになるの? (´д ` )  セキュリティって、コンピュータ技術で解決できる範囲は狭い  『セキュリティはなぜ破られたのか』ブルース・シュナイアー  とはいえ、コンピュータへの攻撃がある以上は、防ぎたい
  12. 12. コンテストを考える  Poisoning Attacks against Support Vector Machines (Biggio+)  機械学習の精度を落とすようなデータを学習させる  解説: ICML2012 読み会で発表しました && SVM の性能をガタ落 ちさせるためには - kisa12012 の日記  http://d.hatena.ne.jp/kisa12012/20120728/1343486425  ( 「 ICML 機械学習 攻撃」 などで検索)  コンテスト競技者への攻撃するのに使えるかも  機械学習の普及とどうなるか? 12
  13. 13. Copyright © 2006-2013 Preferred Infrastructure All Right Reserved.

×