サイバーセキュリティ向上に向けた
AI技術の利活用
国立研究開発法人 情報通信研究機構
サイバーセキュリティ研究所
サイバーセキュリティ研究室
高橋健志
1
本日の内容
1. サイバーセキュリティ研究室の簡単な紹介
2. サイバーセキュリティ分野におけるAI技術活用の現状
3. NICTの研究開発活動
2
Source: Web, “Trends 2016”(ESET)
ランサムウェア数が増加
標的型攻撃の猛威
IoTデバイスのボットネット化
MiraiによるIoT機器の
ボットネット化
KrebsへのDDoS攻撃
(2016.9)
DynへのDDoS攻撃
(2016.10)
Haxposure脅威が台頭
様々な脅威が台頭
サイバーフィジカルシステムへの攻撃
サイバーセキュリティ研究室 研究マップ
Global Local
Passive
Active
委託研究
Web媒介型攻撃対策フレームワーク
(ワープドライブ)
STARDUST
サイバー攻撃誘引基盤
(スターダスト)
インシデント分析センタ
NICTER
対サイバー攻撃アラートシステム
DAEDALUS
サイバー攻撃統合分析プラットフォーム
NIRVANA改
ネットワーク可視化システム
NIRVANA
サイバーセキュリティ
ユニバーサル・リポジトリ
CURE
(無差別型攻撃対策) (標的型攻撃対策)
4
AI研究
NICTER
 大規模サイバー攻撃観測・分析システム
 国内外で30万の未使用IPアドレス“ダークネット”を観測
 無差別型攻撃の大局的な傾向把握に有効
【参考】ダークネットとは?
• ダークネット: 利用されていないIPアドレス
• 理論的には、ダークネットにはコンピュータがつながれていないため、パケッ
トが到着するはずはない
• 実際には、少なからずパケットが到達している
• ダークネットに到達するパケットとは…
– マルウェアによるスキャン
– バックスキャタ
– 設定ミス、など
• ダークネットトラフィックはインターネット上の
悪意のある活動の世界的トレンドを反映している
Darknet
Yearly Stats of Darknet Traffic
7
Number of packets par 1 IP address per year
Year Number of packets par year Number of IP address for darknet Number of packets par 1 IP address per year
2005 0.31 billion 16 thousands 19,066
2006 0.81 billion 100 thousands 17,231
2007 1.99 billion 100 thousands 19,118
2008 2.29 billion 120 thousands 22,710
2009 3.57 billion 120 thousands 36,190
2010 5.65 billion 120 thousands 50,128
2011 4.54 billion 120 thousands 40,654
2012 7.79 billion 190 thousands 53,085
2013 12.9 billion 210 thousands 63,655
2014 25.7 billion 240 thousands 115,323
2015 54.5 billion 280 thousands 213,523
2016 128.1 billion 300 thousands 469,104
2017 150.4 billion 300 thousands 559,125
0
200,000
400,000
600,000
2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
23/TCP
Other Ports
38.5%
35.8%
感染機器の分布(2017年)
Port Target Service
23/TCP IoT (Web Camera, etc.)
22/TCP
IoT (Mobile Router, etc.)
SSH
445/TCP Windows (Server Service)
2323/TCP IoT (Web Camera, etc.)
5358/TCP IoT (Web Camera, etc.)
7547/TCP IoT (Web Camera, etc.)
1900/UDP IoT (Home Router, etc.)
1433/TCP SQL
443/TCP SSL/TLS
80/TCP HTTP
2017: IoT > 54%
(23/TCP + 22/TCP + 2323/TCP + 5358/TCP + 7547/TCP + 1900/UDP)
Top 3 Number of Attacking Hosts from JP (2017)
445/tcp
(2,000 IP address)
22/tcp
(14,000 IP address)
23/tcp
(24,000 IP address)
Jan 1 – Dec 31, 2017
- Unique number of source IP addresses from JP / day -
Infected Devices in JP(2017)
Weekly ASCII
http://weekly.ascii.jp/elem/000/000/404/404196/
10
 445/tcp (SMB)
 May, 2017
 WannaCry (Windows)
Logitec
http://www.logitec.co.jp/info/wireless-router.html
Symantec
https://www.symantec.com/security_response/writeup.jsp?docid=2017-051310-3522-99
 22/tcp (SSH)
 June, 2017
 Mobile Router (DoCoMo)
 23/tcp (telnet)
 Nov, 2017
 Home Router (Logitec)
NICT
1st
discovere
d
NICT
1st
discovere
d
Coordinated Vulnerability Disclosure
JPCERT/CC
 Share monitoring dataNICT/YNU
Device
Vendor
 Report vulnerability
 Investigate affected devices
 Publish advisories
End User
ICT-ISAC
(ISPs)
 1st discovered by NICTER
 Investigate vulnerability
 Identify infected devices
11
セキュリティ関連組織への観測情報提供
 SIGMON(定点観測友の会)
• JPCERT/CC、IPA、@Police等との観測結果共有(2004年〜)
 ICT-ISAC Japan(DoS攻撃即応-WG)
• DoS攻撃関連情報共有(2011年〜)
 ACTIVEプロジェクト(総務省)
• ISPに感染端末情報提供→ユーザへの注意喚起(2014年〜)
 オリパラ体制検討会(NISC、オリパラ組織委員会、関連組織、他)
• DoS攻撃関連情報共有(2015年〜)
Web-based Attack Response with Practical and Deployable Research InitiatiVE
13
©攻殻機動隊 REALIZE PROJECT
Indiscriminate Attack
Targeted Attack
Web-based Attack
14
Indiscriminate Attack
(Worm-type Malware)
Web-based Attack
(Drive-by Download)
User
Device
!
User Device
Scan
NICTER
User
Device
?
Web Server
NICTER
15
Indiscriminate Attack and Web-based Attack
!
(1) DBD Attack Monitoring
web browser plug-in sensor
(2) DBD Attack Analysis
macroscopic analysis of
users’ web accesses
(3) DBD Attack Countermeasure
web access stopper
Solution: User as a Sensor
A Tachikoma is a fictional walker with artificial intelligence (AI) from the Ghost in the
Shell universe, appearing in the manga (created by Masamune Shirow) and in the Stand
Alone Complex sub-universe. Nine of them are initially deployed to Section 9. They are
spider-like, multi-legged combat vehicles, and are equipped with adaptive artificial
intelligence. (Wikipedia, Jun 18, 2018)
Web-based Attack Response with Practical and Deployable Research InitiatiVE
WarpDrive project makes Tachikoma as...
1. Sensor in the browser
2. Actuator to block web-based attacks
3. Communicator with users
17
©攻殻機動隊 REALIZE PROJECT
Web-based Attack Response with Practical and Deployable Research InitiatiVE
18
©攻殻機動隊 REALIZE PROJECT
https://warpdrive-project.jp/
Web-based Attack Response with Practical and Deployable Research InitiatiVE
“Tachikoma Realize”
in Cyberspace
19
本日の内容
1. サイバーセキュリティ研究室の簡単な紹介
2. サイバーセキュリティ分野におけるAI技術活用の現状
3. NICTの研究開発活動
20
• Cyber Grand Challengeでは、全ての攻防戦が、コンピュータにより自動で
実施され、ヒトは見ているのみ
• 自動で脆弱性を発見し、パッチを作成し、対処
• カーネギーメロン大学の ForAllSecure チームの「Mayhem」というシステム
が優勝。優勝賞金 200 万ドル(約 2 億円)を取得
セキュリティ対策の自動化は世界的な潮流
深層学習等のAI技術活用を謳う商品は多数存在
22但し、商品やアルゴリズムの詳細は明かされないため、詳細は不明
世界中がサイバーセキュリティへのAI活用を検討
欧州
• EPFL
• Frauhofer FKIE
• Max Planck Institute for Informatics
• RWTH Aachen University
• Siemens CERT
• Universidade de Lisboa
米国
• Boston University
• Columbia University
• Florida Institute of
Technology
• Google Inc
• Indiana University
• Iowa State University
• MIT
• UC Santa Barbara
• University of Chicago
• University of Delaware
• University of Illinois
• University of Maryland
• Virginia Tech
イスラエル
• Bar-Ilan
Uniersity
アジア
• Chinese Academy
of Science
• Beijing Jiaotong
University
近年になって、世界中の著名な研究組織がAIの適用可能性を模索
USENIX Security 2018にてAI関連の報告を実施した組織は下記の通り
世界中がサイバーセキュリティへのAI活用を検討
欧州
• Lancaster University
• University College London
米国
• University of Central Florida
• Florida International
University
• Northwest University
• Lehigh University
• The Pennsylvania State
University
• Virginia Tech
• University of Pennsylvania
• Symantec
• UC Riverside
• UC Berkeley
• University of Illinois at
Urbana-Champaign
• University of
Massachusetts
アジア
• Inha University
• Peking University
• Zhejiang University
• The Hong Kong Polytechnic
University
• Chinese Academy of
Sciences
• Hanyang University
• National University of
Singapore
近年になって、世界中の著名な研究組織がAIの適用可能性を模索
CCS 2018にてAI関連の報告を実施した組織は下記の通り
最近報告されている研究内容
25
機械学習の脆弱性
• Poisoning attacks
• Vulnerabilities of transfer
learning
• Attribute inference
attacks
• Model reuse attack
トラフィックの異常検知&マルウェア検知
(long standing area)
• Explainable system
• Performance improvements
/real-time operations
非匿名化 (プライバシーに対する攻撃)
• Code Authorship Identification
• Document author attribute classification
• Identification of account pertaining
review comments
各種コンピューティングシステムへの攻撃
• Solving captcha
• Malfunctioning voice recognition systems
対策・防衛技術
• Program debloating
(minimize vulnerabilities)
• Watermarking DNN
• Event prediction
NICTはAI x cybersecurityの重要性をいち早く認識
26
• 11th International Data Mining and Cybersecurity Workshop (DMC),
2018: ICONIP併催
• 9th International Cybersecurity Data Mining Competition (CDMC),
2018: DMC併催
独自のネットワーク観測技術を用いてデータを蓄積
2018/12/8 27
NICTER Operation
Room
 大規模なダークネット空間を観測
 NICTERやDAEDALUSなどのシステムを構築
我々のデータセット
28
カテゴリ 蓄積データの具体例
ダークネット
関連データ
未使用IPアドレス空間に送られたトラフィックデータ。Pcapファイル、統計情
報、悪性ホスト情報などを含む
ラ イ ブ ネ ッ ト
関連データ
NICT内部のトラフィックデータ。Pcapファイル、フローデータ、セキュリティ機
器により生成されたセキュリティアラートなどを含む
マ ル ウ ェ ア
関連データ
マルウェア検体、静的解析結果、動的解析結果、など
ス パ ム 関 連
データ
スパム(ダブルバウンス)メールデータ、統計情報、など
Android関連
データ
Androidアプリケーションパッケージファイル、カテゴリや説明文などのアプリ
のメタデータ、など
ブログ・記事 ツイート、セキュリティベンダーブログ、など
Webクローラ URLリスト、Webコンテンツ、それらの評価結果、など
ハニーポット
データ
高対話型/低対話型ハニーポットから得られたデータ
商用インテリ
ジェンスデー
タ
VirusTotal、SecureWorks、Anubis、DomainTools、Malnet、
Team5などから購入したマルウェアをホストしているサイトの情報、
ボットやC&Cのリスト、ドメイン履歴データ、検体、脅威レポートなど
本日の内容
1. サイバーセキュリティ研究室の簡単な紹介
2. サイバーセキュリティ分野におけるAI技術活用の現状
3. NICTの研究開発活動
29
我々が現在注力しているドメイン
オペレーション
自動化
インシデント対応の優先順位の自動判定
• アラートスクリーニング
• 脆弱性の分析
マルウェア機能分析自動化
• Androidアプリおよび
マーケット分析
• IoTマルウェア分析
• マルウェア自動分析
ツール開発
攻撃の検知・脅威予測
• ダークネット分析
• ユーザトラフィックの異常検出
• 脅威予測
1
2
3
Androidプラットフォーム上でのマルウェア検知
1. Androidマルウェアの検知及び分類
a. 入力とする特徴情報を生成 (静的解析、動的解析、Web情報収集)
b. 機械学習(SVM)および特徴選択技術の活用(explainable)
c. ニューラルネットワーク/深層学習の活用(non-explainable)
d. コード分析を回避した検知率の向上
2. promotional attackとdemotional attackをマーケット上で検知
1
特徴情報を工夫して扱うことにより、精度向上を実現
• SVM-RFEを用いて特徴選択を実施 (Accuracy = 94.59 %)
– 利用した特徴情報: パーミッション要求、APIコール、アプリカテゴリ、アプリ説明文、
アプリクラスタ(アルゴリズムを用いてアプリ説明文より生成)
– 3万種類の特徴情報1,439を
抽出することにより、
パフォーマンスを最大化
– 有効性の高い特徴情報:
有効性の高い順に、APIコール、
パーミッション要求、カテゴリ情報
• ニューラルネットワーク/深層学習の
有効性を評価 (Accuracy ≒99.79)
– 分類器に深層学習を活用しても、
SVM-RFEとパフォーマンスに
差異なし (SVM-RFEは
徹底的にチューニング済み)
– 入力する特徴情報にニューラルネットワーク技術を適用することで
パフォーマンスの大幅向上を実現
Source: T.Takahashi et al., “Android Application Analysis using Machine Learning Techniques,” AI for
Cybersecurity, Springer, 2018
1
マルウェアの特定をわかりやすくユーザに掲示
本研究のデータセットはWebから入手可能 (要申請) http://mobilesec.nict.go.jp.
1
34
収集したマルウェアの帰属するファミリーを分析
Unknown
Samples
未知のマルウェアサンプルを複数のファミリーに分類。分類することにより、
これらのサンプルの効率的な分析に貢献。
Samples mapped on a two-dimensional plane with T-SNE
1
IoTマルウェアの系統樹を生成
データサンプル間の距離を測定し、系統樹を作成
• データセット: IoTマルウェアバイナリ (56,659サンプル)
• 距離: normalized compression distance (NCD)により測定
• 系統樹作成アルゴリズム: neighbor joining method
bashlite
mirai
tsunami
bashlite
hajime
mirai
Clustering 52 samples Clustering 314 samples
1
未知のマルウェアに関する情報を拡充
36
1. 現在のアンチウィルスはマルウェア
検知にシグネチャを利用
しかしながら、シグネチャはマルウェ
アサンプルなしに生成できない
2. (教師あり)機械学習技術はマルウェ
ア検知にマルウェアの特徴情報を
利用
しかしながら、マルウェアサンプル
数は正規のソフトウェアのそれと比
べて格段に少なく、バランスがとりず
らいケースも多い
すべてのマルウェアの亜種を自
動的に生成できれば、すべての
問題が解決!とはいえ、それは
非現実的
我々はAdversarial Networks
(GAN) for this purposeを利用
し、現時点では、マルウェア亜種
の特徴情報を自動的に生成
生成された特徴情報から実行可
能なバイナリーへ復元するのは
容易ではない
現在のマルウェア検知技術 我々のアプローチ
1
我々が現在注力しているドメイン
オペレーション
自動化
インシデント対応の優先順位の自動判定
• アラートスクリーニング
• 脆弱性の分析
マルウェア機能分析自動化
• Androidアプリおよび
マーケット分析
• IoTマルウェア分析
• マルウェア自動分析
ツール開発
攻撃の検知・脅威予測
• ダークネット分析
• ユーザトラフィックの異常検出
• 脅威予測
1
2
3
ホストの協調動作を検知
38
上図では、横軸は時間を、縦軸はダークネット空間で観測されたパケット送信元数を示
している。このケースでは、特定の時刻に、とあるマルウェアの活動が活性化され、また
停止されるケースが観測できる。
同一のボットネット内にあるボットの活動は協調性を示すことが多い (C&Cサーバの指
示で一斉に動作するため). 多数のホストからほぼ同時にトラフィックが観測された場合
には、それらのホストがボットである可能性が考えられる
2
検知時にはアラートを自動生成
39
1. 我々のプロトタイプは上記のようにアラートを自動生成するが、リアルタイム
動作およびfalse positive/negativeの最小化が課題
2. 現在、我々はglasso、NMF、テンソル分解を用いて本課題にアプローチ
2
複数の手法を比較検討し、精度向上を目指している
40
目的アプローチ課題
教師なし学習技術を用いることにより、ホスト間の協調動作を検知
• Glasso、NMF、テンソル分解技術を活用
‒ Glassoはグラフ密度を監視
‒ NMFは協調動作をするホスト群が同一クラスタに収まるようにクラス
タリングを実施
• リアルタイム検知
• false positive/negativeの最小化
V 30行(分)
・・・
hosts
hosts
30
minutes
r clusters
Temporal pattern Spacial pattern
2
テンソル分解を用いたボットネットの活動検知事例
1. 著名なセキュリティ関連ブログにて本件が報告される前に、我々は協調動
作を検知
2. NICTERシステムが顕著なトラフィック量の増加を検知する前に協調動作を
検知
2
我々が現在注力しているドメイン
オペレーション
自動化
インシデント対応の優先順位の自動判定
• アラートスクリーニング
• 脆弱性の分析
マルウェア機能分析自動化
• Androidアプリおよび
マーケット分析
• IoTマルウェア分析
• マルウェア自動分析
ツール開発
攻撃の検知・脅威予測
• ダークネット分析
• ユーザトラフィックの異常検出
• 脅威予測
1
2
3
NIRVANA改はセキュリティ機器の統合プラットフォーム
43
3
アラートのスクリーニング及び優先順位付け
44
セキュリティアプライアンス
アラート
重要なアラート
機械学習と検証処理の
自動化により、フィルタリング
処理を実現したい
現在は固定ルールと
人手による検証作業により
フィルタリングを実施
3
セキュリティオペレータの負荷を軽減したい
アラート
~ 100,000/day
精査が必要な
アラート
~ 100/day
対処が必要な
アラート
~ 5 /day
専門家が1日4時間
もの時間を費やして
いるのが現状
# 精査が必要な
アラート数
Pain
3
脆弱性の深刻度評価をアルゴリズムにより実施
1. 脆弱性の深刻度(CVSS base score)をアルゴリズムにより自動算出
2. 本scoreはすべてのmetricについて、事前に決められた値の中から1つを
選択することにより算出される
3. そのため、分類問題としてとらえることが可能。現在は脆弱性記述やリファ
レンスのURLなどを含む特徴情報をもとに、KNN等のアルゴリズムを走ら
せることにより、その有効性を検証中
3
脅威情報の分析(アノテーション)を自動化
≈
Threat Information
入力フォームInput form
Input
Search form
Search
Database
Modeled and Registered
Search thread structure
Search common events
≈
Display
Analysis
Source: IEICE-D Journal, No.10, pp.1427-1437, Oct. 2018.
3
主な発表論文
1. H.Kanehara, Y.Murakami, J.Shimamura, T.Takahashi, D.Inoue, N.Murata, "Real-Time
Botnet Detection Using Nonnegative Tucker Decomposition," ACM SAC, 2019.
2. B.Sun, T.Ban, S.Chang, Y.Sun, T.Takahashi, D.Inoue, "A Scalable and Accurate Feature
Representation Method for Identifying Malicious Mobile Applications," ACM SAC,
2019.
3. T.Takahashi, T.Ban, "Android Application Analysis using Machine Learning
Techniques," Intelligent Systems Reference Library, 181 - 205, 2019.
4. S.Chang, Y.Sun, W.Chuang, M.Chen, B.Sun, T.Takahashi, "ANTSdroid:Using RasMMA
Algorithm to Generate Malware Behavior Characteristics of Android Malware Family,"
IEEE PRDC, 2018.
5. L.Zhu, T.Ban, T.Takahashi, D.Inoue, "Employ Decision Value for Binary Soft Classifier
Evaluation with Crispy Reference," ICONIP, 2018.
6. R.Iijima, S.Minami, Z.Yunao, T.Takehisa, T.Takahashi, Y.Oikawa, T.Mori, "Poster: Audio
Hotspot Attack: An Attack on Voice Assistance Systems Using Directional Sound
Beams," ACM CCS, 2018.
7. T.Takahashi, B.Panta, Y.Kadobayashi, K.Nakao, "Web of cybersecurity: Linking, locating,
and discovering structured cybersecurity information," Int J Commun Syst. 2017.
現在我々が感じていること
49
1. 我々はAIのcybersecurity応用が相当難しいのは分かっているものの、その
重要性にはいち早く気づき、10年前から検討をしてきている
2. 機械学習をNICTERシステム内で自動で動かせるようになるまで10年
3. しかしながら未だに課題が多い
• リアルタイム性の問題 (そもそもデータの次元数が高い)
• 判定根拠が良く見えない形式の深層学習結果などは、そのまま
実運用へ適用するのはセキュリティ分野ではリスクが高い
4. 今は、AIのサイバーセキュリティ活用の可能性をみんなが試している時代
5. このタイミングで実際に使える機械学習の研究開発を強化をし、同時に
データを継続的に蓄積することで、10年後に打っていけるコアコンピタンス
を育成していきたい

サイバーセキュリティ向上に向けたAI技術の利活用