Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)

173 views

Published on

Hadoop / Spark Conference Japan 2019
『機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)』
小野寺 誠(マップアール・テクノロジーズ株式会社)

Published in: Technology
  • Be the first to comment

機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)

  1. 1. © 2019 MapR TechnologiesMapR Confidential 1 2019/3/14 マップアール・テクノロジーズ株式会社 機械学習、グラフ分析、SQLによる サイバー攻撃対策事例(金融業界)
  2. 2. © 2019 MapR TechnologiesMapR Confidential 2 自己紹介 小野寺 誠 (おのでら まこと) 2017年3月にMapRに入社。セールスディレクター。 主に、機械学習、ディープラーニングに注力 MapR入社前は、外資系総合ITベンダーやネットワークセキュリティベンダー でデータベース製品の営業や金融業界担当のアカウント営業を担当
  3. 3. © 2019 MapR TechnologiesMapR Confidential 3 MapRはデータ主導のイノベーションを加速。 - 分析からAIまでの全範囲のワークロード - エッジファースト、クラウド、コンテナ、 データネイティブ - オープンで適応的 - シングルセキュリティモデル - ミッションクリティカルな信頼性 - MapRを使用すると、すべてのデータを - 簡単に作成、管理、および編成すること ができます。 MapRは最先端のAIおよび分析に最適化された「データウェア」です。
  4. 4. © 2019 MapR TechnologiesMapR Confidential 4 サイバー攻撃対策について
  5. 5. © 2019 MapR TechnologiesMapR Confidential 5 皆様の会社がサイバー攻撃を受けた時の 被害額は、どのくらいになるでしょうか?
  6. 6. © 2019 MapR TechnologiesMapR Confidential 6 情報セキュリティ10大脅威 順位 脅威の内容 1位 (1位) 標的型攻撃による被害 2位 (3位) ビジネスメール詐欺による被害 3位 (2位) ランサムウェアによる被害 4位 (ー) サプライチェーンの弱点を悪用 した攻撃の高まり 5位 (8位) 内部不正による情報漏えい 順位 脅威の内容 6位 (9位) サービス妨害攻撃によるサービ スの停止 7位 (6位) インターネットサービスからの 個人情報の窃取 8位 (7位) IoT機器の脆弱性の顕在化 9位 (4位) 脆弱性対策情報の公開に伴う悪 用増加 10位 (12位) 不注意による情報漏えい ():昨年の順位 IPA 情報セキュリティ10大脅威2019 https://www.ipa.go.jp/security/vuln/10threats2019.html をもとに作成
  7. 7. © 2019 MapR TechnologiesMapR Confidential 7 標的型メール攻撃の件数推移 平成31年3月7日 警察庁発表 平成30年におけるサイバー空間をめぐる脅威の情勢等について
  8. 8. © 2019 MapR TechnologiesMapR Confidential 8 サイバー攻撃から情報流出までのメカニズム ファイヤー ウォール ファイヤー ウォール 1 侵入とバックドア(RAT)設置 コマンド &コントロールサーバー 2 感染拡大 権限昇格 & 情報搾取 3 管理者 ユーザの特権 2,3 の繰り返し4 情報漏えい5 クレジットカード情報 各種個人情報
  9. 9. © 2019 MapR TechnologiesMapR Confidential 9 攻撃者の視点:サイバーキルチェーン 偵察 武器化 配送 (デリバリ) 攻撃 (エクスプロイト) インス トール 遠隔操作 (C&C) 目的の実行侵入拡大
  10. 10. © 2019 MapR TechnologiesMapR Confidential 10 インシデントレスポンスとフォレンジック調査 準備 検知 分析 封じ込め 根絶 復旧 事件後 の対応 教訓 ログ保管 SIEM フォレンジック調査
  11. 11. © 2019 MapR TechnologiesMapR Confidential 11 SIEM(Security Information and Event Management) アプリケ ーション WAF IDS IPS OS スイッチ ルーター コンプライア ンス リアルタイム アラート レポート (ポリシー遵守 状況など) イベント, ログ & フロー 収集&正規化 統合&相関 セキュリティイベントやログを一元的に管理・分析。 不正アクセスの痕跡や兆候をリアルタイムに検知、分析、可視化する製品。 ファイヤー ウォール SIEMの範囲 DNSAD
  12. 12. © 2019 MapR TechnologiesMapR Confidential 12 セキュリティログ分析の実態 IDS FW IDS DMZ 本店・営業店ネットワーク データセンター インターネット バンキング 融資 コールセンター … WAF FW 顧客 PC タブレット モバイル IDS グループ会社ネットワーク FW IDS パートナー会社ネットワーク FW 行員 グループ会社 社員 パートナー 社員 SIEM システムが分断されているため攻撃を受けた時の影響範囲や証跡調査が難しい。 = ユーザ、アプリ、シスログ、ネット ワーク、マシンのログ・ファイル 分断された ツール SIEM 見落とされた ログ・ファイル 見落とされた ログ・ファイル 見落とされた ログ・ファイル
  13. 13. © 2019 MapR TechnologiesMapR Confidential 13 SIEMを補完するビッグデータテクノロジー MapR-DB: time series, structured data MapR-FS: emails, blogs, tweets, log files, unstructured data NFS/Sqoop/Flume: pure log files Agile, self- service data exploration ETL into operational reporting formats (e.g., Parquet) Multi-tenancy: job/data placement control, volumes Access controls: file, table, column, column family, doc, sub- doc levels ソース Auditing: compliance, analyze user accesses Snapshots: track data lineage and history Table Replication: global multi-master, business continuity MapR Converged Data Platform Enterprise Storage Database Event Streaming MapR-FS MapR-DB MapR Streams MapR Streams: real-time event data SIEM リアル タイム 検知 DMZ (公開系) データ センター …
  14. 14. © 2019 MapR TechnologiesMapR Confidential 14 セキュリティ分析にビッグデータテクノロジーが必要な理由  包括的なセキュリティビュー  システム横断的なログやトラフィック情報の取得  履歴データの蓄積  リアルタイムな脅威の検知  ログやトラフィック情報の相関分析  機械学習他さまざまな手法による異常検知  フォレンジック調査にかかる時間の短縮  セキュリティログなどの情報提供依頼への対応
  15. 15. © 2019 MapR TechnologiesMapR Confidential 15 ある金融業界のお客様事例 ネットワーク異常検知 •ネットワーク機器から発生するトラフィックフローを収集分析 •1ファイルあたり10,000行、1MB •1秒あたり2ファイル •1日あたり172,800ファイル、172GB •日々成長!
  16. 16. © 2019 MapR TechnologiesMapR Confidential 16 • Flow:機械学習(Spark MLlib),グラフ分析(GraphX),SQL(Drill/Hadoop) • HTTP:SQL(Drill/Hadoop) • DNS:SQL(Drill/Hadoop) 以下の3つの情報の分析を実施。
  17. 17. © 2019 MapR TechnologiesMapR Confidential 17 ハイレベルダイヤグラム
  18. 18. © 2019 MapR TechnologiesMapR Confidential 18 NetFlowのフロー情報の分析 Drill
  19. 19. © 2019 MapR TechnologiesMapR Confidential 19 IPFIXのフロー情報の分析 FireEye
  20. 20. © 2019 MapR TechnologiesMapR Confidential 20 このログデータからどのように意味を解釈できるでしょうか? NetFlowのログのサンプル 95.167.77.37|198.55.195.113|0.0.0.0|5|5|4|240|142101 1880|1421011873|59256|23|2|6|0|12389|14495|0|0 218.77.79.38|198.55.197.48|0.0.0.0|5|5|1|40|14210118 83|1421011873|45713|8081|2|6|0|4134|14495|0|0 50.116.194.23|206.200.253.71|0.0.0.0|5|5|9|3811|1421 011877|1421011873|443|61063|27|6|0|6336|14495|0|0 206.200.253.71|50.116.194.23|0.0.0.0|5|5|9|2039|1421 011877|1421011873|61063|443|26|6|0|14495|6336|0|0 …
  21. 21. © 2019 MapR TechnologiesMapR Confidential 21 Flow情報 • flowStartNanoseconds • flowEndNanoseconds • sourceIPv4Address • destinationIPv4Address • octetDeltaCount • packetDeltaCount • droppedOctetDeltaCount • droppedPacketDeltaCount • sourceTransportPort • destinationTransportPort • ingressInterface • egressInterface • npulseStreamId • protocolIdentifier • flowEndReason • fragmentFlags • tcpControlBits • bitflowDirection • ipClassOfService • basicList
  22. 22. © 2019 MapR TechnologiesMapR Confidential 22 念のため、機械学習の基礎、、、
  23. 23. © 2019 MapR TechnologiesMapR Confidential 23 機械学習の実施イメージ 学習データ 新しいデータ モデル開発 モデル利用 予測 パターン認識内包されたパターン パターンの探索・抽出 学習アルゴリム
  24. 24. © 2019 MapR TechnologiesMapR Confidential 24 仮説とモデル① 仮説1.ビールの売上は、暑い日や通行人が多い時や晴天の時に沢山売れる。 仮説2.住宅価格は、部屋数と敷地面積が大きいほど高額になる 仮説1のモデル例. ビールの売上 = 2 x 気温 + 3 x 通行人 + 1.5 x 天気 仮説2のモデル例 住宅価格 = 5 x 部屋数 + 3 x フロアー数 目的変数 ターゲット 特徴、説明変数パラメータ(算出)
  25. 25. © 2019 MapR TechnologiesMapR Confidential 25 仮説とモデル② 仮説3.突然、巨額取引をしたり人、頻繁にカードを使ったり、新しい加盟店を利用し始める 人は詐欺が多い 仮説3のモデル例 不正取引確率 = Sigmoid(z) z= 3 x 取引金額比 + 4 x 取引件数 + 2 x 新規加盟店比率 Sigmoid = 1/(1+e-z) 0 0.5 1 不正取引 正常取引 不正取引確率 z
  26. 26. © 2019 MapR TechnologiesMapR Confidential 26 住宅価格の例 サイズ(㎡) x1 部屋数 x2 駅徒歩(分) x3 築年数 x4 価格(M) y 理論価格 y 100 5 10 30 40 120 4 20 4 50 80 3 5 15 80 150 8 8 10 100 110 6 3 20 ?⇒要予測 … … … 教師データ
  27. 27. © 2019 MapR TechnologiesMapR Confidential 27 主成分分析 射影誤差を最小化するようなベクトルを探すことにより次元削減可能。 情報を集約・合成。以下は、2次元を1次元にした例。 射影誤差 劇場への観客動員数 DVD 売上 枚数 映画の人気 分散が最大
  28. 28. © 2019 MapR TechnologiesMapR Confidential 28 主成分分析(3次元→2次元) 3次元 U V U V 2次元 分散が最大 分散が2番目に大きい
  29. 29. © 2019 MapR TechnologiesMapR Confidential 29 異常検知への応用 オリジナル 再構築後 差分
  30. 30. © 2019 MapR TechnologiesMapR Confidential 30 K-Meansクラスタリングのイメージ 特徴(例): ・保有する金融商品 ・預金量 ・住宅ローンの残高 ・デビットカードの使用頻度 ・オンラインバンキングの使用頻度 ・支店への訪問頻度 ◇顧客セグメンテーション(銀行)
  31. 31. © 2019 MapR TechnologiesMapR Confidential 31 Flow分析 1日に約150百万のフローを観測。 「一定期間内に送信元IPがどのくらいの異なるポートに接続するか」などが重要。 10分間隔で以下のような統計を収集 Number of Unique Destination IPs Number of Unique Destination Ports Number of Unique Protocols Used Number of Unique End Reason Maximum Duration of a Flow Number of Flows Number of Bytes Number of TCP Flows Number of UDP Flows Number of ICMP Flows Number of other protocol Flows Number of Internal Flows Number of Internal Bytes Number of Internal to External Flows Number of Internal to External Bytes 上記の統計値(最小値、25パーセンタイル値、中央値、平均値、75パーセンタイル値、 最大値)を算出して、標準化を実施。これらが機械学習の特徴になる
  32. 32. © 2019 MapR TechnologiesMapR Confidential 32 Number of Bytes のヒストグラム
  33. 33. © 2019 MapR TechnologiesMapR Confidential 33 ヒストグラムの変換について
  34. 34. © 2019 MapR TechnologiesMapR Confidential 34 主成分分析の次元とエラーについて 15次元を最終的に9次元に。次元圧縮前のオリジナルデータと復元後のデータを比較し て大きな差異がある時に異常を検知。 次元 誤 差
  35. 35. © 2019 MapR TechnologiesMapR Confidential 35 K-Meansクラスタリングで分析結果 重心の数と誤差でプロット。主成分分析と同じ規模の誤差になるように重心数を調整 0 50,000 100,000 150,000 200,000 250,000 0 20 40 60 80 100 120 K-Means 誤 差 重心の数
  36. 36. © 2019 MapR TechnologiesMapR Confidential 36 異常の考え方 20分ごとに、主成分分析とK-Meansクラスタリングを実施して異常検出。 1回の異常と宣言できないため、一定期間内に5回連続した場合に異常とした。
  37. 37. © 2019 MapR TechnologiesMapR Confidential 37 機械学習以外のFLOW分析について グラフ分析(GraphX) • ページランク • 連結コンポーネント分析 SQL(Drill/Hadoop) • 不審な周期的なイベントの検知 • 不審な長期間通信の検知
  38. 38. © 2019 MapR TechnologiesMapR Confidential 38 グラフ分析について グラフは頂点と頂点を結ぶ辺で成立。頂点がオブジェクトで、辺がオブジェクト間の関係。 小野寺 平林 フォロー 頂点 頂点 辺 Webページ:頂点 リンク:辺
  39. 39. © 2019 MapR TechnologiesMapR Confidential 39 ページランクについて ページランクは、Googleの検索結果のランキングを決めるためのアルゴリズム。 以下のようなサイトからのリンクがあるとページランクは高かくなるという原理。 ・より数多くのウェブサイト ・よりページランクの高いウェブサイト ・よりリンク先を厳選したウェブサイト GraphXを利用しネットワークのトラフィック情報に適用。 IPアドレスのページランクのスコアが翌日から 大幅に変更された場合異常と判断。 特に、低いランクのノードが悪意のある目的のために 内部的にデータを収集し、突然ランクアップする可能性があります。 https://ja.wikipedia.org/wiki/ページランク
  40. 40. © 2019 MapR TechnologiesMapR Confidential 40 連結コンポーネント分析 Spark Graph Xを使用。毎日20,000以上の内部IPアドレス間のトラフィックが、 約200の巨大な連結コンポーネントに。 ノードが接続先のIPアドレスを変更して接続することは極めて少なく異常を検知。 連結コンポーネント 連結コンポーネント
  41. 41. © 2019 MapR TechnologiesMapR Confidential 41 SQL:不審な長期間通信の検知 Drillを利用して、CREATE TABLE ~ AS SELECT …で表として作成。 #1.以下の内容でグループ化 sourceIPv4Address, destinationIPv4Address, sourceTransportPort, destinationTransportPort, protocolIdentifier #2. 以下の条件で絞り込み flowEndNanoseconds – flowStartNanosecondsが一定数以上 #3.以下の値を取得 flowStartNanosecondsの平均値, sourceIPv4Address,destinationIPv4Address, sourceTransportPort,destinationTransportPort, protocolIdentifier, (flowEndNanoseconds – flowStartNanoseconds)の合計値, octetDeltaCountの合計値
  42. 42. © 2019 MapR TechnologiesMapR Confidential 42 SQL:不審な周期的なイベントの検知 マルウェアとC&Cサーバーとの通信と、メールクライアントがメールサーバーに ポーリングする通信は似ているため、悪意のある通信を検知することは難しい。 C&Cサーバーと通信するサーバーが多くのサーバーと接続することは、ほとんどないため、 多くの内部サーバーに接続するIPアドレスについては問題ないものとみなし誤検知を削減。 Drillを使用して、接続状況を可視化。
  43. 43. © 2019 MapR TechnologiesMapR Confidential 43 以下の3つの情報の分析を実施。 • Flow:機械学習(Spark MLlib),グラフ分析(GraphX),SQL(Drill/Hadoop) • HTTP:SQL(Drill/Hadoop) • DNS:SQL(Drill/Hadoop)
  44. 44. © 2019 MapR TechnologiesMapR Confidential 44 HTTP情報 • observationTimeMilliseconds • sourceIPv4Address • destinationIPv4Address • sourceTransportPort • destinationTransportPort • protocolIdentifier • npulseStreamId • HTTPRequestURL • HTTPRequestHost • HTTPRequestMethod • HTTPRequestAgent • HTTPResponseType • HTTPRequestReferer • HTTPResponseCode • basicList Fireeye PXボックスは、認識されたHTTPトラフィックからHTTPヘッダー情報を再構築 します。
  45. 45. © 2019 MapR TechnologiesMapR Confidential 45 HTTPの異常検知 HTTPは、お客様側で既に調査を実施しているため、単純なHTTPの異常検知を実施。 1.以下の内容でグループ化 sourceIPv4Address 2.以下の条件で絞り込み sourceTransportPort ≠80, sourceTransportPort≠443, HTTPRequestAgent is not null, sourceIPv4Address is not null, HTTPRequestAgent数が一定の範囲内 3.以下の値を取得 sourceIPv4Address, HTTPRequestAgent 数
  46. 46. © 2019 MapR TechnologiesMapR Confidential 46 以下の3つの情報の分析を実施。 • Flow:機械学習(Spark MLlib),グラフ分析(GraphX),SQL(Drill/Hadoop) • HTTP:SQL(Drill/Hadoop) • DNS:SQL(Drill/Hadoop)
  47. 47. © 2019 MapR TechnologiesMapR Confidential 47 DNS情報 • observationTimeMilliseconds • sourceIPv4Address • destinationIPv4Address • sourceTransportPort • destinationTransportPort • protocolIdentifier • npulseStreamId • dnsQName • dnsIPv4Address • dnsTTL Fireeye PXボックスはDNSトラフィックを再構築し、IPFIXトラフィックに詳細なDNS 情報を表示します。 以下に、DNSデータで使用可能なフィールドを示します。サイバー 犯罪者は、ドメイン名を隠して捜査から逃れようとするため、異常なDNSトラフィック を調べることは、重要な手法となります。
  48. 48. © 2019 MapR TechnologiesMapR Confidential 48 悪質なDNSクエリの検知 1日あたりのDNSクエリ数は200,000以上。既に、お客様側でDNSトンネリングなどへの 対策を実施済みであるため悪質なDNSクエリの検知に注力 #1.dnsQNameでグループ化 #2.以下の条件で絞り込み dnsQNameのサイズが一定の範囲, sourceTransportPort ≠53, dnsQName is not null, dnsQName not like ‘%companyname%’ , dnsQName not like '%arpa’, dnsQName not like '%amazonaws%’ , dnsQName not like ‘%COMPANYNAME%’ , dnsQName not like '%cloudfront%’ , dnsQName not like '%globenews%’, 3.以下の値を取得 sourceIPv4Addressの数, dnsQName
  49. 49. © 2019 MapR TechnologiesMapR Confidential 49 ダッシュボード XXX.XXX.XXX.XXX XXX.XXX.XXX.XXXXXX.XXX.XXX.XXXXXX.XXX.XXX.XXXXXX.XXX.XXX.XXX
  50. 50. © 2019 MapR TechnologiesMapR Confidential 50 サブネット間、ホスト間の接続
  51. 51. © 2019 MapR TechnologiesMapR Confidential 51 ご清聴ありがとうございました。
  52. 52. © 2019 MapR TechnologiesMapR Confidential 52

×