Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Copyright © 2015 Splunk, Inc.
正規分布を使った
アノーマリー検知
Apache ログ編
自己紹介
小松原 貴司
Splunk 勤務
– シニアセールスエンジニア
免責条項
このプレゼンテーション中に、弊社は弊社の将来の事象または予想される業績に関する前向きな意見を述
べることがあります。弊社は、かかる意見が、現在弊社が知っている要因に基づく弊社の現在の予測および
推定を反映するものであることと、実際の事...
正規分布と標準偏差
4
μ(平均)±{1,2,3}σ(標準偏差)の範囲に収まる
収まるデータの割合
たとえば、右端の白い部分は、「データ > (μ+2σ)」が成り立つ領域である。
たとえば、左端の白い部分は、「データ < (μ-2σ)」が成り立つ領域である。
不自然に多量の
トラフィックが発生してい
る接続元の国を
抽出する
6
利用するサンプルデータ
弊社のチュートリアルのデータを利用します。
– http://docs.splunk.com/images/Tutorial/tutorialdata.zip
Splunk 6.1系、6.2系、6.3系、いずれもご利用い...
極端なケース(右側の2σ〜3σの間の部分)を抽出
iplocation で国情報を調べる
eventstats を使って、bytes フィールドに対して、標準偏差、平均を出す
where 句を使って、
– 「データ(bytes) > 平均(av...
結果) 2σ〜3σの間
9
あまり外れたデータはない、ということになります。
結果) 1σ>の間
10
μ(平均)からの距離を少しずつ大きくして、アノーマリーなデータを検知していきます
11
Upcoming SlideShare
Loading in …5
×

正規分布を使ったアノーマリー検知 Apacheログ

7,095 views

Published on

2015/10/15 で発表させていただいたときに使用した資料になります。
http://loganalytics.connpass.com/event/19614/

Published in: Data & Analytics
  • 「bytesフィールドの値が正規分布している」という仮定が成り立たないと意味がない処理をしているように見える
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

正規分布を使ったアノーマリー検知 Apacheログ

  1. 1. Copyright © 2015 Splunk, Inc. 正規分布を使った アノーマリー検知 Apache ログ編
  2. 2. 自己紹介 小松原 貴司 Splunk 勤務 – シニアセールスエンジニア
  3. 3. 免責条項 このプレゼンテーション中に、弊社は弊社の将来の事象または予想される業績に関する前向きな意見を述 べることがあります。弊社は、かかる意見が、現在弊社が知っている要因に基づく弊社の現在の予測および 推定を反映するものであることと、実際の事象または結果が著しく異なることがあることを皆さんにご注意い たします。実際の結果が弊社の前向きな意見に含まれるものとは異なるようにさせる重要な要因について は、SECを含む弊社の文書をお調べください。このプレゼンテーションに含まれる前向きな意見は、生のプレ ゼンテーションの日時において述べられたものです。生のプレゼンテーションの後に見直しが行われた場合、こ のプレゼンテーションに現在のまたは正確な情報が含まれないことがあります。弊社は、弊社が述べることが ある前向きな意見を更新する義務を負いません。また、弊社のロードマップに関する情報で、弊社の一般 的な製品方針の概要が示されていますが、この情報は予告なしにいつでも変更されることがあります。これ はあくまで参照用であって、契約またはその他の約定に組み込まれないものとします。Splunkは、記述され ている特徴または機能を開発する義務も、かかる特徴または機能を将来のリリースに含める義務も負いま せん。 3
  4. 4. 正規分布と標準偏差 4
  5. 5. μ(平均)±{1,2,3}σ(標準偏差)の範囲に収まる 収まるデータの割合 たとえば、右端の白い部分は、「データ > (μ+2σ)」が成り立つ領域である。 たとえば、左端の白い部分は、「データ < (μ-2σ)」が成り立つ領域である。
  6. 6. 不自然に多量の トラフィックが発生してい る接続元の国を 抽出する 6
  7. 7. 利用するサンプルデータ 弊社のチュートリアルのデータを利用します。 – http://docs.splunk.com/images/Tutorial/tutorialdata.zip Splunk 6.1系、6.2系、6.3系、いずれもご利用いただけます。
  8. 8. 極端なケース(右側の2σ〜3σの間の部分)を抽出 iplocation で国情報を調べる eventstats を使って、bytes フィールドに対して、標準偏差、平均を出す where 句を使って、 – 「データ(bytes) > 平均(avg_bytes) + 2 標準偏差(stdev_bytes)」が成り立つイベン トを抽出 8 sourcetype=access_combined_wcookie | iplocation clientip | eventstats stdev(bytes) as stdev_bytes, avg(bytes) as avg_bytes by Country | where bytes > avg_bytes+(2*stdev_bytes)
  9. 9. 結果) 2σ〜3σの間 9 あまり外れたデータはない、ということになります。
  10. 10. 結果) 1σ>の間 10 μ(平均)からの距離を少しずつ大きくして、アノーマリーなデータを検知していきます
  11. 11. 11

×