異常検知の技術は様々な分野で応用できます。例えば機械系では故障の検出。システム運用では障害の検出。セキュリティ分野では攻撃や侵入検知。マーケティング分野では流行のブレークの検出などです。ではどのようにすれば実現できるでしょうか?
データから異常を検知する方法はいくつかあります。例えば固定の閾値ベースや、移動平均をとって動的閾値ベースもあります。また一定の条件にマッチされるルールベースも有効です。
今回は機械学習を使った異常検知の方法をご紹介しますが、実はその方法も一つだけではありません。今回は4つのケースに従って適用する手法をご紹介したいと思います。
Splunk Machine Learning Toolkit (MLTK) について
Splunk には、無償で追加できるアドオンとして MLTKというAppがあります。MLTKにはSmart Assistantという、機械学習を簡単に利用頂けるようにステップ(データセット定義・モデル作成・評価・実装)に従ってモデル作成や実装ができる機能があります。
どんな異常を検知したい?
手法の説明をする前にどんな異常を検知したいのかを整理にしておく必要があります。今回は以下の4つのケースを取り上げます
- 自分自身の過去データと比べて異常なデータ(いつもと違う動きを検出)
- 近い将来発生する異常なデータ(予兆検知)
- 他の類似データと比べて異なるデータ(異物混入)
- 相関性が崩れたデータ(複数あるもののどこかがおかしい)
ケース1:自分自身の過去データと比べて異常なデータ
今回は以下のログイン数をカウントしたデータを使って異常を検知します。
今回のような時系列データに対しては、MLTKのSmart Outlier Detection機能を使うと、前処理として時間、曜日、日にち、月というフィールドをボタン一つで作成してくれますので、この時間にしてはおかしいとか、日曜日でこの数字はおかしいといった事を見つけることが出来ます。
今回は時間と曜日単位でデータをグルーピングして、それぞれの異常値を検出します。左の画面で条件を入力して実行すると、下記画面のようにグループ毎のデータ分布と異常と判断された箇所が表示されます。閾値は自由に変更可能です。
時系列グラフで表示したい場合は、グラフ種類で「時間」を選択すると、どの時間帯に異常が発生したのかが視覚的にわかります。(画面だとわかりづらいですが、黄色の丸が異常の部分です)
条件と閾値が決定したら、最後に検出モデルを保存してスケジュール実行できます。また結果によってアラートを発報するところまで設定ができます。
Smart Outlier Detection機能が使っているアルゴリズムはDensity Functionという確率密度分布を使ったものになりますが、推奨のアルゴリズムが設定されているので、ユーザーが悩むこともありません。もっと詳しく知りたい方はこちらの記事もご覧ください。
Splunk MLTK Smart Outlier Detection Assistant について
ケース2:近い将来発生するだろう異常なデータを検出する(予兆検知)
実際に問題が起きる前に異常を検知したい。という願望はお持ちではないでしょうか。機械学習を使えばこれが必ずしも叶うわけではありませんが、場合によってはその兆候を捉えることができます。
その一つに時系列予測があります。この時系列予測を使って実際に障害になる前にその予兆を検知することが可能になるかもしれません。
異常の検出方法としては既存データから時系列予測モデルを作成し、その予測値が閾値を超えたかどうかで判断します。そうすることで現時点では異常でなくても、将来超える可能性があるということで予防保守が可能になります。
MLTKのSmart Forecast の画面がこちらです。オプションとしてルックアップファイルから祝日などのspecial time を追記できます。これにより祝日やイベント日など不定期に訪れる日付も意識したモデルが作成できます。
実際の予測結果の図がこちらです。図だと分かりづらいですがグラフの右側の方の水色で囲われた箇所が今後の予測グラフになります。閾値をセットしてこの予測箇所が超えるかどうかを判断することができます。
こちらのモデルも同じように保存して、スケジュール実行とアラート発砲が可能です。例えば1日一回実行して、2週間先まで予測するモデルを作成すると、2週間以内に異常が発生する可能性を検知できます。
Smart Forecastにもっと知りたい方はこちらの記事も参考にしてください
Splunk機械学習を使った予測分析 (StateSpaceForecastアルゴリズム)
続いて次の紹介もしたいところですが、長くなってしまいましたので、残りの2つのケースについては別のBlogで紹介させていただきます。