記事

MITRE ATT&CK評価の解釈方法

10分で読める

この記事では、MITREの評価テスト方法を掘り下げ、現実の世界での重要なことと比較して、評価結果を分析するための有用なヒントをご紹介します。

この記事でお伝えすること:

  • MITRE ATT&CK®評価を通じて判明する点としない点
  • EDR製品を評価する際に質問すべきポイント
  • テレメトリ、検出タイプ、EDRソリューションの比較方法

実際のサイバー攻撃を検知する

企業にとって最大の課題のひとつは、適切なツールを導入によるセキュリティチームの強化です。 実際には、多くの企業がツールに関する間違った情報や複雑さのため、効果の無いツールを購入してしまったり、既存のツールから期待された効果を得ることができずに苦労しています。 ガートナーなどが製品ガイダンスを提供していますが、往々にしてハイレベル過ぎて、現実世界のベンチマークに基づくものでもなかったりします。

2017年にツールのより詳細な分析を企業に提供するために[1]、MITREはEDRベンダーをMITRE ATT&CKフレームワークに即して評価する評価プログラムを開始し、公開された公平なベンチマークを提供しました。最初の結果は2018年に発表され、リストアップされた各製品やサービスから得られたテレメトリ、アラート、インターフェイス、アウトプットの種類についての概要を示しています。

この評価は、実世界の脅威グループであるAPT3の手法に基づいており、サイバーキルチェーンのすべての主要分野をカバーする豊富な検知事例を測定対象としています。しかし、この評価では、実際の環境でどのような効果が得られるかについては考慮されておらず、また、攻撃への対応についても一切考慮されていませんでした。したがって、この評価は有用な出発点ではありますが、EDR製品を評価する際の一つの側面を形成するに過ぎません。

EDR製品の評価

MITRE評価のラウンド1は、基本的にはテレメトリーと検知を主要な評価基準として使用しており、(リアルな環境では無く)コントロールされた環境下でのEDRツールの検知機能に重点を置いた評価となっています。そのアウトプットは一連のテストケースとその結果のリストで、主に特異性の検知とその情報を受け取るまでの時間に焦点を当てています。このような簡略化されたアプローチをとることは、検知のような複雑な問題領域をより管理しやすくするのに役立ちます。しかし、この場合問題を簡素化し過ぎてはいけないのでしょうか?

多くの場合、「検知」の世界では、問題となる「悪いもの」を見つけるのではなく、正規のアクティビティを除外することで、より効果的に異常なアクティビティを見つけられるようにします。外部からのノイズがない、隔離された環境でテストして何かを「検知」できたとしても、現実の世界ではノイズによって隠されてしまい、「検知」できない可能性があります。MITREは、このことについては制限事項として明確に注意していますが、結果だけを確認する際には忘れられがちです。

製品以外の分野では、テストにはツールやプロセス/ワークフローを活用する人のような重要な領域も欠けており、これらはツールそのものよりも重要である場合が多いです。そのため、MITRE評価を出発点として使用し、その制限を理解し、加えて独自の評価を行う、総合的なアプローチをとることをお勧めします。

例えば: 

  • 現実世界でのフーォルスポジティブ(誤検知)率はどのようなものか?
  • 検知のノイズを減らしたり、正規のアクティビティに似た特定のアクティビティを見つけたりできるようサポートする機能は備わっているか?
  • 脅威ハンティングをベースにした検知から調査、タイムライン作成、対応までの実際のエンドツーエンドの調査を行う事は可能か?
  • マシンからフォレンジックデータを取得するために、対応のためのタスクを起動できるか?
  • ネットワークから攻撃者を封じ込め、対抗できるか?
  • 自社の検知チームは、技術的にツールを使いこなすことができ、24時間365日稼働できるか?
  • マネージドサービスの恩恵を受けることはできるか? その場合、高度な攻撃を検知できることを実証できるか?
既存の結果から何を学ぶことができるでしょうか? そして、それらをどのように解釈すべきでしょうか?

各ベンダーの評価結果は約100種類のテストケースから構成されており、それぞれに詳細、テクニックID、検知タイプおよび検知メモが関連付けられています。最初に注意すべき点は、これらは技術的な結果を元にした純粋に技術的な評価であり、ハイレベルのスコアリングメカニズムを持っていないため、技術チームのメンバー(または外部の関係者)に助けを求める必要があるかもしれないことです。以下に評価結果の例を示します:

アラートのノイズ

多くのMITREテクニックは、実際の合法的な活動に近いものであるため、誤検知の可能性があります。例えば、Rundll32は多くの組織で一般的に使用されており、手動で監視するにはノイズが多すぎますが、Mshtaは使用頻度が低いため発見しやすくなります。しかし、このようなノイズは貴重なものであり、正しく処理することによって忠実度が増します。

 

この例では、機械学習と監視対象アクティビティの広範なコンテキストにより、ノイズの中から意味のあるシグナルを選び出し、リスクスコアを計算して、通常とは異なるコンテキストで複数の関連アクティビティが検出された場合にのみ警告を発するようにしています。広範なコンテキストで高リスクの検出に集中し、ノイズに隠れていた大量のアクティビティを機械学習を使って判断されることで、チームの効率が大幅に向上します。

テスト結果には高度な技術的詳細が含まれますが、わかりやすいスコアとしては提供されません。

Figure 1 – テスト結果には高度な技術的詳細が含まれますが、わかりやすいスコアとしては提供されません。

この表で最も重要なフィールドは、ベンダの実際の動作を説明する「検知タイプ」と「検知メモ」です。これらは、ベンダが関連するテレメトリーをログに記録したかどうか、アクティビティに関連するアラート/検知があったかどうかの基本的なサマリーを提供しています。

次のセクションでは、「テレメトリー」と「検知」の両方の重要性を評価する方法について説明します。

テレメトリーの測定方法

あらゆる検知において最も重要なことは、最初に分析のためのデータを用意することです。ほとんどのEDRプロバイダは、攻撃者の多数の操作をカバーするプロセスデータ、ファイルデータ、ネットワーク接続とサービス、レジストリまたは永続化データなどのテレメトリーをリアルタイムに収集します。しかし、ここで気を付けるべき重要な要素は何でしょうか?

収集されたデータ – テストケースを見ると、ほとんどの製品がほぼすべてのテストケースのテレメトリーを適正に収集していることがわかります。多くの製品が検知できなかった領域の1つは、アクターがPowerShellロギングを無効にしたEmpireセクションでした。このアクティビティを検知したのは、一部の製品だけです。MITREに拘らなければ、メモリのアノマリやWMIのデータに関連するデータおよび.NETアクティビティのデータを収集して最先端の攻撃を検知できる、より進んだ製品を見つけることができます。

タイミング – 応答時間は重要であり、MITREの結果は、エンドポイントからデータ/アラートが返されるまでにかかる時間の基準を提供します。MITERは、応答までに約30分以上かかったものに「遅延」タグを割り当てます。データ処理の高速化自体は良いことですが、現実世界の侵害では、ほとんどの場合、検出して封じ込めるために数分から数時間(業界平均では数か月から数年)かかります。そのため、応答時間よりも、実際に攻撃を検出できるかどうか、そして攻撃を封じ込めるまでの時間のほうを重視することをお勧めします。

品質 – MITREの評価は、製品が特定のテストケースにおいて基本的なデータを収集しているかどうかを確認するためには役立ちます。しかし、調査のために必要なコンテキストがその製品から得られるかどうかまでは確認できません。これは、現実世界から隔離された製品テストは現実世界の問題を反映しない、という問題に戻ります。たとえば、プロセスイベントには通常、実行されたプロセスへのパスが含まれますが、そこにハッシュ、証明書情報、親プロセス、および子プロセスも表示されるでしょうか? これらはMITREが測定するものではありません。

リテンション(保持) – MITERの評価の微妙な点の1つは、テストと評価が連続して実行されるため、リテンションは考慮されないということです。EDRのデータセットは非常に大きくなる可能性があり、それを長時間保存するためにはコストがかかり、技術的にも困難になるため、現実の世界ではリテンションは大きな問題となります。ビジネスにとっては、各データセットが保存される期間を明確にすることが重要であり、それは、財務状況、規制の順守、および運用に影響を与える可能性があります。たとえば、組織内に24時間年中無休のチームが存在せず、週末に何かが発生した場合、データは月曜日までに無くなっている可能性があります。

検知タイプとは

アラートを自動処理することで、チームは検知範囲を拡張し、既知の指標を検知する際の信頼性を高めることができます。検知はMITRE評価の重要なコンポーネントであり、アラートをエンリッチメント、一般的な行動(General Behavior)、または具体的な行動(Specific Behavior)に分類することによって検知品質を付加します。一般に指標は具体的なほうが良いとされ、それは生成されるアラートが少なくなるからです。

ただし、検知とアラートは、検知アプローチの1つの要素に過ぎず、アラートが「プロアクティブ」ではなく「リアクティブ」だからといって、単一のアプローチとして頼るべきではないことを覚えておいてください。アラートを正しく使用すれば、簡単なものを確実に見つけ出し、レスポンスタイムを向上させることができます。しかし、標的の多い組織でアラートを利用したアプローチをとることのリスクは、チーム内にリアクティブな文化を生み出し、自己満足と誤った安心感をもたらしてしまうことにあります。既存のツールでは悪意のあるものとして識別できないような、これまでに見たことのないような手法にも対応できるように、アラートベースのリアクティブな検知と、リサーチに基づいたプロアクティブな脅威探索の適切なバランスを見つけることで、ツールやアラートでは見逃しがちな異常をキャッチすることができます。

ソリューションの比較

MITREはソリューションをスコア付けしませんが、各ソリューションの動作を簡単に確認できる比較ツールを提供しています。

Figure 2 – 検知タイプを理解すれば、結果は比較可能です。

結果を比較する際には、全体的なアプローチをとることが有効です。遠隔測定、検知、結果がどれだけ早く返ってくるか(「遅れた」結果が少ないこと)を同じように重視してください。これらの側面はそれぞれ、セキュリティチームに異なるメリットをもたらします。検知とマネージドサービスのコンポーネントでは、通知に対してチームが対応できるように十分な情報が提供されていることを確認してください。

Figure 3 – Kill chain analysis providing holistic view to compare results

Forester社は以前、MITRE社向けにスコアリングツールをリリースしました。興味深いアプローチではありますが、このツールの結果は検知に大きく依存しており、すでに述べたように、検知を主要な評価基準とすることは、EDRツールの全体的な有効性を測るのには適していません。実際の侵害で最も重要なのは、適切なデータ、分析、検知、対応機能、そして最も重要なのは、どんなツールをも動かすことができる有能なチームを持つことです。

MITRE評価

MITREの評価は、セキュリティ業界にとって大きな前進であり、EDR領域に必要な可視性と独立したテストをもたらしています。このような複雑な問題領域において、ソリューションを公正かつ独立して比較することは非常に困難であるため、MITRE自身もその努力を称賛すべきです。

短期的には、エフセキュアがラウンド2のMITRE評価を完了したことを発表できることを嬉しく思います。