Auditing Frameworks Need Resource Isolation: A Systematic Study on the Super Producer Threat to System Auditing and Its Mitigation 2023 論文解析以及相關論文

2026-02-09 約 2637 字預計閱讀 6 分鐘

背景知識

Audit 是系統安全中的「監視錄影機」，它負責追蹤作業系統內發生的一切關鍵活動，例如：誰打開了 /etc/shadow、哪個進程發起了網路連線、或是誰修改了系統權限。

其核心目標在於提供可追蹤性 (Accountability)。當攻擊發生時，安全專家可以透過審計日誌進行「數位鑑識」，還原攻擊者的操作路徑。

Audit 基本上由以下組件組成：

所以可以看成是一種集中式的架構，所有東西都由 Log 處理。

我們可以看一些論文提到的 Audit 框架

Sysdig: 容器監控 (Container Monitoring)：它是 Kubernetes 和 Docker 環境下的監控霸主
Linux Audit (Auditd): Linux 核心內建的「官方」審計子系統。你不用安裝，它就在 Kernel 裡面，雖然是標準，但架構老舊（單執行緒）
LTTng (Linux Trace Toolkit: next generation)，一個專注於「極致效能」的追蹤工具。它的設計目標是對系統的干擾降到最低 (Low Overhead)
CamFlow: 一個學術界的「全系統資訊流 (Whole-system Information Flow)」捕捉系統。它可以畫出非常完整、沒有斷點的溯源圖
KennyLoggings：專注於微服務與容器環境的溯源分析
Hardlog：利用專用硬體（把日誌寫到獨立的存儲裝置）來保護日誌不被竄改
QuickLog：專注於 User-space 的日誌分析效能優化

論文提到，所有提到的框架，都採用集中式框架，都會有一個問題，就是當一個 Process 送太多 Log，會塞爆 Kernel，他們叫做 Super Product 問題。

並且通常遇到塞爆，Audit 只會採取兩種處理方式：

所以都不是很好的處理方式，本篇論文說他是第一個提出這個問題的人，在 2023 年，並且提出對應的處理方式。

簡單的方法像是：

閾值 (Threshold) 難設：設太低會誤殺正常的高負載程式；設太高則擋不住攻擊。而且攻擊者可以用「多個」進程來分攤流量，繞過單一進程的閾值
Collector 內部隔離太複雜：如果在 Collector 內部寫邏輯來區分不同 App 的 Log，會增加開銷，而且可能會跟作業系統本身的排程策略 (Scheduling Policy) 打架，導致兩邊都沒效率
結論：需要徹底重新設計架構（即後來的 NODROP），而不是修修補補

所以 NODROP 就是改成「每個人（Thread）自己處理自己的垃圾」，以前是「所有人的垃圾都丟給一個清潔工（Collector）處理」，產生 Log 的那個執行緒，必須負責消耗自己的 CPU 時間來處理這些 Log。

基本上就是寫一段程式叫做 Threadlet，它是一段注入到應用程式記憶體空間中的程式碼，就是負責送 Log，運作流程就是：

這樣可以減少 Context Switch：不需要切換到另一個 Process (auditd)，直接在當前 Context 處理，速度更快。

我們把警察 (Threadlet) 放在小偷 (惡意程式) 的家裡 (記憶體空間) 辦公，要怎麼確保警察的安全？

既然 Threadlet 是在惡意程式的記憶體空間內執行，惡意程式可能會試圖篡改 Threadlet 的程式碼或破壞 Buffer。作者使用了多層防禦機制：

並且Threadlet 需要寫入 Log 檔案（需要高權限），但原本的 App 可能權限很低。

NODROP 設計了一種機制，讓 Threadlet 在執行時暫時獲得必要的 Capability（如寫入特定 fd 的能力），但嚴格限制它不能做其他壞事。