在這個教程中,我們會一步步地教您使用 OpenResty XRay 來識別普羅米修斯(Prometheus)應用中最耗 CPU 的 Go(golang)程式碼路徑。這些程式碼路徑消耗最多的 CPU 時間,嚴重影響普羅米修斯應用的效能。

問題:高 CPU 使用率

首先執行 top 命令檢查 CPU 使用情況。

Screenshot

可以看到,這個 Prometheus 程序消耗了超過 160% 的 CPU 核心資源。

Screenshot

執行 ps 命令來檢視這個程序的完整命令列。

Screenshot

可以看到這是一個 Linux 發行版自帶的標準 Prometheus 二進位制可執行檔案。

Screenshot

使用 OpenResty XRay 的引導式分析功能定位 CPU 最熱的 Go 程式碼路徑

讓我們使用 OpenResty XRay 來檢查這個未經修改的程序。您可以對它進行實時分析,並找出原因。

在瀏覽器中開啟 OpenResty XRay 的 Web 控制檯。

Screenshot

確保當前分析的機器是正確的。

Screenshot

如果不對,我們可以在下面的列表重新選擇。

Screenshot

進入 “Guided Analysis” 頁面。

Screenshot

這裡可以看到系統能分析的不同型別的問題。

Screenshot

選擇 “High CPU usage”.

Screenshot

點選 “Next”。

Screenshot

選擇之前的那個 Go 應用。

Screenshot

選擇消耗 125% CPU 資源的程序。也就是我們之前在 top 中看到的。

Screenshot

確保應用的型別是正確的。

Screenshot

通常預設值就是對的。

這裡的語言級別就只有 “Go” 了。

Screenshot

我們還可以設定最長的取樣時間。這裡保持預設的 300 秒不變。

Screenshot

開始分析。

Screenshot

系統將持續執行多輪分析。目前它正在執行第一輪分析。

Screenshot

前兩輪分析已經完成,現在進入第三輪分析。對這個例子來說,執行兩輪分析就夠了。

Screenshot

停止分析。

Screenshot

這裡顯示系統正在為本次分析生成報告。

Screenshot

可以看到自動生成了一份分析報告。

Screenshot

這是我們要分析的問題型別,“CPU”。

Screenshot

可以看到,Go 垃圾回收消耗了超過 99% 的 CPU 時間。

Screenshot

例如,這條在執行垃圾回收的 Go 程式碼路徑佔用了超過 21% 的 CPU 時間。

Screenshot

scanobject 是 Go 語言的一個執行時函式,它負責垃圾回收的工作。它會在堆記憶體中尋找 GC 物件,並把它們能夠訪問到的物件都標記出來。

Screenshot

gcDrain 函式的作用是把工作佇列中的 GC 物件都標記並清除掉。

Screenshot

快速分配眾多的 GC 物件會導致 GC 開銷很高。所以,報告給出了那些分配物件最多最快的 Go 程式碼路徑。

Screenshot

看一下這條 Go 程式碼路徑,它分配了最多的 GC 物件。

Screenshot

函式 loadWAL 是從 Prometheus 的預寫日誌中載入資料。

Screenshot

函式 Series 函式從緩衝區中解碼出時序資料,並將其新增到指定的切片中。

Screenshot

函式 slicebytetostring 將位元組切片轉換為字串。

Screenshot

點選 “More” 檢視更多細節。

Screenshot

這條程式碼路徑是從這個 Go GC 物件分配火焰圖中自動推匯出來的。

Screenshot

下面是對當前問題更詳細的解釋和建議。

Screenshot

它提到了函式 loadWAL.

Screenshot

這個函式從預寫日誌中載入資料。

Screenshot

它也提到了函式 Series

Screenshot

和函式 slicebytetostring

Screenshot

讓我們回到剛才的程式碼路徑上來。把滑鼠放在函式 loadWAL 的綠色框上。

Screenshot

可以看到這個函式的原始檔名。在提示框中還可以看到檔案的完整路徑。

Screenshot

原始碼行號是 141。

Screenshot

點選這個圖示,複製這個函式完整的 Go 原始檔路徑。

Screenshot

使用 vim 編輯器開啟原始檔,檢視這個檔案裡的 golang 程式碼。

Screenshot

正如 OpenResty XRay 建議的那樣跳轉到第 141 行。

Screenshot

函式 dec.Series 是從一個記錄中解碼一組時間序列。

Screenshot

在狀態列中可以看到這行程式碼也確實在 loadWAL 函式中,正如之前報告中提到的。

Screenshot

Prometheus 的 TSDB 建立記憶體序列用來管理最新的資料。這條程式碼路徑新分配的 GC 物件數目超過了新分配總數的 19%。

Screenshot

這裡可以看到,動態分配新 GC 物件的操作佔用了將近 11% 的 CPU 時間。這不僅增加了垃圾回收器的負擔,本身也消耗大量的 CPU 資源。

Screenshot

全自動分析與報告

OpenResty XRay 也可以自動監控線上程序,並生成分析報告。

進入 “Insights” 頁面。

Screenshot

您可以在 “Insights” 頁面中找到以日和周為週期的報告。

Screenshot

所以您不是非得用 “Guided Analysis” 功能。當然,“Guided Analysis” 對於應用的開發和演示是很有用的。

Screenshot

如果您喜歡這個教程,請訂閱這個部落格網站和我們的 YouTube 頻道B 站頻道。謝謝!

關於 OpenResty XRay

OpenResty XRay 是一個動態追蹤產品,它可以自動分析執行中的應用程式,以解決效能問題、行為問題和安全漏洞,並提供可行的建議。在底層實現上,OpenResty XRay 由我們的 Y 語言驅動,可以在不同環境下支援多種不同的執行時,如 Stap+、eBPF+、GDB 和 ODB。

關於作者

章亦春是開源 OpenResty® 專案創始人兼 OpenResty Inc. 公司 CEO 和創始人。

章亦春(Github ID: agentzh),生於中國江蘇,現定居美國灣區。他是中國早期開源技術和文化的倡導者和領軍人物,曾供職於多家國際知名的高科技企業,如 Cloudflare、雅虎、阿里巴巴, 是 “邊緣計算“、”動態追蹤 “和 “機器程式設計 “的先驅,擁有超過 22 年的程式設計及 16 年的開源經驗。作為擁有超過 4000 萬全球域名使用者的開源專案的領導者。他基於其 OpenResty® 開源專案打造的高科技企業 OpenResty Inc. 位於美國矽谷中心。其主打的兩個產品 OpenResty XRay(利用動態追蹤技術的非侵入式的故障剖析和排除工具)和 OpenResty Edge(最適合微服務和分散式流量的全能型閘道器軟體),廣受全球眾多上市及大型企業青睞。在 OpenResty 以外,章亦春為多個開源專案貢獻了累計超過百萬行程式碼,其中包括,Linux 核心、Nginx、LuaJITGDBSystemTapLLVM、Perl 等,並編寫過 60 多個開源軟體庫。

關注我們

如果您喜歡本文,歡迎關注我們 OpenResty Inc. 公司的部落格網站 。也歡迎掃碼關注我們的微信公眾號:

我們的微信公眾號

翻譯

我們提供了英文版原文和中譯版(本文)。我們也歡迎讀者提供其他語言的翻譯版本,只要是全文翻譯不帶省略,我們都將會考慮採用,非常感謝!