必須監(jiān)控的Kubernetes健康指標(biāo)有哪些

161次閱讀

共計(jì) 2055 個(gè)字符，預(yù)計(jì)需要花費(fèi) 6 分鐘才能閱讀完成。

這篇文章給大家分享的是有關(guān)必須監(jiān)控的 Kubernetes 健康指標(biāo)有哪些的內(nèi)容。丸趣 TV 小編覺得挺實(shí)用的，因此分享給大家做個(gè)參考，一起跟隨丸趣 TV 小編過來看看吧。

Kubernetes 是當(dāng)今容器管理和自動(dòng)化最流行的選擇之一。一個(gè)高效的 Kubernetes 設(shè)置每天都會(huì)生成無數(shù)新的指標(biāo)，這使得監(jiān)控集群運(yùn)行狀況非常具有挑戰(zhàn)性。你可能會(huì)發(fā)現(xiàn)自己在篩選多個(gè)不同的指標(biāo)時(shí)，并沒有完全確定哪些是最具洞察力的，并需要給予最大的關(guān)注。

盡管這看起來是一項(xiàng)艱巨的任務(wù)，但你可以通過了解這些指標(biāo)中的哪一個(gè)能夠正確地洞察 Kubernetes 集群的運(yùn)行狀況，從而立即開始工作。盡管有一些可觀察性平臺(tái)可以幫助你監(jiān)控 Kubernetes 集群的正確指標(biāo)，但準(zhǔn)確地了解哪些指標(biāo)將幫助你有效監(jiān)控。在本文中，我們將向你介紹 Kubernetes 的幾個(gè)排名榜首的健康指標(biāo)。

崩潰循環(huán)

一個(gè)崩潰循環(huán)是你最不想被發(fā)現(xiàn)的事情。在崩潰循環(huán)中，你的應(yīng)用程序在 pod 啟動(dòng)時(shí)崩潰，并在循環(huán)中不斷崩潰和重新啟動(dòng)。多種原因可能會(huì)導(dǎo)致崩潰循環(huán)，從而很難確定根本原因。在崩潰循環(huán)發(fā)生時(shí)得到警報(bào)，可以幫助你快速縮小原因列表，并采取緊急措施保持應(yīng)用程序處于正常狀態(tài)。

集群狀態(tài)指標(biāo)

另一個(gè)需要關(guān)注的關(guān)鍵指標(biāo)是集群狀態(tài)。你應(yīng)該能夠跟蹤集群中所有節(jié)點(diǎn)的聚合資源使用情況，包括所需的 pod、節(jié)點(diǎn)狀態(tài)、當(dāng)前 pod、不可用 pod 和可用 pod。監(jiān)控集群狀態(tài)并評(píng)估由此產(chǎn)生的指標(biāo)可以讓你看到集群總體運(yùn)行狀況的概要視圖。你還將了解與節(jié)點(diǎn)和 pod 有關(guān)的問題。根據(jù)狀態(tài)指標(biāo)，你可以決定是否需要調(diào)查更大的問題或擴(kuò)展集群。

使用這個(gè)指標(biāo)，你還可以評(píng)估節(jié)點(diǎn)正在使用的資源數(shù)量。你還將看到有多少節(jié)點(diǎn)，還有多少節(jié)點(diǎn)仍然可用，從而可以準(zhǔn)確地知道你所支付的費(fèi)用以及是否需要調(diào)整所使用的節(jié)點(diǎn)的數(shù)量和大小。

磁盤和內(nèi)存壓力

磁盤壓力是一個(gè)指標(biāo)，它根據(jù)你在配置中設(shè)置的使用閾值，指示你的節(jié)點(diǎn)使用磁盤空間是過快還是過多。監(jiān)控這個(gè)指標(biāo)使你能夠確定何時(shí)需要添加額外的磁盤空間。它還可能表明你的應(yīng)用程序沒有按照設(shè)計(jì)的方式運(yùn)行，并且使用了比需要更多的磁盤空間。

內(nèi)存壓力是一個(gè)指標(biāo)，它指示一個(gè)節(jié)點(diǎn)正在使用的內(nèi)存量。監(jiān)控這個(gè)指標(biāo)可以幫助你防止節(jié)點(diǎn)耗盡內(nèi)存，并指示那些內(nèi)存資源分配過度、不必要地增加了基礎(chǔ)設(shè)施開銷的節(jié)點(diǎn)。高內(nèi)存壓力還可以判斷應(yīng)用程序是否存在內(nèi)存泄漏。

網(wǎng)絡(luò)不可用

你會(huì)立即想知道你的網(wǎng)絡(luò)什么時(shí)候出了問題。畢竟，你的節(jié)點(diǎn)和應(yīng)用程序需要網(wǎng)絡(luò)連接才能運(yùn)行。這個(gè)指標(biāo)可以讓你知道什么時(shí)候出現(xiàn)了阻礙節(jié)點(diǎn)網(wǎng)絡(luò)連接的問題。這些問題可能是不適當(dāng)?shù)木W(wǎng)絡(luò)配置或與硬件的物理連接問題造成的。

CPU 利用率

了解你的節(jié)點(diǎn)使用了多少 CPU 周期對(duì)于確保你的節(jié)點(diǎn)明智地使用其分配的 CPU 資源至關(guān)重要。如果你的應(yīng)用程序或節(jié)點(diǎn)耗盡了所有已分配的處理資源，你就必須增加 CPU 分配或向集群添加額外的節(jié)點(diǎn)。如果你的節(jié)點(diǎn)或應(yīng)用程序使用的 CPU 周期比你所支付的要少，那么你必須重新評(píng)估 CPU 分配，并在必要時(shí)進(jìn)行降級(jí)。監(jiān)控 CPU 利用率可以幫助你掌握此類場景，并使部署更有效地運(yùn)行。

作業(yè)失敗

Kubernetes Job 是一種控制器，它確保 pod 執(zhí)行一定的時(shí)間，然后一旦它們達(dá)到了預(yù)期的目的，它們就會(huì)退役。有時(shí)作業(yè)無法成功完成——要么是因?yàn)楣?jié)點(diǎn)重新啟動(dòng)，要么進(jìn)入崩潰循環(huán)，甚至是資源耗盡。無論哪種方式，只要作業(yè)失敗發(fā)生，你就會(huì)想要知道它們。

作業(yè)失敗并不一定意味著你的應(yīng)用程序是不可訪問的——但是忽略作業(yè)失敗可能會(huì)導(dǎo)致后續(xù)部署出現(xiàn)更嚴(yán)重的問題。密切監(jiān)控作業(yè)失敗可以幫助及時(shí)恢復(fù)，并在未來避免這些問題。

DaemonSet

DaemonSet 確保 Kubernetes 集群中的所有節(jié)點(diǎn)運(yùn)行你喜歡的特定 pod 的副本。當(dāng)你希望在所有現(xiàn)有節(jié)點(diǎn)和添加到集群中的任何新節(jié)點(diǎn)上運(yùn)行一個(gè)監(jiān)控 service pod 時(shí)，DaemonSet 特別有用。

監(jiān)控 DaemonSet 可以幫助你了解集群的運(yùn)行狀況。理想情況下，集群中觀察到的 DaemonSet 數(shù)量應(yīng)該與所需的 DaemonSet 數(shù)量匹配。如果你注意到這些數(shù)字不相同，那么至少有一個(gè) DaemonSet 可能失敗了。

監(jiān)控 Kubernetes 運(yùn)行的健康指標(biāo)

掌握所有 Kubernetes 健康指標(biāo)對(duì)于確保及早發(fā)現(xiàn)、預(yù)防和及時(shí)診斷可能導(dǎo)致集群宕機(jī)的問題至關(guān)重要。使用正確的監(jiān)控策略、Kubernetes 健康指標(biāo)所關(guān)注的知識(shí)以及正確的監(jiān)控工具集，是確保生產(chǎn)環(huán)境始終處于啟動(dòng)和運(yùn)行狀態(tài)的最佳方法。

我們在 LOGIQ 已經(jīng)構(gòu)建了一個(gè)監(jiān)控工具，它可以幫助監(jiān)控各種大小的 Kubernetes 集群，確保沒有任何東西不被發(fā)現(xiàn)，將成本保持在最低限度，同時(shí)為 Kubernetes 提供其他任何人都無法做到的可觀察性。跟我們談?wù)?[2] 你們的 Kubernetes 基礎(chǔ)設(shè)施系統(tǒng)，以及你們希望監(jiān)控什么。

感謝各位的閱讀！關(guān)于“必須監(jiān)控的 Kubernetes 健康指標(biāo)有哪些”這篇文章就分享到這里了，希望以上內(nèi)容可以對(duì)大家有一定的幫助，讓大家可以學(xué)到更多知識(shí)，如果覺得文章不錯(cuò)，可以把它分享出去讓更多的人看到吧！

正文完