共計(jì) 2055 個(gè)字符,預(yù)計(jì)需要花費(fèi) 6 分鐘才能閱讀完成。
這篇文章給大家分享的是有關(guān)必須監(jiān)控的 Kubernetes 健康指標(biāo)有哪些的內(nèi)容。丸趣 TV 小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨丸趣 TV 小編過來看看吧。
Kubernetes 是當(dāng)今容器管理和自動(dòng)化最流行的選擇之一。一個(gè)高效的 Kubernetes 設(shè)置每天都會(huì)生成無數(shù)新的指標(biāo),這使得監(jiān)控集群運(yùn)行狀況非常具有挑戰(zhàn)性。你可能會(huì)發(fā)現(xiàn)自己在篩選多個(gè)不同的指標(biāo)時(shí),并沒有完全確定哪些是最具洞察力的,并需要給予最大的關(guān)注。
盡管這看起來是一項(xiàng)艱巨的任務(wù),但你可以通過了解這些指標(biāo)中的哪一個(gè)能夠正確地洞察 Kubernetes 集群的運(yùn)行狀況,從而立即開始工作。盡管有一些可觀察性平臺(tái)可以幫助你監(jiān)控 Kubernetes 集群的正確指標(biāo),但準(zhǔn)確地了解哪些指標(biāo)將幫助你有效監(jiān)控。在本文中,我們將向你介紹 Kubernetes 的幾個(gè)排名榜首的健康指標(biāo)。
崩潰循環(huán)
一個(gè)崩潰循環(huán)是你最不想被發(fā)現(xiàn)的事情。在崩潰循環(huán)中,你的應(yīng)用程序在 pod 啟動(dòng)時(shí)崩潰,并在循環(huán)中不斷崩潰和重新啟動(dòng)。多種原因可能會(huì)導(dǎo)致崩潰循環(huán),從而很難確定根本原因。在崩潰循環(huán)發(fā)生時(shí)得到警報(bào),可以幫助你快速縮小原因列表,并采取緊急措施保持應(yīng)用程序處于正常狀態(tài)。
集群狀態(tài)指標(biāo)
另一個(gè)需要關(guān)注的關(guān)鍵指標(biāo)是集群狀態(tài)。你應(yīng)該能夠跟蹤集群中所有節(jié)點(diǎn)的聚合資源使用情況,包括所需的 pod、節(jié)點(diǎn)狀態(tài)、當(dāng)前 pod、不可用 pod 和可用 pod。監(jiān)控集群狀態(tài)并評(píng)估由此產(chǎn)生的指標(biāo)可以讓你看到集群總體運(yùn)行狀況的概要視圖。你還將了解與節(jié)點(diǎn)和 pod 有關(guān)的問題。根據(jù)狀態(tài)指標(biāo),你可以決定是否需要調(diào)查更大的問題或擴(kuò)展集群。
使用這個(gè)指標(biāo),你還可以評(píng)估節(jié)點(diǎn)正在使用的資源數(shù)量。你還將看到有多少節(jié)點(diǎn),還有多少節(jié)點(diǎn)仍然可用,從而可以準(zhǔn)確地知道你所支付的費(fèi)用以及是否需要調(diào)整所使用的節(jié)點(diǎn)的數(shù)量和大小。
磁盤和內(nèi)存壓力
磁盤壓力是一個(gè)指標(biāo),它根據(jù)你在配置中設(shè)置的使用閾值,指示你的節(jié)點(diǎn)使用磁盤空間是過快還是過多。監(jiān)控這個(gè)指標(biāo)使你能夠確定何時(shí)需要添加額外的磁盤空間。它還可能表明你的應(yīng)用程序沒有按照設(shè)計(jì)的方式運(yùn)行,并且使用了比需要更多的磁盤空間。
內(nèi)存壓力是一個(gè)指標(biāo),它指示一個(gè)節(jié)點(diǎn)正在使用的內(nèi)存量。監(jiān)控這個(gè)指標(biāo)可以幫助你防止節(jié)點(diǎn)耗盡內(nèi)存,并指示那些內(nèi)存資源分配過度、不必要地增加了基礎(chǔ)設(shè)施開銷的節(jié)點(diǎn)。高內(nèi)存壓力還可以判斷應(yīng)用程序是否存在內(nèi)存泄漏。
網(wǎng)絡(luò)不可用
你會(huì)立即想知道你的網(wǎng)絡(luò)什么時(shí)候出了問題。畢竟,你的節(jié)點(diǎn)和應(yīng)用程序需要網(wǎng)絡(luò)連接才能運(yùn)行。這個(gè)指標(biāo)可以讓你知道什么時(shí)候出現(xiàn)了阻礙節(jié)點(diǎn)網(wǎng)絡(luò)連接的問題。這些問題可能是不適當(dāng)?shù)木W(wǎng)絡(luò)配置或與硬件的物理連接問題造成的。
CPU 利用率
了解你的節(jié)點(diǎn)使用了多少 CPU 周期對(duì)于確保你的節(jié)點(diǎn)明智地使用其分配的 CPU 資源至關(guān)重要。如果你的應(yīng)用程序或節(jié)點(diǎn)耗盡了所有已分配的處理資源,你就必須增加 CPU 分配或向集群添加額外的節(jié)點(diǎn)。如果你的節(jié)點(diǎn)或應(yīng)用程序使用的 CPU 周期比你所支付的要少,那么你必須重新評(píng)估 CPU 分配,并在必要時(shí)進(jìn)行降級(jí)。監(jiān)控 CPU 利用率可以幫助你掌握此類場景,并使部署更有效地運(yùn)行。
作業(yè)失敗
Kubernetes Job 是一種控制器,它確保 pod 執(zhí)行一定的時(shí)間,然后一旦它們達(dá)到了預(yù)期的目的,它們就會(huì)退役。有時(shí)作業(yè)無法成功完成——要么是因?yàn)楣?jié)點(diǎn)重新啟動(dòng),要么進(jìn)入崩潰循環(huán),甚至是資源耗盡。無論哪種方式,只要作業(yè)失敗發(fā)生,你就會(huì)想要知道它們。
作業(yè)失敗并不一定意味著你的應(yīng)用程序是不可訪問的——但是忽略作業(yè)失敗可能會(huì)導(dǎo)致后續(xù)部署出現(xiàn)更嚴(yán)重的問題。密切監(jiān)控作業(yè)失敗可以幫助及時(shí)恢復(fù),并在未來避免這些問題。
DaemonSet
DaemonSet 確保 Kubernetes 集群中的所有節(jié)點(diǎn)運(yùn)行你喜歡的特定 pod 的副本。當(dāng)你希望在所有現(xiàn)有節(jié)點(diǎn)和添加到集群中的任何新節(jié)點(diǎn)上運(yùn)行一個(gè)監(jiān)控 service pod 時(shí),DaemonSet 特別有用。
監(jiān)控 DaemonSet 可以幫助你了解集群的運(yùn)行狀況。理想情況下,集群中觀察到的 DaemonSet 數(shù)量應(yīng)該與所需的 DaemonSet 數(shù)量匹配。如果你注意到這些數(shù)字不相同,那么至少有一個(gè) DaemonSet 可能失敗了。
監(jiān)控 Kubernetes 運(yùn)行的健康指標(biāo)
掌握所有 Kubernetes 健康指標(biāo)對(duì)于確保及早發(fā)現(xiàn)、預(yù)防和及時(shí)診斷可能導(dǎo)致集群宕機(jī)的問題至關(guān)重要。使用正確的監(jiān)控策略、Kubernetes 健康指標(biāo)所關(guān)注的知識(shí)以及正確的監(jiān)控工具集,是確保生產(chǎn)環(huán)境始終處于啟動(dòng)和運(yùn)行狀態(tài)的最佳方法。
我們在 LOGIQ 已經(jīng)構(gòu)建了一個(gè)監(jiān)控工具,它可以幫助監(jiān)控各種大小的 Kubernetes 集群,確保沒有任何東西不被發(fā)現(xiàn),將成本保持在最低限度,同時(shí)為 Kubernetes 提供其他任何人都無法做到的可觀察性。跟我們談?wù)?[2] 你們的 Kubernetes 基礎(chǔ)設(shè)施系統(tǒng),以及你們希望監(jiān)控什么。
感謝各位的閱讀!關(guān)于“必須監(jiān)控的 Kubernetes 健康指標(biāo)有哪些”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!