久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

如何進行ChaosBlade和SkyWalking的微服務高可用實踐

215次閱讀
沒有評論

共計 7947 個字符,預計需要花費 20 分鐘才能閱讀完成。

這篇文章將為大家詳細講解有關如何進行 ChaosBlade 和 SkyWalking 的微服務高可用實踐,文章內容質量較高,因此丸趣 TV 小編分享給大家做個參考,希望大家閱讀完這篇文章后對相關知識有一定的了解。

前言

在分布式系統(tǒng)架構下,服務組件繁多且服務間的依賴錯綜復雜,很難評估單個故障對整個系統(tǒng)的影響,而且請求鏈路長,如果監(jiān)控告警、日志記錄等基礎服務不完善會造成故障響應、故障定位問題難,所以如何構建一個高可用的分布式系統(tǒng)面臨著很大挑戰(zhàn)。混沌工程就此產生,在可控范圍或環(huán)境下通過對系統(tǒng)注入故障,觀察系統(tǒng)行為并發(fā)現系統(tǒng)缺陷,以建立對分布式系統(tǒng)因意外條件引發(fā)混亂的能力和信心,持續(xù)提升系統(tǒng)的穩(wěn)定性和高可用能力。

混沌工程的實施流程是制訂混沌實驗計劃、定義穩(wěn)態(tài)指標,做出系統(tǒng)容錯行為假設,然后執(zhí)行混沌實驗,檢查系統(tǒng)穩(wěn)態(tài)指標等。也因此混沌實驗整個過程需要可靠的、易于使用且場景豐富的混沌實驗工具注入故障以及完整的分布式鏈路追蹤和系統(tǒng)監(jiān)控工具,以便觸發(fā)應急響應預警方案與快速地進行故障定位,并觀察整個過程系統(tǒng)的各項數據指標等。本篇文章我們介紹混沌實驗工具(ChaosBlade)和 分布式系統(tǒng)監(jiān)控工具(SkyWalking),并且結合一個的微服務案例分享一下 ChaosBlade 和 SkyWalking 微服務高可用實踐。

工具介紹

1. ChaosBlade

ChaosBlade 是一款遵循混沌工程實驗原理,提供豐富故障場景實現,幫助分布式系統(tǒng)提升容錯性和可恢復性的混沌工程工具,可實現底層故障的注入,并且在企業(yè)上云或往云原生系統(tǒng)遷移過程中業(yè)務連續(xù)性保障,特點是操作簡潔、無侵入、擴展性強。ChaosBlade 可以在可控范圍或環(huán)境下,通過故障注入,來持續(xù)提升系統(tǒng)的穩(wěn)定性和高可用能力。

ChaosBlade 不僅使用簡單,而且支持豐富的實驗場景,場景包括:

基礎資源:比如 CPU、內存、網絡、磁盤、進程等實驗場景;

Java 應用:比如數據庫、緩存、消息、JVM 本身、微服務等,還可以指定任意類方法注入各種復雜的實驗場景;

C++ 應用:比如指定任意方法或某行代碼注入延遲、變量和返回值篡改等實驗場景;

Docker 容器:比如殺容器、容器內 CPU、內存、網絡、磁盤、進程等實驗場景;

云原生平臺:比如 Kubernetes 平臺節(jié)點上 CPU、內存、網絡、磁盤、進程實驗場景,Pod 網絡和 Pod 本身實驗場景如下 Pod,容器的實驗場景如上述的 Docker 容器實驗場景;

ChaosBlade 將場景按領域實現封裝成一個個單獨的項目,不僅可以使領域內場景標準化實現,而且非常方便場景水平和垂直擴展,通過遵循混沌實驗模型,實現 chaosblade cli 統(tǒng)一調用。

2. SkyWalking

SkyWalking 是一個開源的 APM 系統(tǒng),包括對云本地架構中的分布式系統(tǒng)的監(jiān)視、跟蹤和診斷功能。核心特性如下:

服務、服務實例、端點指標分析

根本原因分析

服務拓撲圖分析

服務、服務實例和端點依賴性分析

檢測到慢速服務和終結點

性能優(yōu)化

分布式跟蹤和上下文傳播

數據庫訪問指標。檢測慢速數據庫訪問語句(包括 SQL 語句)。

報警

工具安裝及使用

ChaosBlade 的安裝和使用都很簡便,ChaosBlade 各場景通過 chaosblade cli 統(tǒng)一調用,僅需要下載對應的 tar 包,解壓后使用 blade 可執(zhí)行文件來進行混沌實驗。

1. ChaosBlade 安裝

本次我們的實際環(huán)境是 linux-amd64,下載最新版本 chaosblade-linux-amd64.tar.gz 包,安裝步驟如下:

##  下載
wget https://chaosblade.oss-cn-hangzhou.aliyuncs.com/agent/github/0.9.0/chaosblade-0.9.0-linux-amd64.tar.gz
##  解壓  
tar -zxf chaosblade-0.9.0-linux-amd64.tar.gz
##  設置環(huán)境變量  
export PATH=$PATH:chaosblade-0.9.0/
##  測試  
blade -h

2. ChaosBlade 使用

ChaosBlade 安裝完成后,僅需要使用 blade 可執(zhí)行文件即可創(chuàng)建目前所支持的所有場景的混沌實驗。首先使用 blade -h 查看如何使用,選擇子命令之后只需要逐層向下使用 -h 即可看到完整的使用案例以及各參數的詳細解析,下面我們來演示一下:

1)blade 如何使用

執(zhí)行 blade -h 可以查看支持命令有哪些:

An easy to use and powerful chaos engineering experiment toolkit
Usage:
 blade [command]
Available Commands:
 create Create a chaos engineering experiment
 destroy Destroy a chaos experiment
...

2)創(chuàng)建實驗場景

比如創(chuàng)建 CPU 滿載場景,執(zhí)行 blade create cpu fullload -h 就可以查看具體的場景參數,選擇相應參數執(zhí)行即可:

Create chaos engineering experiments with CPU load
Usage:
 blade create cpu fullload
Aliases:
 fullload, fl, load
Examples:
# Create a CPU full load experiment
blade create cpu load
#Specifies two random kernel s full load
blade create cpu load --cpu-percent 60 --cpu-count 2
Flags:
 --blade-release string Blade release package,use this flag when the channel is ssh
 --channel string Select the channel for execution, and you can now select SSH
 --climb-time string durations(s) to climb
 --cpu-count string Cpu count
 --cpu-list string CPUs in which to allow burning (0-3 or 1,3)
 --cpu-percent string percent of burn CPU (0-100)
...

3)恢復實驗

ChaosBlade 支持三種方式恢復實驗:

ChaosBlade 創(chuàng)建實驗成功后會返回一個 UID,執(zhí)行 blade destroy uid 即可。

如果找不到對應的 UID 時,執(zhí)行 blade destroy target action 即可,例如 blade destroy cpu fullload。

在創(chuàng)建實驗時帶上 –timeout 10 參數,在實驗場景執(zhí)行十秒后會自動恢復,同時支持表達式,例如三分鐘 –timeout 30m。

3. SkyWalking 安裝 使用

工具部署好之后,下面我們將結合案例,主動出擊,通過故障注入,觀察系統(tǒng)行為,定位問題并發(fā)現系統(tǒng)缺陷,以便構建高可用的微服務系統(tǒng)。

應用容錯案例

我們在日常環(huán)境部署一個微服務應用 來進行實驗,使用 ab 測試模擬系統(tǒng)請求。微服務應用服務包含前端、購物車、推薦服務、商品、訂單等,使用組件包含 Springboot、Nacos、Mysql、Redis、Lettuce、Dubbo 等。ChaosBlade 支持該應用的大部分組件,我們通過 ChaosBlade 來注入混沌實驗,驗證應用容錯能力并且使用 SkyWalking 進行應用監(jiān)控和問題定位。

1. 案例環(huán)境

Linux-AMD64,發(fā)行版本 CentOS-7.x

JDK1.8

2. 應用拓撲結構

應用的整體架構如下,前端(frontend)對購物車(car)、產品(product)等都是通過 Dubbo 強依賴調用。

3. 混沌實驗步驟

制定混沌實驗計劃

定義系統(tǒng)穩(wěn)態(tài)指標

作出系統(tǒng)容錯行為假設

執(zhí)行混沌實驗

檢查穩(wěn)態(tài)指標

記錄和恢復混沌實驗

修復發(fā)現的問題

自動化持續(xù)進行驗證

下面我們將根據混沌實驗步驟使用 ChaosBlade 實際進行混沌實驗。

4. 案例一

1)場景

制定混沌實驗計劃,調用下游服務頻繁延遲,使用 ab 測試,模擬常態(tài)訪問購物車接口,開啟 2 個線程,進行 10000 次接口訪問。

ab -n 10000 -c 2 http://127.0.0.1:8083/cart

2)監(jiān)控指標

定義系統(tǒng)穩(wěn)態(tài)指標,在 SkyWalking 控制臺選擇 /cart 端點,穩(wěn)態(tài)指標如下:

平均響應時間(RT)在 15ms 左右。

P99 指標在 20ms 以內。

3)期望假設

配置調用超時時間,不會長時間阻塞客戶端請求。

配置服務熔斷策略 / 服務降級。

4)混沌實驗

在上節(jié)我們已經介紹過 ChaosBlade 的安裝和簡單實用,本次案例我們使用 ChaosBlade 對下游 Dubbo 購物車服務注入延遲故障(延遲時間 30 秒),執(zhí)行 blade create dubbo delay -h 命令查看 dubbo 調用延遲的命令用法:

Dubbo interface to do delay experiments, support provider and consumer
Usage:
 blade create dubbo delay
Examples:
# Invoke com.alibaba.demo.HelloService.hello() service, do delay 3 seconds experiment
blade create dubbo delay --time 3000 --service com.alibaba.demo.HelloService --methodname hello --consumer
Flags:
 --appname string The consumer or provider application name
 --consumer To tag consumer role experiment.
 --effect-count string The count of chaos experiment in effect
 --effect-percent string The percent of chaos experiment in effect
 --group string The service group
 -h, --help help for delay
 --methodname string The method name
 --offset string delay offset for the time
 --override only for java now, uninstall java agent
 --pid string The process id
 --process string Application process name
 --provider To tag provider experiment
 --service string The service interface
 --time string delay time (required)
 --timeout string set timeout for experiment in seconds
 --version string the service version
Global Flags:
 -d, --debug Set client to DEBUG mode
 --uid string Set Uid for the experiment, adapt to docker

參考案例和參數解釋,需要上游服務客戶端注入延遲故障(延遲時間 30 秒),借助 SkyWalking 可以很方便找到鏈路上 Dubbo 服務相關信息,首先查詢端點為 /cart 的鏈路,在鏈路上找到 Dubbo 服務,如下圖:

查找鏈路

獲取協(xié)議詳細信息

點進來可以查看 Dubbo 服務詳細跨度信息,獲取 Dubbo 服務的 URL 后,就可以拿到使用 ChaosBlade 來注入上游服務延時所需要的參數,因此我們的最終參數結構為:

–time 30000 延遲 30s

–service com.alibabacloud.hipstershop.cartserviceapi.service.CartService 服務

–methodname viewCart 服務方法

–process frontend Java 進程

–consumer 當前是 Dubbo 服務客戶端

下發(fā)命令注入故障:

blade create dubbo delay --time 30000 --service com.alibabacloud.hipstershop.cartserviceapi.service.CartService --methodname viewCart --process frontend --consumer

5)監(jiān)控指標

注入故障后檢查系統(tǒng)指標,查看 SkyWalking 上的指標:

平均響應時間(RT)在 2000ms 左右,P99 指標在 2000ms 左右

/cart 接口調用報錯,com.alibabacloud.hipstershop.cartserviceapi.service.CartService 服務出現異常。

出現 timeout 異常,超時時間為 2000ms

結論說明上游服務配置了調用超時時間,但沒有配置服務熔斷策略,實際是不符合預期的。

6)修復問題

配置服務熔斷策略 / 服務降級。

5. 案例二

1)場景

運行中 Dubbo 服務提供方訪問注冊中心失敗,在注冊中心機器注入故障網絡丟包 100%。

2)監(jiān)控指標

定義系統(tǒng)穩(wěn)態(tài)指標,在 SkyWalking 控制臺選擇服務端點,穩(wěn)態(tài)指標如下:

com.alibabacloud.hipstershop.cartserviceapi.service.CartService.viewCart 服務正常

3)期望假設

上游服務業(yè)務不受影響,下游服務不受影響。

4)混沌實驗

對注冊中心端口注入丟包故障(100%),我們是使用的 nacos 作為 Dubbo 的注冊中心,默認端口 8848,網卡是 eth0,命令參數如下:

–interface eth0 網卡

–percent 100 丟包率 100%

–local-port 本地端口 8848

下發(fā)命令注入故障:

blade create network loss --interface eth0 --percent 100 --local-port 8848

5)監(jiān)控指標

在注入故障后,在 SkyWalking 控制臺選擇服務端點,穩(wěn)態(tài)指標如下:

com.alibabacloud.hipstershop.cartserviceapi.service.CartService.viewCart 服務正常

結論:服務對注冊中心是弱依賴且服務本身具有本地緩存,符合期望假設。

如何進行 ChaosBlade 和 SkyWalking 的微服務高可用實踐

假設應用現在部署 Kubernetes 集群中,可以增加驗證注冊中心水平擴容能力,ChaosBlade 同時也支持 Kubernetes 集群場景。

6. 牛刀小試

在上述案例中,我們驗證了服務是否配置了超時和熔斷策略,驗證了 Dubbo 是否對注冊中心是弱依賴且服務本身具有本地緩存。你是否也躍躍欲動,想要在自己系統(tǒng)中體驗一把?ChaosBlade 為大家準備了豐富的實驗場景,不僅支持基礎資源、應用維度,還是云原生平臺的一把利器。ChaosBlade 易于使用,也提供了詳細的參數來控制故障最小爆炸半徑,相信 ChaosBlade 會讓大家非常容易上手。

紙上得來終覺淺,這里我們提供一個額外的小案例,供大家實踐。我們在應用開發(fā)中經常會與關系數據庫打交通,而當應用流量快速增長時,瓶頸往往會在數據庫端發(fā)生,出現很多慢 SQL。當沒有慢 SQL 預警時,我們很難找到原始 SQL 并對它進行優(yōu)化,所以慢 SQL 預警十分重要。如何驗證應用具備這個能力,ChaosBlade 就可以支持注入 MySQL 慢 SQL 故障,執(zhí)行 blade create mysql delay -h 查看 MySQL 調用延遲的命令用法:

Mysql delay experiment
Usage:
 blade create mysql delay
Examples:
# Do a delay 2s experiment for mysql client connection port=3306 INSERT statement
blade create mysql delay --time 2000 --sqltype select --port 3306
Flags:
 --database string The database name which used
 --effect-count string The count of chaos experiment in effect
 --effect-percent string The percent of chaos experiment in effect
 -h, --help help for 
 --host string The database host
 --offset string delay offset for the time
 --override only for java now, uninstall java agent
 --pid string The process id
 --port string The database port which used
 --process string Application process name
 --sqltype string The sql type, for example, select, update and so on.
 --table string The first table name in sql.
 --time string delay time (required)
 --timeout string set timeout for experiment in seconds
Global Flags:
 -d, --debug Set client to DEBUG mode
 --uid string Set Uid for the experiment, adapt to docker

可以看到 ChaosBlade 提供了完整的案例,支持更細粒度的 SQL 類型,表名等參數。對連接端口時 3306 的 select 操作延時 10s 看看,當流量命中時,是否在你的應用中產生了預警呢?

blade create mysql delay --time 10000 --sqltype select --port 3306

命令參數解釋:

–time 10000 延時 10s

–sqltype select 僅支持 select 類型的 SQL 語句

–port 3306 僅支持端口是 3306 的連接

關于如何進行 ChaosBlade 和 SkyWalking 的微服務高可用實踐就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

正文完
 
丸趣
版權聲明:本站原創(chuàng)文章,由 丸趣 2023-08-03發(fā)表,共計7947字。
轉載說明:除特殊說明外本站除技術相關以外文章皆由網絡搜集發(fā)布,轉載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 正定县| 满城县| 巴南区| 甘孜| 星子县| 大名县| 玉树县| 晋宁县| 安阳县| 涞源县| 湾仔区| 三门峡市| 张家界市| 东城区| 苏尼特左旗| 玛沁县| 黄平县| 崇州市| 临桂县| 保康县| 道孚县| 塔河县| 无极县| 浦北县| 夏邑县| 大理市| 丁青县| 枣强县| 迁西县| 北辰区| 自贡市| 宾阳县| 海南省| 邓州市| 呼伦贝尔市| 靖边县| 天镇县| 五大连池市| 望江县| 惠水县| 井陉县|