共計 3503 個字符,預計需要花費 9 分鐘才能閱讀完成。
基于 Go 技術棧的微服務構建是怎樣的,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面丸趣 TV 小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
在大型系統的微服務化構建中,一個系統會被拆分成許多模塊。這些模塊負責不同的功能,組合成系統,最終可以提供豐富的功能。在這種構建形式中,開發者一般會聚焦于最大程度解耦模塊的功能以減少模塊間耦合帶來的額外開發成本。同時,微服務面臨著如何部署這些大量的服務系統、如何運維這些系統等新問題。
本文的素材來源于我們在開發中的一些最佳實踐案例,從開發、監控、日志等角度介紹了一些我們基于 Go 技術棧的微服務構建經驗。
開 發
微服務的開發過程中,不同模塊由不同的開發者負責,明確定義的接口有助于確定開發者的工作任務。最終的系統中,一個業務請求可能會涉及到多次接口調用,如何準確清晰的調用遠端接口,這也是一大挑戰。對于這些問題,我們使用了 gRPC 來負責協議的制訂和調用。
傳統的微服務通常基于 http 協議來進行模塊間的調用,而在我們的微服務構建中,選用了 Google 推出的 gRPC 框架來進行調用。
gRPC 的接口需要使用 Protobuf3 定義,通過靜態編譯后才能成功調用。這一特性減少了由于接口改變帶來的溝通成本。如果使用 http rpc,接口改變就需要先改接口文檔,然后周知到調用者,如果調用者沒有及時修改,很可能會到服務運行時才能發現錯誤。而 gRPC 的這種模式,接口變動引起的錯誤保證在編譯時期就能消除。
在性能方面,gRPC 相比傳統的 http rpc 協議有非常大的改善(根據這個評測,gRPC 要快 10 倍)。gRPC 使用 http 2 協議進行傳輸,相比較 http 1.1, http 2 復用 tcp 連接,減少了每次請求建立 tcp 連接的開銷。需要指出的是,如果單純追求性能,之前業界一般會選用構建在 tcp 協議上的 rpc 協議 (thrift 等),但四層協議無法方便的做一些傳輸控制。相比而言,gRPC 可以在 http header 中放入控制字段,配合 nginx 等代理服務器,可以很方便的實現轉發 / 灰度等功能。
接下來著重談談我們在實踐中如何使用 gRPC 的一些特性來簡化相關開發流程。
1. 使用 context 來控制請求的生命周期
在 gRPC 的 go 語言實現中,每個 rpc 請求的第一個參數都是 context。http2 協議會將 context 放在 HEADER 中,隨著鏈路傳遞下去,因此可以為每個請求設置過期時間,一旦遇到超時的情況,發起方就會結束等待,返回錯誤。
ctx := context.Background() // blank context
ctx, cancel = context.WithTimeout(ctx, 5*time.Second)
defer cancel()
grpc.CallServiveX(ctx, arg1)
上述這段代碼,發起方設置了大約 5s 的等待時間,只要遠端的調用在5s 內沒有返回,發起方就會報錯。
除了能加入超時時間,context 還能加入其他內容,下文我們還會見到 context 的另一個妙用。
2. 使用 TLS 實現訪問權限控制
gRPC 集成了 TLS 證書功能,為我們提供了很完善的權限控制方案。在實踐中,假設我們的系統中存在服務A,由于它負責操作用戶的敏感內容,因此需要保證A不被系統內的其他服務濫用。為了避免濫用,我們設計了一套自簽名的二級證書系統,服務A掌握了自簽名的根證書,同時為每個調用A的服務頒發一個二級證書。這樣,所有調用A的服務必須經過A的授權,A也可以鑒別每個請求的調用方,這樣可以很方便的做一些記錄日志、流量控制等操作。
3. 使用 trace 在線追蹤請求
gRPC 內置了一套追蹤請求的 trace 系統,既可以追蹤最近 10 個請求的詳細日志信息,也可以記錄所有請求的統計信息。
當我們為請求加入了 trace 日志后,trace 系統會為我們記錄下最近10個請求的日志, 下圖中所示的例子就是在 trace 日志中加入了對業務數據的追蹤。
在宏觀上,trace 系統為我們記錄下請求的統計信息,比如請求數目、按照不同請求時間統計的分布等。
需要說明的是,這套系統暴露了一個 http 服務,我們可以通過 debug 開關在運行時按需打開或者關閉,以減少資源消耗。
監控
1. 確定監控指標
在接到為整個系統搭建監控系統這個任務時,我們面對的第一個問題是要監控什么內容。針對這個問題,GoogleSRE 這本書提供了很詳細的回答,我們可以監控四大黃金指標,分別是延時、流量、錯誤和飽和度。
延時衡量了請求花費的時間。需要注意的,考慮到長尾效應,使用平均延時作為延時方面的單一指標是遠遠不夠的。相應的,我們需要延時的中位數 90%、95%、99% 值來幫助我們了解延時的分布,有一種更好的辦法是使用直方圖來統計延時分布。
流量衡量了服務面臨的請求壓力。針對每個 API 的流量統計能讓我們知道系統的熱點路徑,幫助優化。
錯誤監控是指對錯誤的請求結果的統計。同樣的,每個請求有不同的錯誤碼,我們需要針對不同的錯誤碼進行統計。配合上告警系統,這類監控能讓我們盡早感知錯誤,進行干預。
飽和度主要指對系統 CPU 和內存的負載監控。這類監控能為我們的擴容決策提供依據。
2. 監控選型
選擇監控方案時,我們面臨的選擇主要有兩個,一是公司自建的監控系統,二是使用開源 Prometheus 系統搭建。這兩個系統的區別列在下表中。
考慮到我們的整個系統大約有 100 個容器分布在 30 臺虛擬機上,Prometheus 的單機存儲對我們并不是瓶頸。我們不需要完整保留歷史數據,自建系統的最大優勢也不足以吸引我們使用。相反,由于希望能夠統計四大黃金指標延生出的諸多指標,Prometheus 方便的 DSL 能夠很大程度上簡化我們的指標設計。
最終,我們選擇了 Prometheus 搭建監控系統。整個監控系統的框架如下圖所示。
各服務將自己的地址注冊到 consul 中,Prometheus 會自動從 consul 中拉取需要監控的目標地址,然后從這些服務中拉取監控數據,存放到本地存儲中。在 Prometheus 自帶的Web UI 中可以快捷的使用 PromQL 查詢語句獲取統計信息,同時,還可以將查詢語句輸入 grafana, 固定監控指標用于監控。
此外,配合插件 AlertManager, 我們能夠編寫告警規則,當系統出現異常時,將告警發送到手機/郵件/信箱。
日志
1. 日志格式
一個經常被忽略的問題是如何選擇日志記錄的格式。良好的日志格式有利于后續工具對日志內容的切割,便于日志存儲的索引。我們使用 logrus 來打印日志到文件,logrus 工具支持的日志格式包裹以空格分隔的單行文本格式、json 格式等等。
文本格式
time=”2015-03-26T01:27:38-04:00″ level=debug g=”Started observing beach”animal=walrus number=8
time=”2015-03-26T01:27:38-04:00″ level=info msg=”A group of walrus emerges from the ocean”animal=walrus size=10
Json 格式
{“animal”:”walrus”,”level”:”info”,”msg”:”A group of walrus emerges from theocean”,”size”:10,”time”:”2014-03-10 19:57:38.562264131 -0400 EDT”}
{“level”:”warning”,”msg”:”The group’s number increased tremendously!”,”number”:122,”omg”:true,”time”:”2014-03-10 19:57:38.562471297 -0400 EDT”}
2. 端到端鏈路上的調用日志收集
在微服務架構中,一個業務請求會經歷多個服務,收集端到端鏈路上的日志能夠幫助我們判斷錯誤發生的具體位置。在這個系統中,我們在請求入口處,生成了全局 ID,通過 gRPC 中的 context 將 ID 在鏈路中傳遞。將不同服務的日志收集到 graylog 中,查詢時就能通過一個 ID,將整個鏈路上的日志查詢出來。
什么是 go
go 是 golang 的簡稱,golang 是 Google 開發的一種靜態強類型、編譯型、并發型,并具有垃圾回收功能的編程語言,其語法與 C 語言相近,但并不包括如枚舉、異常處理、繼承、泛型、斷言、虛函數等功能。
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注丸趣 TV 行業資訊頻道,感謝您對丸趣 TV 的支持。