如何理解高性能數據庫連接池

128次閱讀

沒有評論

共計 4799 個字符，預計需要花費 12 分鐘才能閱讀完成。

本篇文章為大家展示了如何理解高性能數據庫連接池，內容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細介紹希望你能有所收獲。

為什么要有連接池

先看一下連接池所處的位置：

應用框架的業務實現一般都會訪問數據庫，緩存或者 HTTP 服務。為什么要在訪問的地方加上一個連接池呢?

下面以訪問 MySQL 為例，執行一個 SQL 命令，如果不使用連接池，需要經過哪些流程。

1：TCP 建立連接的三次握手

2：MySQL 認證的三次握手

3：真正的 SQL 執行

4：MySQL 的關閉

5：TCP 的四次握手關閉

可以看到，為了執行一條 SQL，卻多了非常多我們不關心的網絡交互。

優點：實現簡單。

缺點：

1：網絡 IO 較多

2：數據庫的負載較高

3：響應時間較長及 QPS 較低

4：應用頻繁的創建連接和關閉連接，導致臨時對象較多，GC 頻繁

5：在關閉連接后，會出現大量 TIME_WAIT 的 TCP 狀態(在 2 個 MSL 之后關閉)

使用連接池流程

第一次訪問的時候，需要建立連接。但是之后的訪問，均會復用之前創建的連接。

優點：

1：較少了網絡開銷

2：系統的性能會有一個實質的提升

3：沒了麻煩的 TIME_WAIT 狀態

當然，現實往往是殘酷的，當我們解決了一個問題的時候，同時伴隨著另外一個問題的產生。

使用連接池面臨的 *** 挑戰：連接池的性能

連接數和線程數性能優化

分庫 DB 部署結構：

假設有 128 個分庫：32 個服務器，每個服務器有 4 個 schema。按照 128 個分庫的設計，便會新建 128 個獨立數據庫連接池。

數據庫連接池的模型

特點：

1：128 個連接池完全獨立，不同的 schema 也對應不同的連接池

2：先通過拆庫，讀寫等策略選擇對應的連接池，再從連接池獲取一個連接進行操作

3：操作完后，再將連接歸還到對應的連接池中。

優點：

結構簡單，分散競爭

面臨的問題：

1：線程數過多

先看一下新建一個連接池，需要新建的線程數的個數。

連接池

線程數

描述

128 個分庫需要的線程數

C3P0

4

3 個 helperThread (pollerThread)，1 個定時任務 AdminTaskTimer(DeadlockDetector)

4*128=512

DBCP

1

負責心跳，最小連接數維持，*** 空閑時間和防連接泄露

1*128=128

Druid

2

一個異步創建連接。一個異步關閉連接。

2*128=256

可以看到隨著分庫的增加，不管選用哪個連接池，線程的個數均會線性增長。線程數過多將會導致內存占用較大: 默認 1 個線程會占用 1M 的空間，如果是 512 個線程，則會占用 1M*512=512M 上下文切換開銷。

Tips：由于 stack 和 heap 申請為虛地址空間，但是一旦使用就不會釋放。(線程也不一定會占用 1M 的空間)

2：連接數過多

數據庫的連接資源比較重，并且隨著連接的增加，數據庫的性能會有明顯的下降。DBA 一般會限制每個 DB 建立連接的個數，比如限制為 3K 。假設數據庫單臺限制 3K，32 臺則容量為 3K*32=96K。如果應用 ***，最小連接數均為 10，則每個應用總計需要 128*10=1.28K 個連接。那么數據庫理論上支持的應用個數為 96K/1.28K= 80 臺

3：不能連接復用

同一個物理機下面不同的 schema 完全獨立，連接不能復用

優化后的數據庫連接池模型

特點：

1：只有一個連接池, 所有節點共享線程 (解決了線程數過多的問題)

2：每個物理機對應一個 host, host 里面維護多個 schema，schema 存放連接。

3：同一個 host 下面的不同 schema 可以進行連接復用(解決連接數過多的問題)

獲取連接流程：

1：獲取連接需要帶上 ip,port 和 schema 信息：比如獲取的是 host31 的 schema1

2：先到 host31 的 schema1 中獲取空閑連接，但是 schema1 無空閑連接，便會從 schema2 中獲取空閑連接。

3：從 schema2 中獲取的連接執行 useschema1，該連接便切換到 schema1 上面。

4：執行對應的 SQL 操作，執行完成后，歸還連接到 schema1 的池子里面。

優點：

1：連接復用：有效減少連接數。

2：提升性能：避免頻繁的新建連接。新建連接的開銷比較大，而使用 use schema 開銷非常小

3：有效減少線程數。按現有方案大概只需要 4 個線程即可。而優化前需要 512 個線程

缺點：

1：管理較為復雜

2：不符合 JDBC 接口規范。DataSource 只有簡單的 getConnection()接口，沒有針對獲取對應 schema 的連接的接口。需要繼承 DataSouce，實現特定接口。

事務語句性能優化

優化前執行事務的模型

從連接池里面獲取到連接，默認是自動提交。為了開啟事務，需要執行 setautocommit=false 操作，然后再執行具體的 SQL，歸還連接的時候，還需要將連接設置為自動提交(需要執行 set autocommit=true) 。可以看到開啟事務，需要額外執行兩條事務的語句。

優化后執行事務的模型

每個 schema 里面所有的連接會按照 autocommit 進行分組。分為自動提交(autocommit=true) 和非自動提交(autocommit=false)。獲取連接時優先獲取相同 autocommit 的分組里的連接，如果沒有可用連接則從另外一個分組中獲取連接，業務操作執行完后，再歸還到對應的分組里面。該種機制避免了開啟事務多執行的兩條事務語句。

鎖性能優化

連接池的通用功能：

連接池主要包含五部分：獲取連接，歸還連接，定時任務，維護組件及資源池

獲取連接：

1：獲取超時：如果超過規定時間未獲取到連接，則會拋出異常

2：有效性檢查：當從資源池里面獲取到資源，需要檢查該資源的有效性，如果失效，再次獲取連接。避免執行業務的時候報錯。

3：創建連接：可以同步創建，也可以異步創建。

歸還連接：

1：歸還連接：比如需要檢查 *** 空閑數，確定是物理關閉還是歸還到連接池

2：銷毀連接: 可同步銷毀也可異步銷毀

定時任務：

1：空閑檢查：主要是檢查空閑連接，連接空閑超過一定時間，則會關閉連接。

2：最小連接數控制：一般會設置最小連接數。保證當前系統里面最小的連接數。如果不夠，則會新建連接。

組件維護：

1：連接狀態控制：空閑，使用，刪除等狀態控制

2：異常處理：對 JDBC 訪問的異常統一處理，如果異常與連接相關，則會將該連接銷毀掉。

3：緩存：避免對 SQL 重復解析，PrepareStatement 機制下，會對 SQL 解析的對象進行緩存。

4：JDBC 封裝：對 JDBC 進行了實現，真正的實現是底層的 driver, 比如 MySQL-connector-java。

資源池：

1：資源池是存放連接的地方，也是連接池最核心的地方。

2：所有的組件基本上都與資源池進行交互，對連接資源的競爭非常激烈。該處的性能將決定了整個連接池的性能。

3：一般資源池的實現是使用 JDK 提供的 BlockingQueue。那么是否有方案可以進行無鎖的設計，來避免競爭。

資源池無鎖設計

獲取連接大概流程：

1：從 ThreadLocal 里面獲取連接，如果沒有空閑連接，則從全局連接池 (CopyOnWriteArrayList) 中獲取。

2：如果全局連接池中沒有空閑連接，則會異步新建連接。

3：判定超時時間是否大于閾值，如果小于閾值，則進行自旋。否則進行 park 休眠。

4：連接建立成功后，會對 park 的線程進行喚醒

主要從四個方面實現了無鎖的設計：ThreadLocal,CopyOnWriteArrayList，異步建立連接及自旋。

ThreadLocal

1：每個線程均有一個連接隊列。該隊列是全局隊列的引用。

2：獲取連接時先從 ThreadLocal 里面拿連接，如果連接是空閑狀態，則使用。否則移除掉，再拿下一個，直到拿不到連接為止。

3：歸還連接時，只需要歸還到 Threadlocal 的隊列里面，同時設置連接為空閑狀態

4：如果使用 BlockQueue, 獲取連接時調用 poll, 歸還連接時調用 offer，存在兩次鎖的競爭。優化后通過 CAS 避免了兩次鎖的開銷(獲取連接時，使用 CAS 置連接為非空閑狀態; 歸還時，使用 CAS 置連接為空閑狀態)

CopyOnWriteArrayList

1：該隊列使用場景是：大量讀，少量寫的操作，并且存儲的數據比較有限。而連接池的場景非常適合采用 CopyOnWriteArrayList。

2：在獲取連接或者歸還連接時，只會通過 CAS 更改連接的狀態，不會對連接池進行添加或者刪除的操作。

3：一般連接池連接的個數比較可控，CopyOnWriteArrayList 在寫操作時會對所有連接進行拷貝，對內存影響不大。

異步建立連接

獲取到連接后，判斷一下是否有并發正在等待獲取連接，如果有，則異步建立連接。避免下一個連接的等待。如果 CopyOnWriteArrayList 沒有空閑連接，則異步建立連接。

自旋

該自旋比較類似于 JDK 對 synchronized 的自旋機制。如果發現超時時間大于設定的閾值(比如 10 微秒)，則會進行線程掛起。如果小于設定的閾值，則重新獲取連接，進行自選，避免線程的上下文切換帶來的性能開銷。。

優化小技巧

方法內聯優化

1：每調用一次方法，線程便會新建一個棧幀，新建棧幀開銷相對比較大

2：JIT 在運行時會進行內聯優化，多個方法使用一個棧幀，避免棧幀新建過多

3：JIT 方法內聯優化默認的字節碼個數閾值是 35 個字節，低于 35 個字節，才會進行優化。(可通過 -XX:MaxInlineSize=35 進行設置)

通過修改上述代碼，編譯后字節碼修改到 34 個字節，則可以滿足內聯的條件。

心跳語句選擇PrepareStatement 模式選擇

MySQL driver 默認是 client 模式，如果需要開啟 server 模式，需要設置 useServerPrepStmts=true 。PrepareStatement 默認的 client 模式和 Statement 對于 DB 端沒有區別。大家普遍理解 PrepareStatement 和 Statement 的區別是 PrepareStatement 可以避免 SQL 注入。但是避免 SQL 注入是如何做到的?

使用 PrepareStatement 設置參數的時候，比如調用 setString(int parameterIndex, String x)，本地會對設置的參數進行轉義來避免 SQL 注入。

執行 SQL 的時候，會將 SQL 的? 替換成轉義后的字符，發送到數據庫執行。

PSCache