久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

如何解決MongoDB謹(jǐn)防索引seek的效率問題

130次閱讀
沒有評論

共計(jì) 5024 個(gè)字符,預(yù)計(jì)需要花費(fèi) 13 分鐘才能閱讀完成。

這篇文章主要介紹如何解決 MongoDB 謹(jǐn)防索引 seek 的效率問題,文中介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們一定要看完!

背景

最近線上的一個(gè)工單分析服務(wù)一直不大穩(wěn)定,監(jiān)控平臺(tái)時(shí)不時(shí)發(fā)出數(shù)據(jù)庫操作超時(shí)的告警。

運(yùn)維兄弟溝通后,發(fā)現(xiàn)在每天凌晨 1 點(diǎn)都會(huì)出現(xiàn)若干次的業(yè)務(wù)操作失敗,而數(shù)據(jù)庫監(jiān)控上并沒有發(fā)現(xiàn)明顯的異常。

在該分析服務(wù)的日志中發(fā)現(xiàn)了某個(gè)數(shù)據(jù)庫操作產(chǎn)生了 SocketTimeoutException。

開發(fā)同學(xué)一開始希望通過調(diào)整 MongoDB Java Driver 的超時(shí)參數(shù)來規(guī)避這個(gè)問題。
但經(jīng)過詳細(xì)分析之后,這樣是無法根治問題的,而且超時(shí)配置應(yīng)該如何調(diào)整也難以評估。

下面是關(guān)于對這個(gè)問題的分析、調(diào)優(yōu)的過程。

初步分析

從出錯(cuò)的信息上看,是數(shù)據(jù)庫的操作響應(yīng)超時(shí)了,此時(shí)客戶端配置的 SocketReadTimeout 為 60s。
那么,是什么操作會(huì)導(dǎo)致數(shù)據(jù)庫 60s 還沒能返回呢?

業(yè)務(wù)操作

左邊的數(shù)據(jù)庫是一個(gè)工單數(shù)據(jù)表(t_work_order),其中記錄了每張工單的信息,包括工單編號(oid)、最后修改時(shí)間(lastModifiedTime)

分析服務(wù)是 Java 實(shí)現(xiàn)的一個(gè)應(yīng)用程序,在每天凌晨 1:00 會(huì)拉取出前一天修改的工單信息 (要求按工單號排序) 進(jìn)行處理。

由于工單表非常大(千萬級),所以在處理時(shí)會(huì)采用分頁的做法(每次取 1000 條),使用按工單號翻頁的方式:

第一次拉取

db.t_work_order.find({
  lastModifiedTime :{ $gt: new Date( 2019-04-09T09:44:57.106Z),
 $lt: new Date(2019-04-09T10:44:57.106Z)}, 
  oid : {$exists: true}})
 .sort({oid :1}).limit(1000)

第二次拉取,以第一次拉取的最后一條記錄的工單號作為起點(diǎn)

db.t_work_order.find({
  lastModifiedTime :{ $gt: new Date( 2019-04-09T09:44:57.106Z),
 $lt: new Date(2019-04-09T10:44:57.106Z)}, 
  oid : {$exists: true, $gt:  VXZ190}})
 .sort({oid :1}).limit(1000)
..

根據(jù)這樣的查詢,開發(fā)人員給數(shù)據(jù)表使用的索引如下:

db.t_work_order.ensureIndexes({
  oid  : 1,
  lastModifiedTime  : -1
})

盡管該索引與查詢字段基本是匹配的,但在實(shí)際執(zhí)行時(shí)卻表現(xiàn)出很低的效率:
第一次拉取時(shí)間非常的長,經(jīng)常超過 60s 導(dǎo)致報(bào)錯(cuò),而后面的拉取時(shí)間則會(huì)快一些

為了精確的模擬該場景,我們在測試環(huán)境中預(yù)置了小部分?jǐn)?shù)據(jù),對拉取記錄的 SQL 執(zhí)行 Explain:

db.t_work_order.find({
  lastModifiedTime :{ $gt: new Date( 2019-04-09T09:44:57.106Z),
 $lt: new Date(2019-04-09T10:44:57.106Z)}
  oid : {$exists: true}})
 .sort({oid :1}).limit(1000)
 .explain(executionStats)

輸出結(jié)果如下

nReturned : 1000,
executionTimeMillis : 589,
totalKeysExamined : 136661,
totalDocsExamined : 1000,

indexBounds : {
  oid : [
  [MinKey, MaxKey]
  ],
  lastModifiedTime : [
  (new Date(1554806697106), new Date(1554803097106))
  ]
},
keysExamined : 136661,
seeks : 135662,

在執(zhí)行過程中發(fā)現(xiàn),檢索 1000 條記錄,居然需要掃描 13.6 W 條索引項(xiàng)!

其中,幾乎所有的開銷都花費(fèi)在了 一個(gè) seeks 操作上了。

索引 seeks 的原因

官方文檔對于 seeks 的解釋如下:

The number of times that we had to seek the index cursor to a new position in order to complete the index scan.

翻譯過來就是:

seeks 是指為了完成索引掃描(stage),執(zhí)行器必須將游標(biāo)定位到新位置的次數(shù)。

我們都知道 MongoDB 的索引是 B + 樹的實(shí)現(xiàn) (3.x 以上),對于連續(xù)的葉子節(jié)點(diǎn)掃描來說是非常快的(只需要一次尋址),那么 seeks 操作太多則表示整個(gè)掃描過程中出現(xiàn)了大量的尋址(跳過非目標(biāo)節(jié)點(diǎn))。
而且,這個(gè) seeks 指標(biāo)是在 3.4 版本支持的,因此可以推測該操作對性能是存在影響的。

為了探究 seeks 是怎么產(chǎn)生的,我們對查詢語句嘗試做了一些變更:

去掉 exists 條件

exists 條件的存在是因?yàn)闅v史問題(一些舊記錄并不包含工單號的字段),為了檢查 exists 查詢是否為關(guān)鍵問題,修改如下:

db.t_work_order.find({
  lastModifiedTime :{ $gt: new Date( 2019-04-09T09:44:57.106Z),
 $lt: new Date(2019-04-09T10:44:57.106Z)}
 })
 .sort({oid :1}).limit(1000)
 .explain(executionStats)

執(zhí)行后的結(jié)果為:

nReturned : 1000,
executionTimeMillis : 1533,
totalKeysExamined : 272322,
totalDocsExamined : 272322,
 

inputStage : {
  stage : FETCH ,
  filter : {
  $and : [
  {
  lastModifiedTime : {
  $lt : ISODate(2019-04-09T10:44:57.106Z)
  }
  },
  {
  lastModifiedTime : {
  $gt : ISODate(2019-04-09T09:44:57.106Z)
  }
  }
  ]
},

indexBounds : {
  oid : [
  [MinKey, MaxKey]
  ],
  lastModifiedTime : [
  [MaxKey, MinKey]
  ]
},
keysExamined : 272322,
seeks : 1,

這里發(fā)現(xiàn),去掉 exists 之后,seeks 變成了 1 次,但整個(gè)查詢掃描了 27.2W 條索引項(xiàng)!剛好是去掉之前的 2 倍。

seeks 變?yōu)?1 次說明已經(jīng)使用了葉節(jié)點(diǎn)順序掃描的方式,然而由于掃描范圍非常大,為了找到目標(biāo)記錄,會(huì)執(zhí)行順序掃描并過濾大量不符合條件的記錄。

在 FETCH 階段出現(xiàn)了 filter 可說明這一點(diǎn)。與此同時(shí),我們檢查了數(shù)據(jù)表的特征:同一個(gè)工單號是存在兩條記錄的!于是可以說明:

在存在 exists 查詢條件時(shí),執(zhí)行器會(huì)選擇按工單號進(jìn)行 seeks 跳躍式檢索,如下圖:

在不存在 exists 條件的情況下,執(zhí)行器選擇了葉節(jié)點(diǎn)順序掃描的方式,如下圖:

gt 條件和反序

除了第一次查詢之外,我們對后續(xù)的分頁查詢也進(jìn)行了分析,如下:

db.t_work_order.find({
  lastModifiedTime :{ $gt: new Date( 2019-04-09T09:44:57.106Z),
 $lt: new Date(2019-04-09T10:44:57.106Z)}, 
  oid : {$exists: true, $gt:  VXZ190}})
 .sort({oid :1}).limit(1000)
 .explain(executionStats)

上面的語句中,主要是增加了 $gt: VXZ190 這一個(gè)條件,執(zhí)行過程如下:

nReturned  : 1000,
 executionTimeMillis  : 6,
 totalKeysExamined  : 1004,
 totalDocsExamined  : 1000,
 indexBounds  : {
  oid  : [ 
  (\ VXZ190\ , {}) 
 ],
  lastModifiedTime  : [ 
  (new Date(1554806697106), new Date(1554803097106)) 
 ]
 keysExamined  : 1004,
 seeks  : 5,

可以發(fā)現(xiàn),seeks 的數(shù)量非常少,而且檢索過程只掃描了 1004 條記錄,效率是很高的。

那么,是不是意味著在后面的數(shù)據(jù)中,滿足查詢的條件的記錄非常密集呢?

為了驗(yàn)證這一點(diǎn),我們將一開始第一次分頁的查詢做一下調(diào)整,改為按工單號降序的方式(從后往前掃描):

db.t_work_order.find({
  lastModifiedTime :{ $gt: new Date( 2019-04-09T09:44:57.106Z),
 $lt: new Date(2019-04-09T10:44:57.106Z)}, 
  oid : {$exists: true}})
 .sort({oid :-1}).limit(1000)
 .explain(executionStats)

新的 反序查詢語句 的執(zhí)行過程如下:

nReturned  : 1000,
 executionTimeMillis  : 6,
 totalKeysExamined  : 1001,
 totalDocsExamined  : 1000,
 direction  :  backward ,
 indexBounds  : {
  oid  : [ 
  [MaxKey, MinKey] 
 ],
  lastModifiedTime  : [ 
  (new Date(1554803097106), new Date(1554806697106)) 
 ]
 keysExamined  : 1001,
 seeks  : 2,

可以看到,執(zhí)行的效率更高了,幾乎不需要什么 seeks 操作!

經(jīng)過一番確認(rèn)后,我們獲知了在所有數(shù)據(jù)的分布中,工單號越大的記錄其更新時(shí)間值也越大,基本上我們想查詢的目標(biāo)數(shù)據(jù)都集中在尾端。

于是就會(huì)出現(xiàn)一開始提到的,第一次查詢非常慢甚至超時(shí),而后面的查詢就快了。

上面提到的兩個(gè)查詢執(zhí)行路線如圖所示:

加入 $gt 條件,從中間開始檢索

反序,從后面開始檢索

優(yōu)化思路

通過分析,我們知道了問題的癥結(jié)在于索引的掃描范圍過大,那么如何優(yōu)化,以避免掃描大量記錄呢?

從現(xiàn)有的索引及條件來看,由于同時(shí)存在 gt、exists 以及葉子節(jié)點(diǎn)的時(shí)間范圍限定,不可避免的會(huì)產(chǎn)生 seeks 操作,
而且查詢的性能是不穩(wěn)定的,跟數(shù)據(jù)分布、具體查詢條件都有很大的關(guān)系。

于是一開始所提到的僅僅是增加 socketTimeout 的閾值可能只是治標(biāo)不治本,一旦數(shù)據(jù)的索引值分布變化或者數(shù)據(jù)量持續(xù)增大,可能會(huì)發(fā)生更嚴(yán)重的事情。

回到一開始的需求場景,定時(shí)器要求讀取每天更新的工單(按工單號排序),再進(jìn)行分批處理。

那么,按照化零為整的思路,新增一個(gè) lastModifiedDay 字段,這個(gè)存儲(chǔ)的就是 lastModifiedTime 對應(yīng)的日期值(低位取整),這樣在同一天內(nèi)更新的工單記錄都有同樣的值。

建立組合索引 {lastModifiedDay:1, oid:1},相應(yīng)的查詢條件改為:

{  lastModifiedDay : new Date( 2019-04-09 00:00:00.000),  oid : {$gt:  VXZ190}
} 
-- limit 1000

執(zhí)行結(jié)果如下:

nReturned : 1000,
executionTimeMillis : 6,
totalKeysExamined : 1000,
totalDocsExamined : 1000,

indexBounds : {
  lastModifiedDay : [
  (new Date(1554803000000), new Date(1554803000000))
  ],
  oid : [
  (\ VXZ190\ , {})
  ]
},
keysExamined : 1000,
seeks : 1,

這樣優(yōu)化之后,每次查詢最多只掃描 1000 條記錄,查詢速度是非常快的!

以上是“如何解決 MongoDB 謹(jǐn)防索引 seek 的效率問題”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注丸趣 TV 行業(yè)資訊頻道!

正文完
 
丸趣
版權(quán)聲明:本站原創(chuàng)文章,由 丸趣 2023-08-04發(fā)表,共計(jì)5024字。
轉(zhuǎn)載說明:除特殊說明外本站除技術(shù)相關(guān)以外文章皆由網(wǎng)絡(luò)搜集發(fā)布,轉(zhuǎn)載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 芮城县| 舒兰市| 凉城县| 伊金霍洛旗| 临沧市| 灵川县| 隆子县| 昌乐县| 高雄市| 新龙县| 蚌埠市| 白银市| 石景山区| 岫岩| 静安区| 清远市| 喜德县| 朝阳市| 渝中区| 秀山| 浙江省| 万安县| 宁化县| 潮州市| 苍溪县| 基隆市| 庆阳市| 元谋县| 山丹县| 峨眉山市| 湄潭县| 紫金县| 奉贤区| 平遥县| 神木县| 凤山市| 泰安市| 屏边| 台前县| 景宁| 东海县|