索引能提高查詢(xún)性能的原因是什么

143次閱讀

共計(jì) 4784 個(gè)字符，預(yù)計(jì)需要花費(fèi) 12 分鐘才能閱讀完成。

這篇文章主要介紹“索引能提高查詢(xún)性能的原因是什么”，在日常操作中，相信很多人在索引能提高查詢(xún)性能的原因是什么問(wèn)題上存在疑惑，丸趣 TV 小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”索引能提高查詢(xún)性能的原因是什么”的疑惑有所幫助！接下來(lái)，請(qǐng)跟著丸趣 TV 小編一起來(lái)學(xué)習(xí)吧！

二叉樹(shù)

由 n(n 0)個(gè)有限節(jié)點(diǎn)組成一個(gè)具有層次關(guān)系的集合，看起來(lái)就像一個(gè)倒掛的樹(shù)，因此稱(chēng)這樣的數(shù)據(jù)結(jié)構(gòu)為樹(shù)。

一個(gè)節(jié)點(diǎn)的子節(jié)點(diǎn)個(gè)數(shù)叫做度，通俗的講就是樹(shù)叉的個(gè)數(shù)。樹(shù)中最大的度叫做樹(shù)的度，也叫做階。一個(gè) 2 階樹(shù)最多有 2 個(gè)子節(jié)點(diǎn)即最多有 2 叉，因此這樣的樹(shù)稱(chēng)為二叉樹(shù)，二叉樹(shù)是樹(shù)家族中最簡(jiǎn)單的樹(shù)。

兩個(gè)叉的樹(shù)就是二叉樹(shù)，可這除了用來(lái)按一定結(jié)構(gòu)存放數(shù)據(jù)外，跟查詢(xún)性能好像也沒(méi)關(guān)系，不會(huì)又是一個(gè)沒(méi)用的噱頭吧。

二分查找

聽(tīng)說(shuō)二叉樹(shù)的原始威力來(lái)源于一種叫做二分查找的算法。

相傳在鸚鵡的原始社會(huì)，存在著森嚴(yán)的等級(jí)制度，每只鳥(niǎo)必須按高矮順序分出等級(jí)和尊卑。

那么問(wèn)題來(lái)了，如下圖，怎樣才能找出最高、最矮、中等高的那些鸚鵡呢、以及指定高度的那只呢?

第一種方法: 掃描法

一個(gè)一個(gè)依次測(cè)量，完畢后所有的問(wèn)題都迎刃而解。

這種一個(gè)一個(gè)依次全部測(cè)量的方法叫做掃描，他的缺點(diǎn)很明顯，最高和最矮，需要全部測(cè)量完畢才能知曉。

而對(duì)于指定高度，最好的情況是第一次就找到; 最壞的情況是最后一次才找到，時(shí)間復(fù)雜度為 n，也就是說(shuō)從 13 個(gè)鸚鵡中找到指定身高的那只，最壞的情況是查 13 次。

第二種方法：二分法

13 個(gè)鸚鵡全部聽(tīng)令，按從矮到高列隊(duì)，向左看齊，報(bào)數(shù)。

報(bào)數(shù)字 1 的就是最矮的，報(bào)數(shù)字 13 的就是最高的，報(bào)數(shù)字 7 的就是中等身高的那只。

最好和最壞的情況都是一次找到。而查詢(xún)性能一下子提高 13 倍，我的個(gè)乖乖，無(wú)論多個(gè)只鸚鵡，時(shí)間復(fù)雜度都是 1，好可怕。

問(wèn)題：我不服，你這是偷換概念，有本事對(duì)比一個(gè)查找指定高度鸚鵡的性能。

因?yàn)辂W鵡們已經(jīng)按高矮排好了隊(duì)，所以指定高度的鸚鵡，要么是站中間那個(gè)只，要么就是在它的左邊或右邊的那群里。

如果是中間那個(gè)，一次就找到，如果不是只需要從中間左邊或右邊那一半中找，再在這一半中找中間那只，對(duì)比身高。

以此類(lèi)推，每次都把查詢(xún)的范圍減半，時(shí)間復(fù)雜度 log2(n)。

那么 log2(13) 就是 4，最壞的情況也才 4 次，時(shí)間復(fù)雜度確實(shí)不是 1 了，但好像也不糟，簡(jiǎn)化如下：

問(wèn)題：如果按高矮排隊(duì)，仍然需要一個(gè)一個(gè)比較，跟掃描有什么區(qū)別，那還不如直接掃描呢?

事實(shí)確實(shí)如此, 單純的一次查詢(xún)，先排序，再二分查找，不見(jiàn)得比掃描快，甚至還不如。

但是，在數(shù)據(jù)的世界，大部分?jǐn)?shù)據(jù)一生會(huì)被查詢(xún)無(wú)數(shù)次，如果只在數(shù)據(jù)降生的時(shí)候排一次序，往后余生，是不是就可以直接用二分查找，這似乎就是傳說(shuō)的讀多寫(xiě)少，以及對(duì)應(yīng)的復(fù)用。

優(yōu)點(diǎn)：

查找快

缺點(diǎn):

必須有序，需要提前排序

每次查找都需要不斷計(jì)算中間位置

二分查找樹(shù)

如果一組數(shù)據(jù)不會(huì)或不常變更，那么他們的位置也基本不變。可是每次查詢(xún)都需要重新計(jì)算中間位置是一種浪費(fèi)，而浪費(fèi)可恥。

我們能不能把所有中間節(jié)點(diǎn)組織起來(lái)，每次使用時(shí)，直接取中間節(jié)點(diǎn)?

請(qǐng)看下圖，找到所有單次二分查找的中間節(jié)點(diǎn)，把他們連起來(lái)，并用手提起最中間的那個(gè)節(jié)點(diǎn)，就是一棵二分查找樹(shù)。

優(yōu)點(diǎn)：二分查找樹(shù)就是通過(guò)數(shù)據(jù)結(jié)構(gòu)的方式實(shí)現(xiàn)了二分查找算法，通過(guò)存儲(chǔ)中間節(jié)點(diǎn)的數(shù)據(jù)，彌補(bǔ)了二分查找每次都要計(jì)算中間位置的缺點(diǎn)。

平衡二叉樹(shù):

如果二分查找樹(shù)不斷進(jìn)行修改，比如刪除某些節(jié)點(diǎn)，經(jīng)過(guò)一段時(shí)間后，最早那個(gè)中間節(jié)點(diǎn)的數(shù)據(jù)(根)，很可能就不在中間了。

中間位置就像一個(gè)天平的支點(diǎn)，如果他不在中間了，那么整個(gè)天平就會(huì)失衡，失衡的世界就會(huì)坍塌成不倫不類(lèi)的瘸樹(shù)，甚至是降維成一個(gè)鏈表或者數(shù)組。

二分查找算法的關(guān)鍵在于有序和中間節(jié)點(diǎn)，而二分查找樹(shù)的關(guān)鍵是中間節(jié)點(diǎn)的維護(hù)，如果維護(hù)的節(jié)點(diǎn)已經(jīng)不在中間了，那么它就失去了意義。

所以必須保證「二分查找樹(shù)」是一個(gè)正確的樹(shù)，一個(gè)根節(jié)點(diǎn)在中心的樹(shù)，一個(gè)左右子樹(shù)層級(jí) (高度) 基本相等 (高度相差不超過(guò) 1) 的樹(shù)，一個(gè)平衡的樹(shù)。

平衡二叉樹(shù)中最常見(jiàn)的就是紅黑樹(shù)：

紅黑樹(shù)規(guī)定了一系列節(jié)點(diǎn)顏色規(guī)則，以及對(duì)應(yīng)的左旋和右旋操作來(lái)保證顏色規(guī)則，從而達(dá)到樹(shù)的平衡性。

看到這花里胡哨的顏色以及復(fù)雜的規(guī)則，讓人第一眼就望而卻步，但所有的這些，也不過(guò)是為了保證二叉樹(shù)的平衡性，由于維持平衡的操作太過(guò)麻煩，無(wú)法用一句話(huà)簡(jiǎn)單概括，只好用一堆人鬼難分的規(guī)則和步驟來(lái)實(shí)現(xiàn)，只要按著這些步驟就一定能實(shí)現(xiàn)二叉樹(shù)的平衡。

平衡二叉樹(shù) = 二分查找樹(shù) + 平衡(左右高度相差不超過(guò) 1)

平衡二叉樹(shù)并未提高二分查找樹(shù)的性能，它只是保正樹(shù)不會(huì)被二向箔 (多次增刪改) 打擊降維成鏈表或不對(duì)稱(chēng)的殘缺樹(shù)，永遠(yuǎn)維持平衡。

另外，不僅僅是二叉樹(shù)，其他種類(lèi)的樹(shù)，也是需要有序和平衡，才能發(fā)揮最大的威力。

多叉樹(shù)之 B-tree

兩個(gè)叉的樹(shù)就能折半查詢(xún)，理論可以提高一倍性能，那么多個(gè)叉是不是能提高更多倍性能?

如下圖的 3 階 (叉) 樹(shù)(所有數(shù)據(jù)僅用于演示，非真實(shí)分布)

每個(gè)節(jié)點(diǎn)維護(hù)兩個(gè)數(shù)據(jù)，并指向最多 3 個(gè)子節(jié)點(diǎn)。如圖 3 個(gè)子節(jié)點(diǎn)的數(shù)據(jù)分別為：小于 17，17 ~ 35，大于 35。

假設(shè)，從上圖中查找 10 這個(gè)數(shù)，步驟如下：

鴻蒙官方戰(zhàn)略合作共建——HarmonyOS 技術(shù)社區(qū)

找到根節(jié)點(diǎn)，對(duì)比 10 與 17 和 35 的大小，發(fā)現(xiàn) 10 17 在左子節(jié)點(diǎn)，也就是第 2 層節(jié)點(diǎn);

從根節(jié)點(diǎn)的指針，找到左子節(jié)點(diǎn)，對(duì)比 10 與 8 和 12 的大小，發(fā)現(xiàn) 8 10 12，數(shù)據(jù)在當(dāng)前節(jié)點(diǎn)的中間子節(jié)點(diǎn)，也就是第 3 層節(jié)點(diǎn);

通過(guò)上步節(jié)點(diǎn)的指針，找到中間子節(jié)點(diǎn)(第 3 層節(jié)點(diǎn))，對(duì)比 10 與 9 和 10 的大小，發(fā)現(xiàn) 9 10 == 10，因此找到當(dāng)前節(jié)點(diǎn)的第二數(shù)即為結(jié)果。

加上忽略的 12 個(gè)數(shù)據(jù)，從 26 個(gè)數(shù)據(jù)中查找一個(gè)數(shù)字 10，僅僅用了 log3(26) asymp; 3 次，而如果用平衡二叉樹(shù), 則需要 log2(26) asymp; 5 次，事實(shí)證明，多叉樹(shù)確實(shí)可以再次提高查找性能。

多叉樹(shù)是在二分查找樹(shù)的基礎(chǔ)上，增加單個(gè)節(jié)點(diǎn)的數(shù)據(jù)存儲(chǔ)數(shù)量，同時(shí)增加了樹(shù)的子節(jié)點(diǎn)數(shù)，一次計(jì)算可以把查找范圍縮小更多。

優(yōu)點(diǎn)：二叉平衡樹(shù)的基礎(chǔ)上，使加載一次節(jié)點(diǎn)，可以加載更多路徑數(shù)據(jù)，同時(shí)把查詢(xún)范圍縮減到更小。

復(fù)雜節(jié)點(diǎn):

至此，我們列舉的數(shù)據(jù)都是孤零零的單個(gè)數(shù)字。試想，你手里已經(jīng)有一個(gè)數(shù)據(jù) 10，為什么還要費(fèi)力吧唧的再?gòu)囊欢褦?shù)據(jù)中找到這個(gè) 10，自己找自己? 這不是有病嗎?

單個(gè)數(shù)字只能活在演示中，現(xiàn)實(shí)的世界要復(fù)雜的多，我們來(lái)看一個(gè)接近真實(shí)場(chǎng)景的案例。

現(xiàn)有一個(gè)以年齡為索引的 3 階樹(shù)，存儲(chǔ)了一批用戶(hù)信息，如下圖：

數(shù)字為用戶(hù)的年齡，其它為與樹(shù)排序查找無(wú)關(guān)的業(yè)務(wù)數(shù)據(jù)，像這種索引數(shù)據(jù)與樹(shù)排序查找無(wú)關(guān)的業(yè)務(wù)一起維護(hù)在節(jié)點(diǎn)的平衡多叉 (階) 樹(shù)稱(chēng)為 B- 樹(shù)(B 樹(shù))。

缺點(diǎn)：業(yè)務(wù)數(shù)據(jù)的大小可能遠(yuǎn)遠(yuǎn)超過(guò)了索引數(shù)據(jù)的大小，每次為了查找對(duì)比計(jì)算，需要把數(shù)據(jù)加載到內(nèi)存以及 CPU 高速緩存中時(shí)，都要把索引數(shù)據(jù)和無(wú)關(guān)的業(yè)務(wù)數(shù)據(jù)全部查出來(lái)。本來(lái)一次就可以把所有索引數(shù)據(jù)加載進(jìn)來(lái)，現(xiàn)在卻要多次才能加載完。如果所對(duì)比的節(jié)點(diǎn)不是所查的數(shù)據(jù)，那么這些加載進(jìn)內(nèi)存的業(yè)務(wù)數(shù)據(jù)就毫無(wú)用處，全部拋棄。

磁盤(pán) I /O

計(jì)算機(jī)的功能主要為：計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)。而用于計(jì)算的數(shù)據(jù)以及計(jì)算后的結(jié)果很大一部分都需要存儲(chǔ)起來(lái)，以備后續(xù)再次使用。向磁盤(pán)中存儲(chǔ)和讀取的過(guò)程叫磁盤(pán) I/O。磁盤(pán)的讀取方式和速度會(huì)嚴(yán)重影響到整個(gè)業(yè)務(wù)的計(jì)算性能。

下面我們簡(jiǎn)單了解一下磁盤(pán)是如何工作的。

磁盤(pán)大概長(zhǎng)這個(gè)樣子：

磁盤(pán)主要由磁盤(pán)盤(pán)片、傳動(dòng)手臂、讀寫(xiě)磁頭和馬達(dá)組成。

為了存儲(chǔ)容量, 主軸像穿糖葫蘆一樣把多個(gè)磁盤(pán)片組成一個(gè)陣列。通過(guò)馬達(dá)驅(qū)動(dòng)主軸轉(zhuǎn)動(dòng)以及傳動(dòng)手臂移動(dòng)，使讀寫(xiě)磁頭在磁盤(pán)片上讀寫(xiě)數(shù)據(jù)。大概如下：

磁盤(pán)片由很多半徑不等的同心圓組成，這些圓被稱(chēng)為磁道，數(shù)據(jù)就是寫(xiě)在這些磁道上。

每個(gè)磁道又劃分成塊稱(chēng)為扇區(qū)。

如果磁盤(pán)是一記事本，那么一張磁盤(pán)片就是本子的一頁(yè)紙，而主軸就是本子的裝訂線(xiàn); 磁道就是紙頁(yè)的行，而扇區(qū)可以看作是很寬的列。

如果在磁盤(pán)中存儲(chǔ)一首詩(shī), 想象中大概這個(gè)樣子。

磁盤(pán)的讀 I/O 操作, 需要找到數(shù)據(jù)所在的磁盤(pán)片，以及對(duì)應(yīng)的磁道和扇區(qū)。這些操作類(lèi)似于從一本書(shū)中找到數(shù)據(jù)所在的頁(yè)，行，列。

因?yàn)槊總€(gè)磁盤(pán)片都對(duì)應(yīng)一個(gè)磁頭，所以性能的關(guān)鍵就在于找行和列，即尋道和磁盤(pán)旋轉(zhuǎn)。尋道即通過(guò)磁頭找到數(shù)據(jù)所在的磁道，相當(dāng)于換行到數(shù)據(jù)所在行。由于磁頭只能水平移動(dòng)，即只能換行尋道，無(wú)法在指定磁道上移動(dòng)，因此需要磁盤(pán)高速旋轉(zhuǎn)移動(dòng)到指定扇區(qū)，類(lèi)似寫(xiě)春聯(lián)時(shí)，筆不動(dòng)，紙動(dòng)。

綜上所述，磁盤(pán)的讀寫(xiě)是通過(guò)機(jī)械運(yùn)動(dòng)來(lái)定位數(shù)據(jù)所在位置，而 cpu 是通過(guò)電信號(hào)進(jìn)行數(shù)字運(yùn)算。粗略的認(rèn)為，機(jī)械查詢(xún)數(shù)據(jù)，與光速處理數(shù)據(jù)的性能完全不是在一個(gè)量級(jí)，總之一句話(huà)就是磁盤(pán)處理太慢太慢了。

雖然磁盤(pán)處理數(shù)據(jù)太慢了，但是它是目前相對(duì)廉價(jià)且穩(wěn)定的存儲(chǔ)設(shè)備，所以又不能舍棄不用，但大致可以通過(guò)以下方法進(jìn)行優(yōu)化。

盡量減少 I/O 次數(shù)，比如可以使用緩存;

每次 I/O 盡量獲取更多的數(shù)據(jù);

每次 I/O 盡量獲取有用的數(shù)據(jù)，當(dāng)然相應(yīng)的也間接減少總 I/O 次數(shù);

多叉樹(shù)之 B+tree

做為數(shù)據(jù)庫(kù)的索引，無(wú)論用什么樣的數(shù)據(jù)結(jié)構(gòu)維護(hù)，這些數(shù)據(jù)最終都會(huì)存儲(chǔ)到磁盤(pán)中。

鑒于磁盤(pán) I/O 的性能問(wèn)題，以及每次 I/O 獲取數(shù)據(jù)量上限所限，提高索引本身 I/O 的方法最好是，減少 I/O 次數(shù)和每次獲取有用的數(shù)據(jù)。

B-tree 已經(jīng)大大改進(jìn)了樹(shù)家族的性能，它把多個(gè)數(shù)據(jù)集中存儲(chǔ)在一個(gè)節(jié)點(diǎn)中，本身就可能減少了 I/O 次數(shù)或者尋道次數(shù)。

但是仍然有一個(gè)致命的缺陷，那就是它的索引數(shù)據(jù)與業(yè)務(wù)綁定在一塊，而業(yè)務(wù)數(shù)據(jù)的大小很有可能遠(yuǎn)遠(yuǎn)超過(guò)了索引數(shù)據(jù)，這會(huì)大大減小一次 I/O 有用數(shù)據(jù)的獲取，間接的增加 I/O 次數(shù)去獲取有用的索引數(shù)據(jù)。

因?yàn)闃I(yè)務(wù)數(shù)據(jù)才是我們查詢(xún)最終的目的，但是它又是在「二分」查找中途過(guò)程無(wú)用的數(shù)據(jù)，因此，如果只把業(yè)務(wù)數(shù)據(jù)存儲(chǔ)在最終查詢(xún)到的那個(gè)節(jié)點(diǎn)是不是就可以了?

理想很豐滿(mǎn)，現(xiàn)實(shí)很骨瘦如柴，誰(shuí)知道哪個(gè)節(jié)點(diǎn)就是最終要查詢(xún)的節(jié)點(diǎn)呢?

B+tree 橫空出世，B+ 樹(shù)就是為了拆分索引數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)的平衡多叉樹(shù)。

B+ 樹(shù)中，非葉子節(jié)點(diǎn)只保存索引數(shù)據(jù)，葉子節(jié)點(diǎn)保存索引數(shù)據(jù)與業(yè)務(wù)數(shù)據(jù)。這樣即保證了葉子節(jié)點(diǎn)的簡(jiǎn)約干凈，數(shù)據(jù)量大大減小，又保證了最終能查到對(duì)應(yīng)的業(yè)務(wù)數(shù)。既提高了單次 I/O 數(shù)據(jù)的有效性，又減少了 I/O 次數(shù)，還實(shí)現(xiàn)了業(yè)務(wù)。

但是，在數(shù)據(jù)中索引與數(shù)據(jù)是分離的，不像示例那樣的?

如圖：我們只需要把真實(shí)的業(yè)務(wù)數(shù)據(jù)，換成數(shù)據(jù)所在地址就可以了，此時(shí)，業(yè)務(wù)數(shù)據(jù)所在的地址在 B+ 樹(shù)中充當(dāng)業(yè)務(wù)數(shù)據(jù)。

總結(jié)

數(shù)據(jù)存儲(chǔ)在磁盤(pán)(SSD 跟 CPU 性能也不在一個(gè)量級(jí))，而磁盤(pán)處理數(shù)據(jù)很慢;

提高磁盤(pán)性能主要通過(guò)減少 I/O 次數(shù)，以及單次 I/O 有效數(shù)據(jù)量;

索引通過(guò)多階 (一個(gè)節(jié)點(diǎn)保存多個(gè)數(shù)據(jù)，指向多個(gè)子節(jié)點(diǎn)) 使樹(shù)的結(jié)構(gòu)更矮胖，從而減少 I/O 次數(shù);

索引通過(guò) B+ 樹(shù)，把業(yè)務(wù)數(shù)據(jù)與索引數(shù)據(jù)分離，來(lái)提高單次 I/O 有效數(shù)據(jù)量，從而減少 I/O 次數(shù);

索引通過(guò)樹(shù)數(shù)據(jù)的有序和「二分查找」(多階樹(shù)可以假設(shè)為多分查找)，大大縮小查詢(xún)范圍;

索引針對(duì)的是單個(gè)字段或部分字段，數(shù)據(jù)量本身比一條記錄的數(shù)據(jù)量要少的多，這樣即使通過(guò)掃描的方式查詢(xún)索引也比掃描數(shù)據(jù)庫(kù)表本身快的多;

知識(shí)擴(kuò)展

樹(shù)的結(jié)構(gòu)最大的優(yōu)點(diǎn)就是查詢(xún)性能高，因此所有需要提高查詢(xún)性能的都可以考慮樹(shù)。

而現(xiàn)實(shí)中也確實(shí)有這樣的例子，比如：

HashMap 中的數(shù)據(jù)沖突時(shí)，鏈表轉(zhuǎn)化成紅黑樹(shù);

數(shù)據(jù)庫(kù)索引使用的 B+ 樹(shù);

搜索引擎倒排索引使用的字典樹(shù);

以上只是淺嘗輒止、點(diǎn)到為止的描述了數(shù)據(jù)庫(kù)使用 B+ 樹(shù)索引為什么能提高查詢(xún)性能原因及簡(jiǎn)單過(guò)程。

并沒(méi)有深入各種數(shù)據(jù)結(jié)構(gòu)的細(xì)節(jié)，也未提及其它索引類(lèi)型和索引的具體存儲(chǔ)格式，目的僅僅是，為了讓大家對(duì)索引有一個(gè)感性的認(rèn)識(shí)。

到此，關(guān)于“索引能提高查詢(xún)性能的原因是什么”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注丸趣 TV 網(wǎng)站，丸趣 TV 小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章！

正文完