共計 4683 個字符,預計需要花費 12 分鐘才能閱讀完成。
自動寫代碼機器人,免費開通
Mysql 中索引的作用是什么?針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
常見索引類型(實現層面)
索引種類(應用層面)
聚簇索引與非聚簇索引
覆蓋索引
最佳索引使用策略
1. 常見索引類型(實現層面)
首先不談 Mysql 怎么實現索引的, 先馬后炮一下, 如果讓我們來設計數據庫的索引,該怎么設計?
我們首先思考一下索引到底想達到什么效果?其實就是想能夠實現快速查找數據的策略,所以索引的實現本質上就是一個查找算法。
但是跟普通的查找有所不同,因為我們的數據有一下特征:
1. 存儲的數據是非常非常多的
2. 并且還不斷的動態變化
所以實現索引時需要考慮到這兩個特點。我們需要找一個最合適的數據結構算法來實現查找功能。
下面一起看下常見的查找策略,如下圖:
由于前面說的兩個特點我們首先排除靜態查找的算法。
至于查找樹,我們有二叉樹和多叉樹兩種選擇:
二叉樹:如果選擇二叉樹的話,由于我們的數據量龐大,二叉樹的深度會變得非常大,我們的索引樹會變成參天大樹,每次查詢會導致很多磁盤 IO。
多叉樹:多叉樹解決了了樹的深度大的問題,那么我們到底選擇 B 樹還是 B + 樹呢?
B 樹 摘自維基百科 zh.wikipedia.org/wiki/B%2B 樹
B+ 樹 摘自維基百科 zh.wikipedia.org/wiki/B%2B 樹
從上面圖可知 B + 樹的葉子節點存放了所有的索引值,并且葉子結點之間以鏈表的形式相互關聯,所以我們只需從最左的鏈表遍歷的話即可查找所有的值,最常見的用途就是范圍查找,而 B 樹則不滿足這范圍查找,又或者說實現特別復雜, 所以 Mysql 最終選擇了使用 B + 樹實現這一功能。
1.1 B-Tree 索引(B+ 樹)
先說明一下,雖然叫在 Mysql 官方叫做 B -Tree 索引,但采用的是 B + 樹數據結構。
B-tree 索引能夠加快訪問數據的速度,不需要進行全表掃描,而是從索引樹的根節點層層往下搜索,在根節點存放了索引值和指向下一個節點的指針。
下面看下單列索引的數據怎么組織的。
create table User(`name` varchar(50) not null,
`uid` int(4) not null,
`gender` int(2) not null,
key(`uid`)
);
上面 User 表給 uid 列創建了一個索引,那么往表里插入 uid(96~102)的時候存儲引擎是怎么管理索引的呢?看下面的索引樹
1. 在葉子節點存放所有的索引值,非葉子節點值是為了更快定位包含目標值的葉子節點
2. 葉子節點的值是有序的
3. 葉子節點之間以鏈表形式關聯
下面在看一下多列 (聯合) 索引的數據怎么組織的。
create table User(`name` varchar(50) not null,
`uid` int(4) not null,
`gender` int(2) not null,
key(`uid`,`name`)
);
給 User 表創建了聯合索引 key(uid,name) 這種情況下他的索引樹是如下圖所示。
特點跟單列索引一樣,不同之處在于他的排序,如果第一個字段相同時會按第二個索引字段排序
如何通過 B -tree 快速查找數據?
對于 InnoDb 存儲引擎的 B -tree 索引,會按一下步驟通過索引找到行數據
如果使用了聚簇索引(主鍵),則葉子節點上就包含行數據,可直接返回
如果使用了非聚簇索引(普通索引), 則在葉子節點存了主鍵,再根據主鍵查詢一次上面的聚簇索引,最后返回數據
對于 MyISAM 存儲引擎的 B -tree 索引,會按一下步驟通過索引找到行數據
在 MyISAM 的索引樹的葉子節點上除了索引值之外即沒存儲主鍵,也沒存儲行數據,而是存了指向行數據的指針,根據這個指針在從表文件查詢數據。
1.2 Hash 索引(哈希表)
哈希索引是基于哈希表來實現的,只有精確匹配所有的所有列才能生效。
也就是說假設有個 hash 索引 key (col1,col2) 那么每次只有 col1 和 col2 兩個字段都用才能夠生效。因為生成 hash 索引的時候是根據一個 hash 函數對所有的索引列取 hash 值來實現的。
如下方圖,有個 hash 索引 key(name)
當我們執行 mysql select * from User where name= 張三;時怎么利用 hash 索引快速查找的?
第一步,計算出 hash 值,hash(張三) = 1287
第二步,定位行號,比如 key=1287 對應的行號為 3
第三步,找到指定行并且比較 name 列值是否為張三做個校驗
2. 常見索引種類(應用層面)
主鍵索引
create table User(`name` varchar(50) not null,
`uid` int(4) not null,
`gender` int(2) not null,
primary key(`uid`)
);
主鍵索引是唯一的,通常以表的 ID 設置為主鍵索引, 一個表只能有一個主鍵索引,這是他跟唯一索引的區別。
唯一索引
create table User(`name` varchar(50) not null,
`uid` int(4) not null,
`gender` int(2) not null,
unique key(`name`)
);
唯一索引主要用于業務上的唯一約束,他跟主鍵索引的區別是,一個表可以有多個唯一索引
單列索引
create table User(`name` varchar(50) not null,
`uid` int(4) not null,
`gender` int(2) not null,
key(`name`)
);
以某一個字段為索引
聯合索引
create table User(`name` varchar(50) not null,
`uid` int(4) not null,
`gender` int(2) not null,
key(`name`,`uid`)
);
兩個或兩個以上字段聯合組成一個索引。使用時需要注意滿足最左匹配原則!
還有其他不常用的就不介紹了~
3. 聚簇索引與非聚簇索引
什么是聚簇索引?
聚簇索引指的是他的 索引和行數據 在一起存儲。也就是在一顆 B + 樹的葉子結點上存儲的不僅是他的索引值,還有對應的某一行的數據。待會兒看圖便知。
聚簇索引不是一種索引,而是一種數據存儲組織方式!!!
crreate table test(
col1 int not null,
col2 int not null,
PRIMARY KEY(col1),
KEY(col2)
);
如上所示,表 test 由兩個索引,分別是主鍵 col1 和 普通索引 col2。那么這倆索引跟聚簇非聚簇有啥關系呢?
會生成一個聚簇索引和一個非聚簇索引(二級索引),也就是說會組織兩個索引樹。主鍵索引會生成聚簇索引的樹 以及以 col2 為索引的非聚簇索引的樹。
InnoDb 將通過主鍵來實現聚簇索引,如果沒有主鍵則會選選一個唯一非空索引來實現。如果沒有唯一非空索引則會隱式生成一個主鍵。
下面看下聚簇索引和非聚簇索引在索引樹上數據是怎么分布的,圖片摘自《高性能 Nysql》
下圖是聚簇索引的數據組織方式。col1 為主鍵索引的聚簇索引樹
索引列是主鍵 col1
可以看出葉子結點除了存儲索引值 列 col1 (3~99~4700)值 之外還存儲了其他列的值,如列 col2 (92~8~13), 如果還有別的列的話也會存儲,或者換句話說聚簇索引樹 在葉子節點上存儲某個索引值對應的一行數據。
下圖是非聚簇索引 (二級索引) 的數據組織方式。
索引列是 col2
與聚簇索引不同的是非聚簇索引在索引樹葉子節點上除了索引值之外只存了主鍵值。而聚簇索引則存了一行數據。
假如有一條 sql 語句 select * from test where col2=93;
上面這條語句會經歷兩次從索引樹查找過程
1. 第一步從非聚簇索引的索引樹上找到包含 col2=93 的葉子節點,并定位到行的主鍵 3
2. 第二步 根據主鍵 3 在從聚簇索引定位包含 主鍵 = 3 的葉子節點并返回全部行數據。
以上說的都是基于 InnoDb 存儲引擎的,MyISAM 是不支持聚簇索引的,因為他的數據文件和索引文件是相互獨立存儲的 MyISAM 存儲引擎的索引樹的葉子節點不會寸主鍵值,而存一個指向對應行的地址或者說是指針,然后再從表數據文件里去找,如下面圖所示。
結論:
聚簇索引:
通常由主鍵或者非空唯一索引實現的,葉子節點存儲了一整行數據
非聚簇索引:
又稱二級索引,就是我們常用的普通索引,葉子節點存了索引值和主鍵值,在根據主鍵從聚簇索引查
4. 覆蓋索引
覆蓋索引就是指索引包含了所有需要查詢的字段。
create table User(`name` varchar(50) not null,
`uid` int(4) not null,
`gender` int(2) not null,
key(`uid`,`name`)
);
假如表 User 有三個字段 User (name,uid,gender), 且有個聯合索引 key(name,uid)那么
執行如下面這條 sql 查詢時就用到了 覆蓋索引。
select name,uid from User where name in (a , b) and uid = 98 and uid =100 ;
上面這條 sql 語句使用了聯合索引 key(name,uid), 并且只需查找 name,uid 兩個字段,所以使用了覆蓋索引。覆蓋索引有什么好處呢?先看一下下面這個圖
上面這個圖就是 聯合索引 key(name,uid) 所對應的索引樹,從圖中可以看出,如果我們只需查詢 (name,uid) 兩個字段的話,從索引樹就能得到我們需要查的數據。不需要找到索引值之后再從表數據文件定位對應的行數據了。
覆蓋索引好處
1. 避免了對主鍵索引 (聚簇) 的二次查詢
2. 由于不需要回表查詢 (從表數據文件) 所以大大提升了 Mysql 緩存的負載
總之大大提升了讀取數據的性能
5. 最佳索引使用策略
最后在講講使用索引過程中的避坑指南
獨立的列
獨立的列不是指單列索引,而是指索引列不能是表達式的一部分或者是函數的一部分。
select * FROM test where col1 + 1 =100; // 不能是表達式一部分
select * FROM test where ABS(col1) =100; // 不能是函數一部分
最左匹配原則
假如有個聯合索引 key (col1,col2)。那么以下查詢是索引無效的
select * from test where col2 = 3;
select * from test where col1 like %3
對于最左匹配原則,大家想一下 B + 樹的葉子節點的關聯就差不多知道為啥需要最左匹配原則了,因為 B + 的葉子結點,從左到右以鏈表的形式關聯的,索引我們查詢的時候要么范圍查詢,要么有明確的左邊一個開始的索引值,不能跳過或者不明確如 like %XYZ 這種查詢。
索引值不能是 null 值
單列索引有 null 值會導致索引無效
多列索引只要有個列有 null 值會導致索引無效
使用聚簇索引和覆蓋索引大大提升讀取性能
因為聚簇索引和覆蓋索引的索引樹上就有了需要的字段,所以不需要回表文件查詢,所以提升了查詢速度
使用短索引
如果很長的字符串進行查詢,只需匹配一個前綴長度,這樣能夠節省大量索引空間
關于 Mysql 中索引的作用是什么問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注丸趣 TV 行業資訊頻道了解更多相關知識。
向 AI 問一下細節