共計 2392 個字符,預計需要花費 6 分鐘才能閱讀完成。
本文丸趣 TV 小編為大家詳細介紹“服務器中的性能優化知識點有哪些”,內容詳細,步驟清晰,細節處理妥當,希望這篇“服務器中的性能優化知識點有哪些”文章能幫助大家解決疑惑,下面跟著丸趣 TV 小編的思路慢慢深入,一起來學習新知識吧。
當我們談到性能優化,更多的同學可能想到的是系統層面的性能優化。比如在一個 Web 服務程序中,通過 Redis 或者其它緩存來提升網站訪問的速度等。對于程序代碼本身的優化卻比較少。這一方面是編譯器為我們做了很多優化工作,另外一方面是覺得系統層面的優化效果更明顯,也更高大上。實際上,除了系統層面的性能優化外,在程序代碼層面的性能優化效果也是非常好的。
廢話不多說,我們以事實說話。大家看一下下面兩段程序,兩段程序的作用完全相同,就是將一個二維數組中的每一個元素做加 1 操作。大家看一下,覺得這兩段的程序是否會有性能差異? 實際測試結果是兩者有近 4 倍的性能差異。
性能差異的原因分析
大家考慮一下,為什么有如此之大的性能差異? 結合代碼,我們看到兩段代碼的差異在于對數組元素的訪問順序,前者是逐列訪問,而后者是逐行訪問。結合圖 1 可能會理解的更加清楚一些。然后,我們在結合 C 語言中二維數據數據在內存中的排布規則(可以在上述代碼中通過打印地址的方式驗證一下),可以知道前者是訪問連續的地址空間,而后者訪問的是跳躍的地址空間。
圖 1 兩種訪問形式
以整形數組為例,也就是說,前者訪問的地址依次為 X,X+4,X+ 8 等等。而后者訪問的地址則依次為 X,X+4096,X+8192。后者每次跳躍 4KB 的地址空間。
了解了上述差異后,大家有沒有想到性能差異的原因? 我們知道 CPU 為了提升訪問內存的性能,在其和內存之間增加了緩存,現代 CPU 緩存通常為 3 級緩存,分別是 L1、L2 和 L3,其中 L1 和 L2 是 CPU 核獨有的,而 L3 是同一顆 CPU 的多核共享的。其基本的架構如圖 2 所示。
圖 2 CPU 緩存架構
由于緩存分布式的特點,在多個 CPU 之間需要保證其一致性。扯遠了,總之緩存需要切割為比較小的粒度進行管理,這個小粒度的管理單元稱為緩存行(可以類比頁緩存中的緩存頁)。由于緩存的容量遠遠小于內存的容量,因此緩存無法把內存中的內容都加載其中。緩存能夠其作用的最主要的原因是利用的常規業務訪問數據的兩個特性,也就是空間局部性和時間局部性。
空間局部性:對于剛被訪問的數據,其相鄰的數據在將來被訪問的概率高。
時間局部性:對于剛被訪問的數據,其本身在將來被訪問的概率高。
了解了上述原理,我們就知道,對于上面程序程序代碼,由于第二段程序依次跳躍的太遠,也就是不滿足空間局部性,從而導致緩存命中失敗。也就是說第二段程序其實無法訪問緩存中的數據,而是直接訪問的內存。而內存的訪問性能要遠遠低于緩存的訪問性能,因此就出現了文章一開始的近 4 倍的性能差異。
關于程序性能的其它考慮
我們程序的很微小的改動就有可能對性能產生非常大的影響。因此,我們在日常開發中應該處處注意代碼中是否有不恰當的代碼導致性能問題。下面我們在列舉一個關于性能相關的程序實例,以便大家在以后的開發中參考。
1. 程序結構
不合理的程序結構對性能的影響有的時候是災難性的。下面兩個函數的性能差異在字符串很長的情況下將非常巨大。函數 lower1 在每次循環中都計算一下字符串的長度,而這種計算并不是必要的。函數 lower2 則是在循環開始之前計算字符串長度,而后通過一個恒定的變量來進行條件判斷。問題的根源在于 strlen 函數,這個函數通過循環計算字符串的長度,如果字符串比較長,那這個函數將相當耗時。
2. 過程 (函數) 調用
我們知道在過程調用的時候會存在壓棧和出棧等操作,這些操作通常都是對內存的操作,且過程比較復雜。也就是說,函數的調用過程是比較耗時的操作,盡量減少函數調用。
值得慶幸的是現代的編譯器可以對函數調用做很多優化工作,簡單的函數調用通常可以被編譯器優化調。所謂優化調是只在機器語言 (匯編語言) 層面已經沒有高級語言的函數調用了。
我們通過一個具體的例子看一下,通過 C 語言實現一個簡單的函數調用,其中函數 fun_1 調用函數 fun_2,而函數 fun_2 又調用了 printf。這里 fun_2 并沒有做什么太多的工作,只是將兩個參數相加后傳給 printf。
圖 3 函數調用優化
如圖所示,在 gcc 不做任何優化的情況下,反匯編的代碼 (圖 3 左下角) 可以看出,整個邏輯非常清晰,只是按部就班的調用函數。但是,通過 -O2 優化后,匯編代碼變得非常簡潔了(圖 3 右下角),通過 fun_1 的匯編代碼可以看出它根本沒有調用 fun_2,而是直接調用的 printf 函數。因此,在不影響其功能的情況下,編譯器是可以優化調函數調用的。但這不是絕對的,稍微復雜的函數調用編譯器可能就無能為力了,而此時就可能導致性能損耗。
3. 運算符差異
不同的運算的耗時差異也是非常巨大的,比如乘法的耗時是加法的兩三倍,而除法的耗時是加法的十倍以上。因此在訪問頻度比較高的邏輯中減少除法的使用將會明顯的提升。
在 Java 的 HashMap 實現中,通過位運算來計算哈希的 Key,而不是通過模運算。因為模運算本身是除法運算,性能要比位運算差十倍以上。
static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h 16); }
4. 引用與拷貝
支持類的高級語言在傳遞對象參數的時候涉及拷貝的過程,對象的拷貝也是比較消耗性能的操作。當然,高級語言通過一種成為引用的機制實現了對象地址的傳遞,這樣就避免了拷貝的過程(這就是傳值與傳址的差異)。
讀到這里,這篇“服務器中的性能優化知識點有哪些”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注丸趣 TV 行業資訊頻道。