共計 577 個字符,預計需要花費 2 分鐘才能閱讀完成。
這篇文章主要介紹“Spark 提供了哪些 RDD”,在日常操作中,相信很多人在 Spark 提供了哪些 RDD 問題上存在疑惑,丸趣 TV 小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Spark 提供了哪些 RDD”的疑惑有所幫助!接下來,請跟著丸趣 TV 小編一起來學習吧!
深入 RDD
RDD 本身是一個抽象類,具有很多具體的實現子類:
RDD 都會基于 Partition 進行計算:
默認的 Partitioner 如下所示:
其中 HashPartitioner 的文檔說明如下:
另外一種常用的 Partitioner 是 RangePartitioner:
RDD 在持久化的需要考慮內存策略:
Spark 提供很多 StorageLevel 可供選擇:
于此同時 Spark 提供了 unpersistRDD:
對 RDD 本身還有一個非常重要的 CheckPoint 操作:
其中 doCheckpoint 的細節如下:
以 NewHadoopRDD 為例,其內部的信息如下所示:
以 WholeTextFileRDD 為例,其內部的信息如下所示:
RDD 在產生作業調用的時候,經典的過程如下所示:
到此,關于“Spark 提供了哪些 RDD”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注丸趣 TV 網站,丸趣 TV 小編會繼續努力為大家帶來更多實用的文章!