Spark提供了哪些RDD

149次閱讀

共計 577 個字符，預計需要花費 2 分鐘才能閱讀完成。

這篇文章主要介紹“Spark 提供了哪些 RDD”，在日常操作中，相信很多人在 Spark 提供了哪些 RDD 問題上存在疑惑，丸趣 TV 小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”Spark 提供了哪些 RDD”的疑惑有所幫助！接下來，請跟著丸趣 TV 小編一起來學習吧！

深入 RDD

RDD 本身是一個抽象類，具有很多具體的實現子類：

RDD 都會基于 Partition 進行計算：

默認的 Partitioner 如下所示：

其中 HashPartitioner 的文檔說明如下：

另外一種常用的 Partitioner 是 RangePartitioner：

RDD 在持久化的需要考慮內存策略：

Spark 提供很多 StorageLevel 可供選擇：

于此同時 Spark 提供了 unpersistRDD:

對 RDD 本身還有一個非常重要的 CheckPoint 操作：

其中 doCheckpoint 的細節如下：

以 NewHadoopRDD 為例，其內部的信息如下所示：

以 WholeTextFileRDD 為例，其內部的信息如下所示：

RDD 在產生作業調用的時候，經典的過程如下所示：

到此，關于“Spark 提供了哪些 RDD”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注丸趣 TV 網站，丸趣 TV 小編會繼續努力為大家帶來更多實用的文章！

正文完

發表至：計算機運維

2023-08-16

轉載說明：除特殊說明外本站除技術相關以外文章皆由網絡搜集發布，轉載請注明出處。

Spark集群如何搭建

久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三