Spark有哪些優點

169次閱讀

共計 2794 個字符，預計需要花費 7 分鐘才能閱讀完成。

這篇文章主要介紹“Spark 有哪些優點”，在日常操作中，相信很多人在 Spark 有哪些優點問題上存在疑惑，丸趣 TV 小編查閱了各式資料，整理出簡單好用的操作方法，希望對大家解答”Spark 有哪些優點”的疑惑有所幫助！接下來，請跟著丸趣 TV 小編一起來學習吧！

一、MapReduce 已死，Spark 稱霸

由于 Hadoop 的 MapReduce 高延遲的死穴，導致 Hadoop 無力處理很多對時間有要求的場景，人們對其批評越來越多，Hadoop 無力改變現在而導致正在死亡。正如任何領域一樣，死亡是一個過程，Hadoop 正在示例這樣的一個過程，Hadoop 的死亡過程在 2012 年已經開始

1，原先支持 Hadoop 的四大商業機構紛紛宣布支持 Spark；

2，Mahout 前一階段表示從現在起他們將不再接受任何形式的以 MapReduce 形式實現的算法，另外一方面，Mahout 宣布新的算法基于 Spark；

3，Cloudera 的機器學習框架 Oryx 的執行引擎也將由 Hadoop 的 MapReduce 替換成 Spark；

4，Google 已經開始將負載從 MapReduce 轉移到 Pregel 和 Dremel 上；

5，FaceBook 則將負載轉移到 Presto 上；

現在很多原來使用深度使用 Hadoop 的公司都在紛紛轉向 Spark，國內的淘寶是典型的案例。在此，我們以使用世界上使用 Hadoop 最典型的公司 Yahoo！為例，大家可以看一下其數據處理的架構圖：

而使用 Spark 后的架構如下：

大家可以看出，現階段的 Yahoo！是使用 Hadoop 和 Spark 并存的架構，而隨著時間的推進和 Spark 本身流處理、圖技術、機器學習、NoSQL 查詢的出色特性，最終 Yahoo！可能會完成 Spark 全面取代 Hadoop，而這也代表了所有做云計算大數據公司的趨勢。

或許有朋友會問，Hadoop 為何不改進自己？

其實，Hadoop 社區一直在改進 Hadoop 本身，但事實是無力回天：

1，Hadoop 的改進基本停留在代碼層次，也就是修修補補的事情，這就導致了 Hadoop 現在具有深度的“技術債務”，負載累累；

2，Hadoop 本身的計算模型決定了 Hadoop 上的所有工作都要轉化成 Map、Shuffle 和 Reduce 等核心階段，由于每次計算都要從磁盤讀或者寫數據，同時真個計算模型需要網絡傳輸，這就導致了越來越不能忍受的延遲性，同時在前一個任務運行完之前，任何一個任務都不可以運行，這直接導致了其無力支持交互式應用；

那么，為什么不全部重新寫一個更好的 Hadoop 呢? 答案是 Spark 的出現使得沒有必要這樣做了。

Spark 是繼 Hadoop 之后，成為替代 Hadoop 的下一代云計算大數據核心技術，目前 SPARK 已經構建了自己的整個大數據處理生態系統，如流處理、圖技術、機器學習、NoSQL 查詢等方面都有自己的技術，并且是 Apache 頂級 Project，可以預計的是 2014 年下半年到 2015 年在社區和商業應用上會有爆發式的增長。

國外一些大型互聯網公司已經部署了 Spark。甚至連 Hadoop 的早期主要貢獻者 Yahoo 現在也在多個項目中部署使用 Spark；國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用 Spark 技術用于自己的商業生產系統中，國內外的應用開始越來越廣泛。Spark 正在逐漸走向成熟，并在這個領域扮演更加重要的角色。

二、企業為什么需要 Spark；

1，現在很多原來使用深度使用 Hadoop 的公司都在紛紛轉向 Spark，國內的淘寶是典型的案例。在此，我們以使用世界上使用 Hadoop 最典型的公司 Yahoo！為例，大家可以看一下其數據處理的架構圖：

而使用 Spark 后的架構如下：

大家可以看出，現階段的 Yahoo！是使用 Hadoop 和 Spark 并存的架構，而隨著時間的推進和 Spark 本身流處理、圖技術、機器學習、NoSQL 查詢的出色特性，最終 Yahoo！可能會完成 Spark 全面取代 Hadoop，而這也代表了所有做云計算大數據公司的趨勢。

2，Spark 是可以革命 Hadoop 的目前唯一替代者，能夠做 Hadoop 做的一切事情，同時速度比 Hadoop 快了 100 倍以上：

Logistic regression in Hadoop and Spark

可以看出在 Spark 特別擅長的領域其速度比 Hadoop 快 120 倍以上！

,3，原先支持 Hadoop 的四大商業機構紛紛宣布支持 Spark，包含知名 Hadoop 解決方案供應商 Cloudera 和知名的 Hadoop 供應商 MapR；

4，Spark 是繼 Hadoop 之后，成為替代 Hadoop 的下一代云計算大數據核心技術，目前 SPARK 已經構建了自己的整個大數據處理生態系統，如流處理、圖技術、機器學習、NoSQL 查詢等方面都有自己的技術，并且是 Apache 頂級 Project，可以預計的是 2014 年下半年到 2015 年在社區和商業應用上會有爆發式的增長。

5，國外一些大型互聯網公司已經部署了 Spark。甚至連 Hadoop 的早期主要貢獻者 Yahoo 現在也在多個項目中部署使用 Spark；國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用 Spark 技術用于自己的商業生產系統中，國內外的應用開始越來越廣泛。Spark 正在逐漸走向成熟，并在這個領域扮演更加重要的角色。

6，不得不提的是 Spark 的“One stack to rule them all”的特性，Spark 的特點之一就是用一個技術堆棧解決云計算大數據中流處理、圖技術、機器學習、交互式查詢、誤差查詢等所有的問題

7，Mahout 前一階段表示從現在起他們將不再接受任何形式的以 MapReduce 形式實現的算法，另外一方面，Mahout 宣布新的算法基于 Spark；

8，如果你已經使用了 Hadoop，就更加需要 Spark。Mahout 前一階段表示從現在起他們將不再接受任何形式的以 MapReduce 形式實現的算法，另外一方面，Mahout 宣布新的算法基于 Spark，同時，這幾年來，Hadoop 的改進基本停留在代碼層次，也就是修修補補的事情，這就導致了 Hadoop 現在具有深度的“技術債務”，負載累累；

8，，此時我們只需要一個技術團隊通過 Spark 就可以搞定一切問題，而如果基于 Hadoop 就需要分別構建實時流處理團隊、數據統計分析團隊、數據挖掘團隊等，而且這些團隊之間無論是代碼還是經驗都不可相互借鑒，會形成巨大的成本，而使用 Spark 就不存在這個問題；

9，百億美元市場，教授為之辭職，學生為止輟學，大勢所趨！

10，Life is short！

到此，關于“Spark 有哪些優點”的學習就結束了，希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習，快去試試吧！若想繼續學習更多相關知識，請繼續關注丸趣 TV 網站，丸趣 TV 小編會繼續努力為大家帶來更多實用的文章！

正文完