共計 2794 個字符,預計需要花費 7 分鐘才能閱讀完成。
這篇文章主要介紹“Spark 有哪些優點”,在日常操作中,相信很多人在 Spark 有哪些優點問題上存在疑惑,丸趣 TV 小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”Spark 有哪些優點”的疑惑有所幫助!接下來,請跟著丸趣 TV 小編一起來學習吧!
一、MapReduce 已死,Spark 稱霸
由于 Hadoop 的 MapReduce 高延遲的死穴,導致 Hadoop 無力處理很多對時間有要求的場景,人們對其批評越來越多,Hadoop 無力改變現在而導致正在死亡。正如任何領域一樣,死亡是一個過程,Hadoop 正在示例這樣的一個過程,Hadoop 的死亡過程在 2012 年已經開始
1,原先支持 Hadoop 的四大商業機構紛紛宣布支持 Spark;
2,Mahout 前一階段表示從現在起他們將不再接受任何形式的以 MapReduce 形式實現的算法,另外一方面,Mahout 宣布新的算法基于 Spark;
3,Cloudera 的機器學習框架 Oryx 的執行引擎也將由 Hadoop 的 MapReduce 替換成 Spark;
4,Google 已經開始將負載從 MapReduce 轉移到 Pregel 和 Dremel 上;
5,FaceBook 則將負載轉移到 Presto 上;
現在很多原來使用深度使用 Hadoop 的公司都在紛紛轉向 Spark,國內的淘寶是典型的案例。在此,我們以使用世界上使用 Hadoop 最典型的公司 Yahoo!為例,大家可以看一下其數據處理的架構圖:
而使用 Spark 后的架構如下:
大家可以看出,現階段的 Yahoo!是使用 Hadoop 和 Spark 并存的架構,而隨著時間的推進和 Spark 本身流處理、圖技術、機器學習、NoSQL 查詢的出色特性,最終 Yahoo!可能會完成 Spark 全面取代 Hadoop,而這也代表了所有做云計算大數據公司的趨勢。
或許有朋友會問,Hadoop 為何不改進自己?
其實,Hadoop 社區一直在改進 Hadoop 本身,但事實是無力回天:
1,Hadoop 的改進基本停留在代碼層次,也就是修修補補的事情,這就導致了 Hadoop 現在具有深度的“技術債務”,負載累累;
2,Hadoop 本身的計算模型決定了 Hadoop 上的所有工作都要轉化成 Map、Shuffle 和 Reduce 等核心階段,由于每次計算都要從磁盤讀或者寫數據,同時真個計算模型需要網絡傳輸,這就導致了越來越不能忍受的延遲性,同時在前一個任務運行完之前,任何一個任務都不可以運行,這直接導致了其無力支持交互式應用;
那么,為什么不全部重新寫一個更好的 Hadoop 呢? 答案是 Spark 的出現使得沒有必要這樣做了。
Spark 是繼 Hadoop 之后,成為替代 Hadoop 的下一代云計算大數據核心技術,目前 SPARK 已經構建了自己的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL 查詢等方面都有自己的技術,并且是 Apache 頂級 Project,可以預計的是 2014 年下半年到 2015 年在社區和商業應用上會有爆發式的增長。
國外一些大型互聯網公司已經部署了 Spark。甚至連 Hadoop 的早期主要貢獻者 Yahoo 現在也在多個項目中部署使用 Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用 Spark 技術用于自己的商業生產系統中,國內外的應用開始越來越廣泛。Spark 正在逐漸走向成熟,并在這個領域扮演更加重要的角色。
二、企業為什么需要 Spark;
1,現在很多原來使用深度使用 Hadoop 的公司都在紛紛轉向 Spark,國內的淘寶是典型的案例。在此,我們以使用世界上使用 Hadoop 最典型的公司 Yahoo!為例,大家可以看一下其數據處理的架構圖:
而使用 Spark 后的架構如下:
大家可以看出,現階段的 Yahoo!是使用 Hadoop 和 Spark 并存的架構,而隨著時間的推進和 Spark 本身流處理、圖技術、機器學習、NoSQL 查詢的出色特性,最終 Yahoo!可能會完成 Spark 全面取代 Hadoop,而這也代表了所有做云計算大數據公司的趨勢。
2,Spark 是可以革命 Hadoop 的目前唯一替代者,能夠做 Hadoop 做的一切事情,同時速度比 Hadoop 快了 100 倍以上:
Logistic regression in Hadoop and Spark
可以看出在 Spark 特別擅長的領域其速度比 Hadoop 快 120 倍以上!
,3,原先支持 Hadoop 的四大商業機構紛紛宣布支持 Spark,包含知名 Hadoop 解決方案供應商 Cloudera 和知名的 Hadoop 供應商 MapR;
4,Spark 是繼 Hadoop 之后,成為替代 Hadoop 的下一代云計算大數據核心技術,目前 SPARK 已經構建了自己的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL 查詢等方面都有自己的技術,并且是 Apache 頂級 Project,可以預計的是 2014 年下半年到 2015 年在社區和商業應用上會有爆發式的增長。
5,國外一些大型互聯網公司已經部署了 Spark。甚至連 Hadoop 的早期主要貢獻者 Yahoo 現在也在多個項目中部署使用 Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用 Spark 技術用于自己的商業生產系統中,國內外的應用開始越來越廣泛。Spark 正在逐漸走向成熟,并在這個領域扮演更加重要的角色。
6,不得不提的是 Spark 的“One stack to rule them all”的特性,Spark 的特點之一就是用一個技術堆棧解決云計算大數據中流處理、圖技術、機器學習、交互式查詢、誤差查詢等所有的問題
7,Mahout 前一階段表示從現在起他們將不再接受任何形式的以 MapReduce 形式實現的算法,另外一方面,Mahout 宣布新的算法基于 Spark;
8,如果你已經使用了 Hadoop,就更加需要 Spark。Mahout 前一階段表示從現在起他們將不再接受任何形式的以 MapReduce 形式實現的算法,另外一方面,Mahout 宣布新的算法基于 Spark,同時,這幾年來,Hadoop 的改進基本停留在代碼層次,也就是修修補補的事情,這就導致了 Hadoop 現在具有深度的“技術債務”,負載累累;
8,,此時我們只需要一個技術團隊通過 Spark 就可以搞定一切問題,而如果基于 Hadoop 就需要分別構建實時流處理團隊、數據統計分析團隊、數據挖掘團隊等,而且這些團隊之間無論是代碼還是經驗都不可相互借鑒,會形成巨大的成本,而使用 Spark 就不存在這個問題;
9,百億美元市場,教授為之辭職,學生為止輟學,大勢所趨!
10,Life is short!
到此,關于“Spark 有哪些優點”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注丸趣 TV 網站,丸趣 TV 小編會繼續努力為大家帶來更多實用的文章!