久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

大數據中五種開源處理技術分別是什么

187次閱讀
沒有評論

共計 3514 個字符,預計需要花費 9 分鐘才能閱讀完成。

大數據中五種開源處理技術分別是什么,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

你知道么,在現在的市場上超過 25 萬個開源技術出現了。圍繞在我們身邊,這些越來越復雜的系統,就像我們看到的這樣,看如下圖表:

在最少選擇的情況下我們還是有很多選擇的機會。哪些是你的目標? 哪些是 2000 家公司接下來的財富? 哪些項目是可以在真正的產品階段使用的作為可靠的候選? 哪些應該受到特別關注呢? 我們做了詳細的研究和測試,讓我們一起看下 5 種新的撼動大數據的技術。這些是整理的幾組新的工具,讓我們一起來看看吧。

Storm 和 Kafka 是未來數據流處理的主要方式,它們已經在一些大公司中使用率餓,包括 Groupon, 阿里巴巴和 The Weather Channel 等。Storm, 誕生于 Twitter, 是一個分布式實時計算系統。Storm 設計用于處理實時計算,hadoop 主要用于處理批處理運算。

kafka 是由 LinkedIn 研發的一款消息系統作為一個數據處理的管道基礎部分存在于系統中。當你一起使用它們,你就能實時地和線性遞增的獲取數據。

你為什么需要關心?

使用 Storm 和 Kafka, 使得數據流處理線性的,確保每條消息獲取都是實時的,可靠的。前后布置的 Storm 和 Kafka 能每秒流暢的處理 10000 條數據。

像 Storm 和 Kafka 這樣的數據流處理方案使得很多企業引起關注并想達到優秀的 ETL(抽取轉換裝載)的數據集成方案。Storm 和 Kafka 也很擅長內存分析和實時決策支持。企業使用批量處理的 Hadoop 方案無法也難怪對實時的業務需求。在企業的大數據解決方案中實時數據流處理是一個必要的模塊,因為它很優美的處理了“3v”ndash;volume,velocity 和 variety (容量,速率和多樣性)。Storm 和 Kafka 這 2 種技術是我們 (infochimps) 最推薦的技術,它們也將作為一個正式組成部分存在于我們的平臺中。Drill 和 Dremel 實現了快速低負載的大規模,即席查詢數據搜索。它們提供了秒級搜索 P 級別數據的可能,來應對即席查詢和預測,及提供強大的虛擬化支持。

Drill 和 Dremel 提供強大的業務處理能力,不僅僅只是為數據工程師提供。業務端的大家都將喜歡 Drill 和 Dremel.Drill 是 Google 的 Dremel 的開源版本。Dremel 是 Google 提供的支持大數據查詢的技術。公司將用它來開發自己的工具,這些是導致大家都密切的關注 Drill 的原因。雖然這些不是起步,但是開源社區強烈的興趣使得它變得更成熟。

為什么你應該關心?

Drill 和 Dremel 相比 Hadoop 更好的分析即席查詢。Hadoop 僅僅提供批量的數據處理工作流,這些也是缺點。

Hadoop 生態圈使得 MapReduce 作為一個很親切有利的工具應用于廣告分析。從 Sawzall 到 Pig 到 Hive, 很多接口層應用的建立使得 Hadoop 更為友好,更接近業務,但是,像 SQL 體系,這些抽象層忽略一個重要的事實 ndash;MapReduce(或 Hadoop)是為了系統化數據處理流程而存在的。如果你不擔心跑的哪些任務? 如果你不關心這些產生的問題和去尋求答案,那就保持沉默, 保持洞察力。“即席探索”mdash; 如果你已經承擔數據處理,你這么優化處理的速度? 你不應該運行一個新的任務或者是等待,有時候考慮的時間還不如在問個新的問題。

在堆對比的工作流基礎的方法論中,很多業務驅動的 BI 和分析查詢都是很基本的和臨時交互的,低延時分析。寫 Map/Reduce 工作流在很多業務分析中是被禁止的。等待幾分鐘等 Jobs 啟動,在等幾個小時等執行完成這些無溢于數據的交互體驗,這些對比,和縮放比較最終產生了基本的新的視野。一些數據科學家早已經推測 Drill 和 Dremel 將優于 Hadoop,并達成共識,也有一些還在考慮中,還有少部分的狂熱者立即擁抱變化,但是這些是主要的優點在更面向查詢的和低延時的情況下。在 Infochimps 我們喜歡使用 Elasticsearch 全文索引引擎來實現數據庫的數據搜索,但是真的在大數據處理中我們認為 Drill 將成為主流。

R 是開源的強大的統計編程語言。自 1997 年以來,超過 200 萬的統計分析師使用 R。這是一門誕生自貝爾實驗室的在統計計算領域的現代版的 S 語言并迅速地成為了新的標準的統計語言。R 使得復雜的數據科學變得更廉價。R 是 SAS 和 SPASS 的重要的領頭者,并作為 *** 秀的統計師的重要工具。

為什么你應該關心?

因為它有一個非凡強大的社區在支持著,你可以找到所有的 R 的類庫,創建虛擬的各類型的科學數據而不用新寫代碼。R 之所以令人興奮是因為維護他的人和新的每天的創造。R 社區是大數據領域令人興奮的地方之一。R 在大數據領域是一個超棒的不會過時的技術。在最近的幾個月里,幾千個新特性被日益公開的知識基礎為主的分析類型的分析師們介紹. 而且,R 和 Hadoop 協同的很好,作為一個大數據的處理的部分已經被證明了。保持關注:Julia,是一個有趣的 R 的替代者,因為它不喜歡 R 的死慢死慢的解釋器。Julia 的社區雖然不怎么強大現在,但是如果你不是立即使用它的話,還是可以等等的。Gremlin 和 Giraph 幫助增強圖形分析,并在圖數據庫像 Neo4j 和 InfiniteGraph 中被使用,和與 Hadoop 協同工作的 Giraph 中被使用。Golden Orb 是另一個高層面的流處理的圖基礎的項目的例子。可以看看。圖數據庫是富有魅力的邊緣化的數據庫。它們和關系型數據庫相比,有著很多有趣的不同點,這個是當你在開始的時候總是想用圖理論而不是關系型理論。

另一個類似的圖基礎的理論是 Google 的 Pregel, 相比來說 Gremlin 和 Giraph 是其的開源替代。實際上,這些都是 Google 技術的山寨實現的例子。圖在計算網絡建模和社會化網絡方面發揮著重要作用,能夠連接任意的數據。另外一個經常的應用是映射和地理信息計算。從 A 到 B 的地點,計算最短的距離。圖在生物計算和物理計算領域也有廣泛的應用,例如,他們能繪制不尋常的分子結構。海量的圖,圖數據庫和分析語言和框架都是一種現實世界上實現大數據中的一部分。圖基礎的理論是一個殺手級的應用,為什么這么說? 任何一個解決大型網絡節點問題,都是通過節點和節點之間的路徑來處理的。很多富有創造力的科學家和工程師們,都很明白的用正確的工具來解決對應的問題。確保他們都能運行的漂亮并能被廣泛傳播。

SAP Hana 是一個全內存的分析平臺,它包含了一個內存數據庫和一些相關的工具軟件用來創建分析流程和規范正確的格式來進行數據的輸入輸出。

為什么應該關心?

SAP 開始反對為固化的企業用戶提高強大的產品,供開發免費使用。這個不僅僅是 SAP 開始為初創著想,讓其使用 Hana。他們授權培養社區解決方案,這些不尋常的做法是圍繞 Hana 的結果。

Hana 假設其他的程序處理時候還不夠快的解決遇到的問題,例如,金融建模和決策支持,網站個性化和欺騙檢測等等。Hana*** 的缺點是”全內存“這意味著訪問軟狀態的內存,這個是很明確的有點,但是這個也是相比磁盤存儲來說很昂貴的部分。據組織者說,不用擔心操作成本,Hana 是快速的地延遲的大數據處理工具。

D3 本來不在列表中,但是它的親切感,讓我們認為有提它的價值。D3 是一個 javascript 面向文檔的可視化的類庫,。它強大的創新性的讓我們能直接看到信息和讓我們進行正常的交互。它的作者是 Michael Bostock 一個紐約時報的圖形界面設計師。例如,你可以使用 D3 來從任意數量的數組中創建 H trade;l 表格。你能使用任意的數據來創建交互進度條等。這里是一個 D3 的實際例子,創建 2013 年奧巴馬的民意情況。使用 D3,程序員能之間創建界面,組織所有的各種類型的數據。

雖然這篇文章不長,但是也費了我一段實際來翻譯,翻譯不足之處希望大家指正。其實看到這篇文章的時候,我就很想把它分享給喜歡它的人,得益于一個開放的環境,所以美國在 IT 領域總是這么的讓人驚喜,當然我們也得跟上了。

開始正式的使用 Hadoop 已經有近一年的時間的了,這期間從百度出來,到初見在到現在的 BitWare,在不同的公司,用不同的技術解決問題。但是本質上遇到的問題總是那么幾個,當然現在很多公司也開始嘗鮮的使用 Hadoop 的了。這個是大環境是如此,可以理解。

看完上述內容,你們掌握大數據中五種開源處理技術分別是什么的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注丸趣 TV 行業資訊頻道,感謝各位的閱讀!

正文完
 
丸趣
版權聲明:本站原創文章,由 丸趣 2023-07-19發表,共計3514字。
轉載說明:除特殊說明外本站除技術相關以外文章皆由網絡搜集發布,轉載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 静安区| 民乐县| 汤阴县| 宁德市| 花莲县| 商水县| 乳源| 天津市| 福清市| 安新县| 乌鲁木齐县| 阳原县| 惠州市| 长葛市| 阳曲县| 内乡县| 玛纳斯县| 宝兴县| 平山县| 中江县| 乐都县| 长丰县| 夏津县| 临沧市| 阿拉尔市| 北安市| 天峨县| 乐山市| 玉屏| 区。| 文水县| 江都市| 阜城县| 贞丰县| 琼海市| 武义县| 承德县| 华蓥市| 昌图县| 金阳县| 抚松县|