久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

基于openLooKeng的交互式分析是怎樣的

193次閱讀
沒有評論

共計 2055 個字符,預計需要花費 6 分鐘才能閱讀完成。

本篇文章給大家分享的是有關基于 openLooKeng 的交互式分析是怎樣的,丸趣 TV 小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著丸趣 TV 小編一起來看看吧。

在這個“信息爆炸”的時代,大數據已經成為這個時代的關鍵詞之一!隨著云計算、物聯網、移動計算、智慧城市、人工智能等領域日新月異的發展,人類社會已經步入了“信息高速路”的行駛軌道,數據量增長迅速,各類應用對大數據處理的需求也發生著變化。

與此同時,“久經沙場”的數據倉庫不再一統江湖,而以實時分析、離線分析、交互式分析等為代表的計算引擎勢頭迅猛。

華為云 3 年前發布的 Serverless 大數據分析服務 – 數據湖探索 DLI,經過這幾年的迭代升級,已經包含用于實時分析的 Flink 引擎,用于離線分析的 Spark 引擎。今年基于華為開源 openLooKeng 引擎的交互式分析功能,也將于 Q4 重磅發布,便于用戶構建輕量級流、批、交互式全場景數據湖。

openLooKeng 使用了業界著名的開源 SQL 引擎 Presto 來提供交互式查詢分析基礎能力,并繼續在融合場景查詢、跨數據中心 / 云、數據源擴展、性能、可靠性、安全性等方面發展,讓數據治理、使用更簡單。

關鍵特性 1. 毫秒級查詢性能

DLI 使用的 openLooKeng 引擎在內存計算框架的基礎上,還利用許多查詢優化技術來滿足高性能毫秒級的交互式分析的需要。

1.1 索引

openLooKeng 提供基于 Bitmap Index、Bloom Filter 以及 Min-max Index 等索引。通過在現有數據上創建索引,并且把索引結果存儲在數據源外部,在查詢計劃編排時便利用索引信息過濾掉不匹配的文件,減少需要讀取的數據規模,從而加速查詢過程。

1.2 Cache

openLooKeng 提供豐富多樣的 Cache,包括元數據 cache、執行計劃 cache、ORC 行數據 cache 等。通過這些多樣的 cache,可加速用戶多次對同一 SQL 或者同一類型 SQL 的查詢時延響應。

1.3 動態過濾

所謂的動態過濾是指是在運行時(run time)將 join 一側表的過濾信息的結果應用到另一側表的過濾器的優化方法,openLooKeng 不僅提供了多種數據源的動態過濾優化特性,還將這一優化特性應用到了 DataCenter Connector,從而加速不同場景關聯查詢的性能。

1.4 算子下推

openLooKeng 通過 Connector 框架連接到 RDBMS 等數據源時,由于 RDBMS 具有較強的計算能力,一般情況下將算子下推到數據源進行計算可以獲取到更好的性能。openLooKeng 目前支持多種數據源的算子下推,包括 Oracle、HANA 等,特別地,針對 DC Connector 也實現了算子下推,從而實現了更快的查詢時延響應。

2. 高可用

2.1 HA AA 雙活

openLooKeng 引入了高可用的 AA 特性,支持 coordinator AA 雙活機制,能夠保持多個 coordinator 之間的負載均衡,同時也保證了 openLooKeng 在高并發下的可用性。

2.2 Auto-scaling

openLooKeng 的彈性伸縮特性支持將正在執行任務的服務節點平穩退服,同時也能將處于不活躍狀態的節點拉起并接受新的任務。openLooKeng 通過提供“已隔離”與“隔離中”等狀態接口供外部資源管理者(如 Yarn、Kubernetes 等)調用,從而實現對 coordinator 和 worker 節點的彈性擴縮容。

3. 融合場景

實時分析、離線分析、交互式分析這三種場景中在很多實際業務中都是同時存在的,DLI 引入 openLooKeng 引擎之初就考慮了如何跟已有的 Spark 引擎進行元數據層面的互通,從而實現離線分析結果,免數據搬遷直接就可以用 openLooKeng 引擎進行交互式分析。Spark 和 openLooKeng 都支持 Hive 的建表方式,通過這種方式,實現了元數據層面的互通。

4. 統一目錄,跨域跨 DC 查詢

DLI 老用戶使用比較多的功能是跨多種數據源的聯合查詢,用于更全面地對數據進行關聯分析,釋放數據價值。這次引入 openLooKeng 引擎將跨源查詢的能力進一步延伸,開發了跨域跨 DC 查詢的 DataCenter Connector。通過這個新 Connector 可以連接到遠端另外的 openLooKeng 集群,從而提供在不同數據中心間協同計算的能力。其中的關鍵技術如下:

4.1 并行數據訪問

worker 可以并發訪問數據源以提高訪問效率,客戶端也可以并發從服務端獲取數據以加快數據獲取速度。

4.2 數據壓縮

在數據傳輸期間進行序列化之前,先使用 GZIP 壓縮算法對數據進行壓縮,以減少通過網絡傳輸的數據量。

4.3 跨 DC 動態過濾

過濾數據以減少從遠端提取的數據量,從而確保網絡穩定性并提高查詢效率。

以上就是基于 openLooKeng 的交互式分析是怎樣的,丸趣 TV 小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注丸趣 TV 行業資訊頻道。

正文完
 
丸趣
版權聲明:本站原創文章,由 丸趣 2023-08-16發表,共計2055字。
轉載說明:除特殊說明外本站除技術相關以外文章皆由網絡搜集發布,轉載請注明出處。
評論(沒有評論)
主站蜘蛛池模板: 肇源县| 永嘉县| 惠来县| 天柱县| 镇江市| 罗山县| 土默特左旗| 云林县| 景宁| 那曲县| 淳化县| 乃东县| 合水县| 柳州市| 邵武市| 黄大仙区| 孟村| 青阳县| 酉阳| 金溪县| 馆陶县| 南平市| 峨边| 木里| 克山县| 荣成市| 惠水县| 留坝县| 海兴县| 龙南县| 伊川县| 日照市| 上饶县| 松阳县| 兖州市| 通化县| 包头市| 高邑县| 蒲城县| 武汉市| 萝北县|