久久精品人人爽,华人av在线,亚洲性视频网站,欧美专区一二三

Data Lakehouse有哪些特性

共計(jì) 3056 個(gè)字符,預(yù)計(jì)需要花費(fèi) 8 分鐘才能閱讀完成。

這篇文章主要講解了“Data Lakehouse 有哪些特性”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著丸趣 TV 小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Data Lakehouse 有哪些特性”吧!

背景

數(shù)據(jù)湖(Data Lake),湖倉(cāng)一體(Data Lakehouse)儼然已經(jīng)成為了大數(shù)據(jù)領(lǐng)域最為火熱的流行詞,在接受這些流行詞洗禮的時(shí)候,身為技術(shù)人員我們往往會(huì)發(fā)出這樣的疑問(wèn),這是一種新的技術(shù)嗎,還是僅僅只是概念上的翻新(新瓶裝舊酒)呢?它到底解決了什么問(wèn)題,擁有什么樣新的特性呢?它的現(xiàn)狀是什么,還存在什么問(wèn)題呢?

帶著這些問(wèn)題,今天就從筆者的理解,為大家揭開(kāi) Data Lakehouse 的神秘面紗,來(lái)探一探起技術(shù)的本質(zhì)到底是什么?

Data Lakehouse(湖倉(cāng)一體)是新出現(xiàn)的一種數(shù)據(jù)架構(gòu),它同時(shí)吸收了數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖的優(yōu)勢(shì),數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家可以在同一個(gè)數(shù)據(jù)存儲(chǔ)中對(duì)數(shù)據(jù)進(jìn)行操作,同時(shí)它也能為公司進(jìn)行數(shù)據(jù)治理帶來(lái)更多的便利性。那么何為 Data Lakehouse 呢,它具備些什么特性呢?

Data Lakehouse 具備什么特性?

一直以來(lái),我們都在使用兩種數(shù)據(jù)存儲(chǔ)方式來(lái)架構(gòu)數(shù)據(jù):

?數(shù)據(jù)倉(cāng)庫(kù):數(shù)倉(cāng)這樣的一種數(shù)據(jù)存儲(chǔ)架構(gòu),它主要存儲(chǔ)的是以關(guān)系型數(shù)據(jù)庫(kù)組織起來(lái)的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)通過(guò)轉(zhuǎn)換、整合以及清理,并導(dǎo)入到目標(biāo)表中。在數(shù)倉(cāng)中,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)與其定義的 schema 是強(qiáng)匹配的。

?數(shù)據(jù)湖:數(shù)據(jù)湖這樣的一種數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),它可以存儲(chǔ)任何類型的數(shù)據(jù),包括像圖片、文檔這樣的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖通常更大,其存儲(chǔ)成本也更為廉價(jià)。存儲(chǔ)其中的數(shù)據(jù)不需要滿足特定的 schema,數(shù)據(jù)湖也不會(huì)嘗試去將特定的 schema 施行其上。相反的是,數(shù)據(jù)的擁有者通常會(huì)在讀取數(shù)據(jù)的時(shí)候解析 schema(schema-on-read),當(dāng)處理相應(yīng)的數(shù)據(jù)時(shí),將轉(zhuǎn)換施加其上。

現(xiàn)在許多的公司往往同時(shí)會(huì)搭建數(shù)倉(cāng)、數(shù)據(jù)湖這兩種存儲(chǔ)架構(gòu),一個(gè)大的數(shù)倉(cāng)和多個(gè)小的數(shù)據(jù)湖。這樣,數(shù)據(jù)在這兩種存儲(chǔ)中就會(huì)有一定的冗余。

Data Lakehouse 的出現(xiàn)試圖去融合數(shù)倉(cāng)和數(shù)據(jù)湖這兩者之間的差異,通過(guò)將數(shù)倉(cāng)構(gòu)建在數(shù)據(jù)湖上,使得存儲(chǔ)變得更為廉價(jià)和彈性,同時(shí) lakehouse 能夠有效地提升數(shù)據(jù)質(zhì)量,減小數(shù)據(jù)冗余。在 lakehouse 的構(gòu)建中,ETL 起了非常重要的作用,它能夠?qū)⑽唇?jīng)規(guī)整的數(shù)據(jù)湖層數(shù)據(jù)轉(zhuǎn)換成數(shù)倉(cāng)層結(jié)構(gòu)化的數(shù)據(jù)。

Data Lakehouse 概念是由 Databricks 在此文 [1] 中提出的,在提出概念的同時(shí),也列出了如下一些特性:

?事務(wù)支持:Lakehouse 可以處理多條不同的數(shù)據(jù)管道。這意味著它可以在不破壞數(shù)據(jù)完整性的前提下支持并發(fā)的讀寫事務(wù)。

?Schemas:數(shù)倉(cāng)會(huì)在所有存儲(chǔ)其上的數(shù)據(jù)上施加 Schema,而數(shù)據(jù)湖則不會(huì)。Lakehouse 的架構(gòu)可以根據(jù)應(yīng)用的需求為絕大多數(shù)的數(shù)據(jù)施加 schema,使其標(biāo)準(zhǔn)化。

? 報(bào)表以及分析應(yīng)用的支持:報(bào)表和分析應(yīng)用都可以使用這一存儲(chǔ)架構(gòu)。Lakehouse 里面所保存的數(shù)據(jù)經(jīng)過(guò)了清理和整合的過(guò)程,它可以用來(lái)加速分析。同時(shí)相比于數(shù)倉(cāng),它能夠保存更多的數(shù)據(jù),數(shù)據(jù)的時(shí)效性也會(huì)更高,能顯著提升報(bào)表的質(zhì)量。

?數(shù)據(jù)類型擴(kuò)展:數(shù)倉(cāng)僅可以支持結(jié)構(gòu)化數(shù)據(jù),而 Lakehouse 的結(jié)構(gòu)可以支持更多不同類型的數(shù)據(jù),包括文件、視頻、音頻和系統(tǒng)日志。?端到端的流式支持:Lakehouse 可以支持流式分析,從而能夠滿足實(shí)時(shí)報(bào)表的需求,實(shí)時(shí)報(bào)表在現(xiàn)在越來(lái)越多的企業(yè)中重要性在逐漸提高。

?計(jì)算存儲(chǔ)分離:我們往往使用低成本硬件和集群化架構(gòu)來(lái)實(shí)現(xiàn)數(shù)據(jù)湖,這樣的架構(gòu)提供了非常廉價(jià)的分離式存儲(chǔ)。Lakehouse 是構(gòu)建在數(shù)據(jù)湖之上的,因此自然也采用了存算分離的架構(gòu),數(shù)據(jù)存儲(chǔ)在一個(gè)集群中,而在另一個(gè)集群中進(jìn)行處理。

?開(kāi)放性:Lakehouse 在其構(gòu)建中通常會(huì)使 Iceberg,Hudi,Delta Lake 等構(gòu)建組件,首先這些組件是開(kāi)源開(kāi)放的,其次這些組件采用了 Parquet,ORC 這樣開(kāi)放兼容的存儲(chǔ)格式作為下層的數(shù)據(jù)存儲(chǔ)格式,因此不同的引擎,不同的語(yǔ)言都可以在 Lakehouse 上進(jìn)行操作。

Lakehouse 的概念最早是由 Databricks 所提出的,而其他的類似的產(chǎn)品有 Azure Synapse Analytics。Lakehouse 技術(shù)仍然在發(fā)展中,因此上面所述的這些特性也會(huì)被不斷的修訂和改進(jìn)。

Data lakehouse 解決了什么問(wèn)題

那說(shuō)完了 Data Lakehouse 的特性,它到底解決了什么問(wèn)題呢?

這些年來(lái),在許多的公司里,數(shù)倉(cāng)和數(shù)據(jù)湖一直并存且各自發(fā)展著,也沒(méi)有遇到過(guò)太過(guò)嚴(yán)重的問(wèn)題。但是仍有一些領(lǐng)域有值得進(jìn)步的空間,比如:

?數(shù)據(jù)重復(fù)性:如果一個(gè)組織同時(shí)維護(hù)了一個(gè)數(shù)據(jù)湖和多個(gè)數(shù)倉(cāng),這無(wú)疑會(huì)帶來(lái)數(shù)據(jù)冗余。在最好的情況下,這僅僅只會(huì)帶來(lái)數(shù)據(jù)處理的不高效,但是在最差的情況下,它會(huì)導(dǎo)致數(shù)據(jù)不一致的情況出現(xiàn)。Data Lakehouse 統(tǒng)一了一切,它去除了數(shù)據(jù)的重復(fù)性,真正做到了 Single Version of Truth。

?高存儲(chǔ)成本:數(shù)倉(cāng)和數(shù)據(jù)湖都是為了降低數(shù)據(jù)存儲(chǔ)的成本。數(shù)倉(cāng)往往是通過(guò)降低冗余,以及整合異構(gòu)的數(shù)據(jù)源來(lái)做到降低成本。而數(shù)據(jù)湖則往往使用大數(shù)據(jù)文件系統(tǒng)(譬如 Hadoop HDFS)和 Spark 在廉價(jià)的硬件上存儲(chǔ)計(jì)算數(shù)據(jù)。而最為廉價(jià)的方式是結(jié)合這些技術(shù)來(lái)降低成本,這就是現(xiàn)在 Lakehouse 架構(gòu)的目標(biāo)。

?報(bào)表和分析應(yīng)用之間的差異:報(bào)表分析師們通常傾向于使用整合后的數(shù)據(jù),比如數(shù)倉(cāng)或是數(shù)據(jù)集市。而數(shù)據(jù)科學(xué)家則更傾向于同數(shù)據(jù)湖打交道,使用各種分析技術(shù)來(lái)處理未經(jīng)加工的數(shù)據(jù)。在一個(gè)組織內(nèi),往往這兩個(gè)團(tuán)隊(duì)之間沒(méi)有太多的交集,但實(shí)際上他們之間的工作又有一定的重復(fù)和矛盾。而當(dāng)使用 Data Lakehouse 后,兩個(gè)團(tuán)隊(duì)可以在同一數(shù)據(jù)架構(gòu)上進(jìn)行工作,避免不必要的重復(fù)。

?數(shù)據(jù)停滯(Data stagnation):在數(shù)據(jù)湖中,數(shù)據(jù)停滯是一個(gè)最為嚴(yán)重的問(wèn)題,如果數(shù)據(jù)一直無(wú)人治理,那將很快變?yōu)閿?shù)據(jù)沼澤。我們往往輕易的將數(shù)據(jù)丟入湖中,但缺乏有效的治理,長(zhǎng)此以往,數(shù)據(jù)的時(shí)效性變得越來(lái)越難追溯。Lakehouse 的引入,對(duì)于海量數(shù)據(jù)進(jìn)行 catalog,能夠更有效地幫助提升分析數(shù)據(jù)的時(shí)效性。

?潛在不兼容性帶來(lái)的風(fēng)險(xiǎn):數(shù)據(jù)分析仍是一門興起的技術(shù),新的工具和技術(shù)每年仍在不停地出現(xiàn)中。一些技術(shù)可能只和數(shù)據(jù)湖兼容,而另一些則又可能只和數(shù)倉(cāng)兼容。Lakehouse 靈活的架構(gòu)意味著公司可以為未來(lái)做兩方面的準(zhǔn)備。

Data Lakehouse 存在的問(wèn)題

現(xiàn)有的 Lakehouse 架構(gòu)仍存在著一些問(wèn)題,其中最為顯著的是:

?大一統(tǒng)的架構(gòu):Lakehouse 大一統(tǒng)的架構(gòu)有許多的有點(diǎn),但也會(huì)引入一些問(wèn)題。通常,大一統(tǒng)的架構(gòu)缺乏靈活性,難于維護(hù),同時(shí)難以滿足所有用戶的需求,架構(gòu)師通常更傾向于使用多模的架構(gòu),為不同的場(chǎng)景定制不同的范式。

?并非現(xiàn)有架構(gòu)上本質(zhì)的改進(jìn):現(xiàn)在對(duì)于 Lakehouse 是否真的能夠帶來(lái)額外的價(jià)值仍存在疑問(wèn)。同時(shí),也有不同的意見(jiàn) – 將現(xiàn)有的數(shù)倉(cāng)、數(shù)據(jù)湖結(jié)構(gòu)與合適的工具結(jié)合 – 是否會(huì)帶來(lái)類似的效率呢?

?技術(shù)尚未成熟:Lakehouse 技術(shù)當(dāng)前尚未成熟,在達(dá)到上文所提的能力之前仍有較長(zhǎng)的路要走。

感謝各位的閱讀,以上就是“Data Lakehouse 有哪些特性”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì) Data Lakehouse 有哪些特性這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是丸趣 TV,丸趣 TV 小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!

正文完
 
丸趣
版權(quán)聲明:本站原創(chuàng)文章,由 丸趣 2023-08-04發(fā)表,共計(jì)3056字。
轉(zhuǎn)載說(shuō)明:除特殊說(shuō)明外本站除技術(shù)相關(guān)以外文章皆由網(wǎng)絡(luò)搜集發(fā)布,轉(zhuǎn)載請(qǐng)注明出處。
評(píng)論(沒(méi)有評(píng)論)
主站蜘蛛池模板: 祥云县| 兰考县| 凤山市| 长乐市| 谢通门县| 连州市| 大余县| 张北县| 宁夏| 紫云| 祥云县| 行唐县| 泸溪县| 呼玛县| 绵阳市| 鄄城县| 望都县| 鲁山县| 曲水县| 喀喇| 濉溪县| 宜都市| 花莲市| 长海县| 淅川县| 太白县| 孝义市| 扬州市| 浦北县| 桐梓县| 长白| 白朗县| 林周县| 延津县| 兴国县| 抚松县| 天水市| 甘孜县| 东山县| 晋州市| 岫岩|