十幾年前,我們就知道數字化進程的一大阻礙就是數據孤島(Data Silo),其嚴重制約了企業的智能化和創新能力,并以幾何級數提高了企業利用數據的門檻和成本,一直以來都是企業信息化部門最頭痛的頑疾之一。
然而,隨著云計算、軟件應用和數據庫的蓬勃發展,非但沒有使這個頑疾得到緩解,反而變得愈發嚴重。為了解決這個問題,在過去數年中,IT 從業者做了多種嘗試。
打破數據孤島的三種嘗試
第一種,簡單粗暴地投入最強硬件,搭載一款數據庫支持所有軟件應用。
目前,這種方式已經越來越少見了,因為純硬件的縱向擴展能力是有限的,而軟件應用的組合和變化是無窮的,大部分客戶無法負擔成本變成了最主要的阻礙。
第二種,整合多種集中式和分布式數據庫系統,使用統一界面給數據和應用開發者提供各種能力和服務,并隱藏其底層管理運維的復雜度,這種方式常常被稱作“數據中臺”和“數據底座”。
基于過往多年的實踐,雖然證明這種形式在某些領域和客戶群體中是有其價值的,但在某些場景下便會出現局限性:一方面,當后臺需要整合的數據庫系統過多,又或者前臺的應用變化過快、過于復雜時,它的運維、管理和開發成本增長會陷入失控,且相比第一種方案會帶來數據實時處理性能的瓶頸;另一方面,當用戶需求相對較小和簡單時,使用這種方案又會過于臃腫和復雜,投入產出不成正比。
第三種,一些成熟的數據庫廠商退而求其次,如果不能一蹴而就地整合這么多數據庫系統,那么可以嘗試在現有成熟數據庫系統中添加新的能力,來減輕一小部分數據煙囪帶來的痛苦。
湖倉一體、批流融合、HTAP 等都是這種思路下的產物,但融合的挑戰也是巨大的。拿 HTAP 舉例,由于 TP 和 AP 數據庫在過去默認就是服務兩個不同的應用團隊,由不同的數據庫管理團隊來維護,因此對安全性、資源共享和性能隔離等都有各自的需求。當融合在一起的時候,想要性能完全隔離,就應該使用完全獨立的計算和存儲資源;想要資源利用最大化,就應該使用共享計算和存儲資源;同時想要獲得更低的處理時延,就應該只存一份數據;想要各自都有讀寫極致性能,就應該存多份數據...... 這里有太多矛盾的技術點,要想找到平衡點來解決上述提到的技術矛盾是一件不容易的事情。
2022云原生數據庫廠商的演進方向
當然第三種嘗試還有很多其他類型的方案,這里就不一一列舉了。在 2022 年,我們也注意到有眾多云原生數據庫廠商在朝著這個方向演進:
Snowflake 在其年度用戶大會 Snowflake Summit 2022 上,宣布推出 Unistore 存儲引擎,使得用戶在 Snowflake 平臺上運行 OLAP 的同時也可以確保數據的完整性和一致性,而這是 OLTP 的核心特性之一。
在 2022 re:Invent 大會中,亞馬遜云科技發布了一個新服務——“Zero ETL”,其在后臺打通了 Aurora 數據庫和 Redshift 數據倉庫。用戶無需自己開發 ETL,就可以輕松地進行數據分析和機器學習,這更像是數據中臺和 HTAP 的結合體。
最近剛剛完成 F 輪融資的 SingleStore,也號稱其數據庫系統能在云上通過結合事務和分析工作負載,消除了性能瓶頸和數據移動,以支持數據密集要求苛刻的工作負載。
國內初創公司矩陣起源提出的“HSTAP”更為徹底, 將 HTAP 進行了重新定義,融入了串聯 AP 和 TP 的 Streaming 能力,并完全重新開發了一款云原生的融合性數據庫。目標是讓企業只用一款數據庫,就能覆蓋大中小應用系統的的 TP 和 AP 需求,并能用最高性價比的方式建設好數據中臺。
矩陣起源的HSTAP
如何讓企業只用一款數據庫?
由矩陣起源打造的新一代超融合異構云原生數據庫 MatrixOne,借助于全新設計和研發的統一分布式計算和存儲框架,能夠使數據數據庫同時具備 TP、AP和Streaming三種能力,幫助客戶徹底打破數據孤島問題,成為企業智能化核心的數據基礎設施。得益于這一創新的架構設計,用戶可以在公有云、私有云、數據中心和邊緣節點上部署和使用MatrixOne。
秉承“One Size Fits Most”的產品理念,MatrixOne將運維工作簡化到極致,使得數據應用開發變得極為簡捷,同時也保證了數據處理的極致性能。當前,MatrixOne在0.6迭代中完成了云原生化的全面升級,幫助用戶釋放數據的潛力和創新力(Store Anywhere, Compute Anywhere, Innovate Anywhere)。
免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。