并行計算和分布式計算_云計算分布式計算_經典的分布式計算模型

電腦雜談  發布時間:2017-02-02 14:27:04  來源:網絡整理

2016年11月18-20日SDCC 2016中國軟件開發者大會,阿里巴巴大數據計算平臺首席架構師林偉給我們帶來了“高可用的大數據計算平臺如何持續發布和演進”的演講。本文主要談及大數據系統如何做系統迭代,以及系統因為其沒有可能搭建對等的測試環境,需要進行測試方面的內容,更有測試需要的必要條件等等。

阿里巴巴大數據計算平臺需要每天不間斷的跑在上萬臺機器集群上,上面承擔阿里核心分析計算任務,有著很高的可靠性和SLA的要求,但是我們同時需要持續不斷提高系統的性能,降低成本,提供更來滿足日益增長的業務需求,這樣就要求持續不斷的升級正在服務的系統。如何能夠保證系統迭代中系統的高可用性對于阿里大數據計算平臺是個很大的挑戰。本次我們主要分享在計算平臺中發布迭代中挑戰和阿里在MaxCompute系統中的解決方案。

MaxCompute

MaxCompute(大數據計算服務)是一種快速、完全托管的PB/EB級數據倉庫解決方案,具備萬臺服務器擴展能力和跨地域容災能力,是阿里巴巴內部核心大數據平臺,支撐每日百萬級作業規模。MaxCompute向用戶提供了完善的數據導入方案以及多種經典的分布式計算模型,能夠更快速的解決用戶海量數據計算問題,有效降低企業成本,并保障數據安全。

整個系統存儲幾百個EP的數據,每天處理百萬級的任務量,具備上萬臺單集群,具有多集群跨地域的規模。我們內部有8000多個開發數據工程師,在這個平臺上進行數據開發,性能上我們做社區的兩倍,成本是Amazon的三分之一。

MaxCompute整體架構如圖所示,最下層為分布式的存儲系統和調度系統來統一的管理所有集群的資源,包括CPU、內存磁盤,在此上有一層執行引擎來支撐不同種的運算方式。我們提供統一的語言讓數據工程師能夠無縫的在多種計算方式進行整合,我們同時也提供兼容開源接口去對接外面現有的生態。

我們要把MaxCompute打造成一個數據計算的服務,而不是解決方案。所謂服務,首先需要提供統一的數倉,打通不用應用用戶中的數據訪問, 打破阿里內部各個部門的數據壁壘,使得所有的數據匯集到一點,可以去跨地跨部門訪問這些數據,讓數據在一起產生一些化學反應,從而把相關的數據關聯起來,挖掘出數據背后的價值;再者需要提供一個365(天)x24(時)的高可靠,高可用的,共享的大數據計算服務,以此來做到細粒度的統一的資源調度,使得各種業務之間能夠做到相互資源填補從而做到低成本,高使用效率;最后服務的方式能夠讓用戶從運維、監控中解放出來,把這些工作交給計算系統來完成,從而大大降低使用大數據計算服務的門檻。而相對應的解決方案,則僅僅提供大數據的計算系統的安裝包,用戶需要自己去找相應的資源拉起,需要自己搭建運維和監控系統,需要自己管理平臺升級等等工作。而這些用戶定義的集群(或者是虛擬機組成集群)往往是割裂的,并不能將各個用戶數據匯聚在一起進行更大范圍的計算。

MaxCompute持續改進和發布中的挑戰

MaxCompute需要是不間斷的服務,所以從高可用的角度,我們希望系統最好沒有更新,因為更新就有風險,這樣才能更好持續不斷的服務客戶,能夠提供給計算任務的用戶四個九甚至十個九的可靠性。但是我們業務是在不停的成長,對于計算平臺每天都會有新的需求,需要計算平臺跟著發展,同時業務的成長速度遠遠快于機器采購的系統,這也推動我們的系統一定要持續提高其核心性能,從而能夠去匹配業務的成長。因為以上兩個理由,逼著計算平臺需要持續不斷的去變更。經典的分布式計算模型更加困難是計算平臺有別于其他服務,其他服務基本上狠心節點是單機的,通過負載平衡等手段把某些流量切到新的機器上進行驗證即可,但是計算平臺跑的都是分布式的運算,有的任務需要用到是成千上萬臺機器,并且計算節點的耦合是比較緊密的,所以不能通過傳統的負載平衡等手段來驗證新版本。再者因為計算平臺管理上萬臺機器,壞的變更產生的破壞是巨大的。所以我們怎么才能做到穩定和變更的平衡呢,如何能夠控制變革的風險對于一個計算平臺的成功是非常重要的。經典的分布式計算模型


本文來自電腦雜談,轉載請注明本文網址:
http://www.rtcsln.tw/a/tongxinshuyu/article-30114-1.html

相關閱讀
發表評論  請自覺遵守互聯網相關的政策法規,嚴禁發布、暴力、反動的言論

熱點圖片
拼命載入中...
黑龙江快乐十分开奖直播