云未來、新可能 - 綠色、無處不在、可信的計算
發(fā)布時間:2021-12-13 點擊數(shù):747
2021 年 12 月 9 日至 10 日,KubeCon + CloudNativeCon + OpenSourceSummit China 2021 在線上舉辦。阿里云資深技術(shù)專家、容器服務(wù)研發(fā)負責(zé)人易立在大會主論壇進行了主題為 “云未來,新可能” 的演講,分享了阿里云基于大規(guī)模云原生實踐下的技術(shù)趨勢判斷和技術(shù)創(chuàng)新進展。
01云原生 - 數(shù)字經(jīng)濟技術(shù)創(chuàng)新基石
Cloud Native
2020 年以來,新冠疫情改變了全球經(jīng)濟的運行與人們的生活。數(shù)字化的生產(chǎn)與生活方式成為后疫情時代的新常態(tài)。今天,云計算已經(jīng)成為社會的數(shù)字經(jīng)濟基礎(chǔ)設(shè)施,而云原生技術(shù)正在深刻地改變企業(yè)上云和用云的方式。
阿里云對云原生的定義是應(yīng)云而生的軟件、硬件和架構(gòu),幫助企業(yè)最大化獲得云價值。具體來說,云原生技術(shù)給企業(yè)帶來 3 個核心的業(yè)務(wù)價值:
1. 敏捷高效 - 更好支持 DevOps 提升應(yīng)用研發(fā)和交付效率,提升彈性和資源利用率。幫助企業(yè)可以更好應(yīng)對環(huán)境變化,降低計算成本。
2. 加強韌性 - 利用容器技術(shù)可以簡化業(yè)務(wù)上云,更好支撐微服務(wù)應(yīng)用架構(gòu);進一步加強 IT 企業(yè)基礎(chǔ)設(shè)施和應(yīng)用架構(gòu)韌性,保障企業(yè)業(yè)務(wù)連續(xù)性。
3. 融合創(chuàng)新 - 5G,AIoT,AR/VR 等新技術(shù)快速發(fā)展,云原生技術(shù)讓計算無處不在,可以更好地支持的新的融合計算形態(tài)。
如果說云原生代表了云計算的今天,那么云計算的未來會是什么樣?
云未來,新可能
Cloud Native
數(shù)據(jù)中心作為數(shù)字經(jīng)濟的動力引擎,其能耗增長已成為云計算發(fā)展中不可忽略的問題。據(jù)報道,2020 年數(shù)據(jù)中心耗電量超過國內(nèi)總用電量的 2.3%。而且占比將逐年增加。阿里云在身體力行地推動綠色計算,比如利用浸沒式液冷服務(wù)器來降低數(shù)據(jù)中心 PUE。除此之外,我們看到數(shù)據(jù)中心的計算效率也有很大提升空間,據(jù)統(tǒng)計,全球數(shù)據(jù)中心的平均資源利用率不到 20%,這是巨大資源和能源浪費。
而云計算的本質(zhì),就是把離散的算力,聚合成更大的資源池,通過優(yōu)化的資源調(diào)度,充分削峰填谷,提供極致的能效比。
1
新一代統(tǒng)一資源調(diào)度助力綠色計算
在阿里集團實現(xiàn)了全面上云之后,我們啟動了一個新的計劃——利用云原生技術(shù),對阿里集團分布在全球數(shù)十個地域的數(shù)千萬核的服務(wù)器資源,進行統(tǒng)一資源調(diào)度,全面提升利用率。通過阿里集團、阿里云眾多團隊的努力,今年雙 11,統(tǒng)一調(diào)度項目交出了一份閃亮的答卷!
基于 Kubernetes 和阿里自研的統(tǒng)一調(diào)度器 Cybernetes,通過一套調(diào)度協(xié)議、一套系統(tǒng)架構(gòu),對底層的計算資源進行智能化調(diào)度,向上支撐多種工作負載的混合部署,在保障應(yīng)用 SLO 的前提下,提升資源利用率。讓電商的微服務(wù)、中間件等應(yīng)用,搜推廣、MaxCompute 的大數(shù)據(jù)和 AI 業(yè)務(wù),全部運行在統(tǒng)一的容器平臺基礎(chǔ)之上。為阿里集團每年可以減少數(shù)萬臺服務(wù)器算力的采購,帶來數(shù)以億計的資源成本優(yōu)化。
其中單集群規(guī)模超過上萬節(jié)點、百萬核。任務(wù)調(diào)度效率達到每秒 2 萬個,滿足搜索、大數(shù)據(jù)、AI 等高吞吐、低延遲業(yè)務(wù)調(diào)度編排需求,性能卓越。統(tǒng)一調(diào)度幫助阿里雙 11 大促成本降低 50%,生產(chǎn)環(huán)境常態(tài)化 CPU 利用率 65%。
2
云原生 “Green AI” 應(yīng)對 AI 大模型訓(xùn)練的挑戰(zhàn)
大家熟知的 GPT-3,擁有千億級參數(shù),在某些自然語言理解領(lǐng)域可以實現(xiàn)比肩人類的處理能力。阿里巴巴達摩院最新發(fā)布的超大規(guī)模預(yù)訓(xùn)練模型 M6 已經(jīng)進入了 10 萬億參數(shù)時代。M6 擁有多模態(tài)的中文任務(wù)處理能力,尤其擅長設(shè)計、寫作、問答,在電商、服裝、科學(xué)研究等領(lǐng)域有廣泛應(yīng)用前景。
Kubernetes 對深度學(xué)習(xí)任務(wù)的支持已經(jīng)逐漸成熟。然而,超大規(guī)模模型訓(xùn)練依然面臨著嚴峻的挑戰(zhàn)。萬億級參數(shù)模型訓(xùn)練,動輒需要數(shù)千張 GPU、數(shù)十 T 顯存的計算資源,花費數(shù)十天才能完成訓(xùn)練。
為了應(yīng)對這些挑戰(zhàn),Cybernetes 在原生 Kubernetes 基礎(chǔ)之?dāng)U展了面向大規(guī)模 AI 任務(wù)調(diào)度能力。通過高效的異構(gòu)算力調(diào)度,數(shù)據(jù)感知和訪問加速,有效提升了 GPU 計算效率;通過錯峰調(diào)度,充分利用集群空閑資源。支撐了云原生的 PAI-Whale 框架高效的并行模型訓(xùn)練。
M6 最終實現(xiàn)了僅用 512 張 GPU,在 10 天內(nèi)可訓(xùn)練出十萬億規(guī)模的超大模型。極大提升模型訓(xùn)練的效率和資源利用率。與國際同等規(guī)模模型相比,能耗降低超過八成,真正實現(xiàn)了綠色 AI。
3
云邊端協(xié)同實現(xiàn)無處不在的計算
OpenYurt 是業(yè)界首個開源的“零侵入的”云原生邊緣計算項目,去年 11 月成為 CNCF Sandbox 項目。
邊緣計算面臨著算力分散、資源異構(gòu)以及弱網(wǎng)連接等技術(shù)挑戰(zhàn)。Openyurt 基于 Kubernetes 構(gòu)建了云邊協(xié)同計算框架。在過去兩年已在視頻直播、云游戲、物流交通、智能制造、城市大腦等眾多行業(yè)落地。
今年,我們希望以云原生的方式來實現(xiàn)設(shè)備孿生,高效地解決物聯(lián)網(wǎng)場景下海量分布式設(shè)備的管理和運維挑戰(zhàn)。經(jīng)歷了 OpenYurt 與 EdgeX Foundry 社區(qū), VMWare、Intel 等工程師的合作,實現(xiàn)對端設(shè)備和應(yīng)用管理的統(tǒng)一建模和統(tǒng)一管理。下面我將為大家介紹一個利用 OpenYurt 實現(xiàn)無處不在計算的案例。
4
隱私增強計算護航數(shù)據(jù)安全
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的快速發(fā)展,無處不在的計算時刻產(chǎn)生著海量信息。如何讓基礎(chǔ)設(shè)施更加可信,保障隱私數(shù)據(jù)不被竊取、篡改、濫用成為重要的挑戰(zhàn)。隨著國家《數(shù)據(jù)安全法》的施行,隱私增強計算業(yè)務(wù)得到了業(yè)界越來越多的重視。
據(jù) Gartner 預(yù)測,到 2025 年,60% 的大型機構(gòu)將采用 “隱私增強計算技術(shù)” 來處理不可信環(huán)境或多方數(shù)據(jù)分析用例中的數(shù)據(jù)。
隱私增強型計算中一個重要的技術(shù)分支,是通過基于硬件的可信執(zhí)行環(huán)境 TEE 實現(xiàn)數(shù)據(jù)保護。TEE 的安全性是基于邊界的安全模型,它的安全邊界非常小并且存在于硬件芯片本身,使 TEE 內(nèi)執(zhí)行的應(yīng)用,不再擔(dān)心來自其他應(yīng)用、其他租戶或者平臺方的威脅。
將容器與可信執(zhí)行環(huán)境相結(jié)合的機密容器技術(shù),進一步提升了對敏感信息的保護。一方面容器與完整的 OS 相比,攻擊面更小,另一方面基于容器的安全軟件供應(yīng)鏈可以保障應(yīng)用來源的可信、可追溯。
Inclavare Containers 是阿里開源的,業(yè)界第一個面向機密計算的容器運行時項目。今年 9 月成為 CNCF 沙箱項目。機密容器可以將機密計算底層系統(tǒng)的全部復(fù)雜性都隱藏起來,遵循既有的云原生標準化接口和規(guī)范,兼容現(xiàn)有的生態(tài)。這將加速這項技術(shù)的普及。在社區(qū)中協(xié)作中,我們看到來自 Kata Container 社區(qū)的工程師也在探索相關(guān)方向。
正如圖中所示,由 Inclavare Containers 項目支持的 SGX 機密容器和由 Kata Confidential Container 項目支持的基于 MicroVM 的機密容器,在技術(shù)形態(tài)上具有高度的相似性。為此,兩個項目的開發(fā)者在積極進行合作,通過互相復(fù)用彼此的技術(shù)組件,最大化了技術(shù)價值,并為不同的 TEE 實現(xiàn)實現(xiàn)統(tǒng)一的開發(fā)者體驗。這也正體現(xiàn)了開源社區(qū)的力量。
從技術(shù)角度來看,相比于 runC 和 Kata 容器運行時,包含了敏感數(shù)據(jù)的容器鏡像需要事先進行加密和數(shù)字簽名;鏡像的下載過程在 TEE 內(nèi)進行,來確保鏡像解密過程的安全性;相關(guān)密鑰會通過機密計算特有的遠程證明機制所建立的安全可信信道傳遞到 TEE 中,以確保其內(nèi)容不會被泄露和篡改;最后,整個機密容器在運行時都運行在硬件防護的 TEE 中,其計算過程中的數(shù)據(jù)在內(nèi)存中是加密的,并受完整性保護。
通過云原生技術(shù)普及數(shù)字化信任,還是一個新興的技術(shù)領(lǐng)域,非常期待大家一起共建!
5
加速云原生人才梯隊培養(yǎng)
今年 8 月,阿里云與 Linux 開源軟件學(xué)園、CNCF 共同發(fā)布 “云原生人才培養(yǎng)計劃 2.0” ,在生態(tài)的合力下,通過開放技能圖譜、專業(yè)課程、認證福利等方式,共同培養(yǎng)云原生專業(yè)人才。我們也歡迎更多的開發(fā)者小伙伴們一起踏上云原生的學(xué)習(xí)之路。