&

開篇

近年來大家都逐漸意識到數(shù)據(jù)驅(qū)動的洞察力的重要性，因為這種方式可以增強(qiáng)戰(zhàn)略決策并提高投資回報率，為了安全存檔大數(shù)據(jù)同時也將焦點落在構(gòu)建數(shù)據(jù)湖和數(shù)據(jù)倉庫上。順勢，大數(shù)據(jù)可用于支持各種數(shù)據(jù)工程、數(shù)據(jù)科學(xué)、業(yè)務(wù)分析和運(yùn)營分析計劃，并通過提高運(yùn)營效率、降低運(yùn)營成本、制定業(yè)務(wù)戰(zhàn)略來幫助企業(yè)受益。然而，人類日常消費和生成的數(shù)據(jù)呈指數(shù)級增長，因此就需要在大數(shù)據(jù)平臺中采用結(jié)構(gòu)良好的容量治理方法。

介紹

容量治理和可擴(kuò)展性工程是相互關(guān)聯(lián)的學(xué)科，因為它需要全面了解計算、存儲容量需求、基礎(chǔ)設(shè)施供應(yīng)及其相互關(guān)系，從而制定出大數(shù)據(jù)平臺可擴(kuò)展性策略。除此之外，技術(shù)風(fēng)險的解決和安全合規(guī)性也是容量治理需要考慮的重要方面。

與其他應(yīng)用程序類似，大數(shù)據(jù)應(yīng)用程序會對客戶個人身份信息 (PII) 數(shù)據(jù)進(jìn)行操作，并影響公司的關(guān)鍵業(yè)務(wù)和戰(zhàn)略決策。同樣，大數(shù)據(jù)應(yīng)用程序必須始終遵循最新的數(shù)據(jù)安全和服務(wù)可靠性標(biāo)準(zhǔn)。所有 IT 硬件和軟件組件都必須定期更新并使用最新的安全補(bǔ)丁，并對錯誤進(jìn)行及時修復(fù)。無論部署哪種基礎(chǔ)設(shè)施，都必須不斷掃描大數(shù)據(jù)平臺的每個組件，從而保證組件能夠被快速識別，同時解決組件潛在的技術(shù)問題或安全風(fēng)險。

編輯搜圖

上圖是大數(shù)據(jù)平臺容量治理框架的功能架構(gòu)。圖中最右邊的部分代表技術(shù)用戶的基礎(chǔ)設(shè)施或供應(yīng)流。圖表的最左側(cè)部分代表需求為主以及按照通常的商業(yè)模式為主的流派，這個流派的代表是業(yè)務(wù)用戶，他們的關(guān)注點是解決業(yè)務(wù)問題而不會深入了解解決方案的技術(shù)細(xì)節(jié)。圖中時間點部分代表大數(shù)據(jù)框架，這部分會使用工具和技術(shù)根據(jù)需求（左邊的部分）管理供應(yīng)（右邊的部分）。

為了保持文章簡短，我們將把技術(shù)架構(gòu)排除在討論范圍之外，因為已經(jīng)有存在成熟的微服務(wù)等工具能夠解決特定的領(lǐng)域問題。在開始之前，需要提出一個顯而易見的問題——圍繞這個問題構(gòu)建解決方案是否值得？市場上是否有相應(yīng)的工具能夠解決容量和合規(guī)性的問題。隨著時間的推移，在使用大量監(jiān)控、APM 和分析工具之后，我們發(fā)現(xiàn)如果需要構(gòu)建治理平臺就需要整合多種工具，因為每種工具都對應(yīng)解決不同特定領(lǐng)域的問題。以上結(jié)論的前提是不重新造輪子，而使用成熟的工具。

例如，在 YARN 上運(yùn)行的 Spark 應(yīng)用程序監(jiān)控、日志分析和性能管理的工具與用于部署在 Kubernetes 容器中實現(xiàn)相同功能的工具是完全不同的。雖然它們實現(xiàn)了相同的功能但是運(yùn)行的平臺不同。同樣，將適用于在本地 VMware 中監(jiān)控、APM 和自動擴(kuò)展的工具應(yīng)用于共有云中的虛擬機(jī)中卻毫無違和感，因為公共云也需要本地監(jiān)控工具和自動縮放 API。能夠移植的原因是功能相同，環(huán)境也相同，公有云是由無數(shù)個VMware組合而成。

數(shù)據(jù)科學(xué)或 AI 產(chǎn)業(yè)化項目不一定是指 MapReduce/spark/大數(shù)據(jù)，還有一部分項目包括：系統(tǒng)接口、常規(guī)軟件或微服務(wù)應(yīng)用。只需要對DevOps 工具和底層部署平臺進(jìn)行選擇就好。

對于金融機(jī)構(gòu)而言，確保大數(shù)據(jù)平臺的持續(xù)合規(guī)性和高可用性極為重要。需要全面了解計算存儲資源（供應(yīng)）、4 V（容量、速度、品種、準(zhǔn)確性）、工作負(fù)載的性質(zhì)（處理過程）、SLA 和數(shù)據(jù)敏感性要求（需求/BAU）。只有考慮上述因素之后才能構(gòu)建一個適合特定業(yè)務(wù)場景的可擴(kuò)展解決方案，同時確保大數(shù)據(jù)平臺的高可用性和容量冗余。

交付方式：

遵循成熟度矩陣，從數(shù)據(jù)收集和探索，到識別趨勢和執(zhí)行分析，通過分析來支持智能運(yùn)營。這里將分為 7 個階段實現(xiàn)這一目標(biāo)：

1、全面盤點

建立全面的跨平臺清單，其中虛擬機(jī)基礎(chǔ)架構(gòu)級別的清單可以從本地監(jiān)控工具中輕松獲得。需要注意的是，容器化平臺和不同公有云中的 API以及監(jiān)控模式是存在差異的。除此之外，僅 VM 級別的清單是不夠的。由于平臺使用了多個內(nèi)部的、供應(yīng)商支持的和開源的中間件，而這些中間件由不同組件組成，所以需要對這些中間件創(chuàng)建清單。我們必須實現(xiàn)發(fā)布者、觀察者和訂閱者來為這些中間件執(zhí)行角色標(biāo)記，然后再將這些中間件部署到虛擬機(jī)、容器化（Kubernetes/Openshift）或公有云平臺中。

2. 基礎(chǔ)設(shè)施利用率、消費趨勢以及分析

當(dāng)了解跨混合云基礎(chǔ)架構(gòu)部署的角色之后，就需要使用基礎(chǔ)架構(gòu)利用率并將數(shù)據(jù)分類為更細(xì)的顆粒度，并且對其定義指標(biāo)。

此外，監(jiān)控數(shù)據(jù)必須解決這兩個問題：

時間點事件管理需要快速識別、通知和解決 CPU、RAM 和網(wǎng)絡(luò)容量問題。事件管理儀表板的采樣頻率需要接近實時。

時間序列數(shù)據(jù)是容量矩陣的聚合，其中聚合數(shù)據(jù)的標(biāo)記從 5 分鐘的采樣匯總到每小時、每天、每周和每月的采樣匯總。通過這樣的組件采樣頻率，提升長期容量利用率和服務(wù)運(yùn)行狀況分析的能力。

上面說的數(shù)據(jù)是技術(shù)/基礎(chǔ)設(shè)施利用率數(shù)據(jù)，然后將多租戶占用率數(shù)據(jù)疊加到這些數(shù)據(jù)之上，得出每個數(shù)據(jù)集、工作、項目/計劃和業(yè)務(wù)單位的租戶占用率的累積信息。

3. 需求分析與預(yù)測

如果從基礎(chǔ)設(shè)施利用率中獲得租戶的入住率數(shù)據(jù)，就能夠確定存儲、計算和項目規(guī)模級別的增長趨勢?；趩蝹€數(shù)據(jù)集/租戶的相對增長，就可以確定最高占用者、增長最快的數(shù)據(jù)集/租戶、頂級（計算）浪費和非關(guān)鍵噪聲鄰居。

4、性能優(yōu)化

確定最浪費的資源，在確保適當(dāng)冗余并提高服務(wù)可靠性的前提下，與業(yè)務(wù)部門合作對資源進(jìn)行優(yōu)化減少浪費。在每個時間點，都有由作業(yè)程序調(diào)度到集群上的數(shù)千個作業(yè)，每個隊列包含數(shù)百個提交的作業(yè)，這些作業(yè)服務(wù)于每日、每周、每月或臨時計劃。在這些作業(yè)的執(zhí)行過程中需要識別和調(diào)整最大的 CPU 和 RAM 浪費，并將非關(guān)鍵作業(yè)安排到非關(guān)鍵或非高峰時間段運(yùn)行。

5. 高可用性、容量冗余和可擴(kuò)展性

識別關(guān)鍵業(yè)務(wù)工作負(fù)載并為其運(yùn)行提供冗余容量，并將非關(guān)鍵的負(fù)載調(diào)整到非高峰時間，這種負(fù)載調(diào)整的行為被認(rèn)為是站點可靠性團(tuán)隊的關(guān)鍵性能指標(biāo)之一。除了確保中間件的高可用性之外，識別站點可靠性問題，并確保平臺組件的單獨和集體擴(kuò)展性，從而應(yīng)對高峰時段的流量激增，要做到以上描述必須監(jiān)控和觀察一段時間內(nèi)的運(yùn)營數(shù)據(jù)才能實現(xiàn)。

對于每個中間件組件，worker 和 master 級別的高可用性是一項基本要求，尤其是對于業(yè)務(wù)關(guān)鍵型為 1 類的應(yīng)用更是這樣。對于內(nèi)部應(yīng)用，需要對每個組件級別收集徹底、一致的代碼分析、單元集成性能測試結(jié)果、依賴許可以及漏洞掃描數(shù)據(jù)等相關(guān)信息。對于托管服務(wù)，在公有云中需要與各自的云基礎(chǔ)設(shè)施提供商建立服務(wù)水平協(xié)議。外部軟件提供商需要確保相同的軟件支持、修補(bǔ)和事件管理支持 SLA。

6. 自動擴(kuò)展、自我修復(fù)、成本優(yōu)化

在成熟的最后階段，容量治理框架將變得更具侵入性，我們的決策引擎不僅可以為 SRE 團(tuán)隊生成時間表、每周每月的計劃，還可以在無需人工干預(yù)的情況下自動修復(fù)或清理一些服務(wù)（取決于環(huán)境的關(guān)鍵性、服務(wù)水平協(xié)議和變化的影響范圍）。最后，必須對上面捕獲的數(shù)據(jù)和分析進(jìn)行管理，以確定適合每個中間件組件的性能最高、成本最優(yōu)的基礎(chǔ)架構(gòu)。

這些數(shù)據(jù)還可以用于創(chuàng)建自動擴(kuò)展策略、自我修復(fù)（特別是針對非 HA 組件）、性能和成本優(yōu)化報告以及推薦模型。

7. 技術(shù)風(fēng)險和持續(xù)合規(guī)

事實證明，采購和設(shè)置一個高性能的安全兼容的系統(tǒng)是不夠的，有必要確保每個組件無論部署在什么樣的平臺上都保持兼容性，組件不會受到持續(xù)的威脅和漏洞的影響。

技術(shù)風(fēng)險和合規(guī)性是金融行業(yè)服務(wù)交付的極其重要的方面之一，因為服務(wù)中斷可能導(dǎo)致金錢損失和監(jiān)管處罰， Cat1 這類型的應(yīng)用就是個典型的例子。一旦將項目交付到生產(chǎn)環(huán)境，成本就不會止步于此，所以要三思而后行。

更換報廢硬件。支持軟件類需要持續(xù)更新。終止支持許可證應(yīng)及時更新。
部署到不同平臺的各種組件公開了各種 TCP 和其他端口，必須統(tǒng)一掃描這些端口以獲取必要的網(wǎng)絡(luò)區(qū)域隔離、傳輸 (SSL) 和靜態(tài)（加密）標(biāo)準(zhǔn)。
每個中間件子組件/微服務(wù)必須準(zhǔn)時掃描關(guān)鍵漏洞（例如最近的 log4j 漏洞）。服務(wù)器需要及時打上最新的操作系統(tǒng)和安全補(bǔ)丁。
服務(wù)器需要定期重啟以確認(rèn)中間件層的災(zāi)難恢復(fù)、高可用性、檢測和消除單點故障以及應(yīng)用需要重啟的補(bǔ)丁。
對于云 EC2 實例，需要關(guān)注刷新 AMI、憑證和加密密鑰以及 SSL 證書需要更換。
需要掃描并確保容量冗余，以應(yīng)對月度租戶增長和動態(tài)需求高峰時期的每小時利用率。

1.需求/BAU 流

將業(yè)務(wù)需求從各個維度進(jìn)行分析，最終形成技術(shù)架構(gòu)，該架構(gòu)結(jié)合了大數(shù)據(jù)工具集和部署基礎(chǔ)設(shè)施以及針對用例的解決方案。

制定用戶案例需要的工具類型和數(shù)據(jù)容量根據(jù)系統(tǒng)的數(shù)據(jù)性質(zhì)以及數(shù)據(jù)抽取、計算和報告要求來確定。例如，流式作業(yè)需要處理連續(xù)的占用內(nèi)存較小的流數(shù)據(jù)（以及適當(dāng)?shù)挠嬎愫途W(wǎng)絡(luò)帶寬來處理流式工作負(fù)載）。另一方面，對歷史數(shù)據(jù)的 Batch/ETL 抽取需要考慮大量的內(nèi)存應(yīng)用和網(wǎng)絡(luò)流量激增的情況。除此之外，數(shù)據(jù)分析和報告生成的工作對負(fù)載的要求需要考慮CPU 和內(nèi)存瞬間爆發(fā)力，具體取決于數(shù)據(jù)集的大小和查詢的復(fù)雜性。

編輯搜圖

需求規(guī)模模塊：

需求規(guī)模模塊將數(shù)據(jù)容量的工作負(fù)載需求（可預(yù)測和不可預(yù)測）進(jìn)行簡化，化簡之后只需要考慮基礎(chǔ)設(shè)施數(shù)據(jù)容量的供應(yīng)和可用性問題。該模塊形成了反饋閉環(huán)，該閉環(huán)將容量增長和管理需求的利益相關(guān)者涵蓋其中。

業(yè)務(wù)需求、技術(shù)需求與運(yùn)營可擴(kuò)展性：

對于業(yè)務(wù)用戶而言，功能需求是將數(shù)據(jù)集傳輸或批量抽取到數(shù)據(jù)湖中，并應(yīng)用于數(shù)據(jù)工程。又或者利用這些數(shù)據(jù)生成戰(zhàn)略報告，再或者在數(shù)據(jù)集上訓(xùn)練推薦模型倉庫。

在更廣泛的意義上，我們將需求分為兩類——1.結(jié)構(gòu)化容量需求，2.動態(tài)容量需求。讓我們看看這些。

1a 結(jié)構(gòu)化容量需求：

結(jié)構(gòu)化容量需求是預(yù)測容量大小和作業(yè)計劃的需求，以便提供必要的最低保證容量或保持適當(dāng)?shù)娜哂嗟墓ぷ髫?fù)載，從而應(yīng)對高峰時段的流量激增。這些工作負(fù)載包括流式作業(yè)，它可以預(yù)測來自源系統(tǒng)的流式負(fù)載。同樣，一旦最終部署模型 API，也可以預(yù)先為模型 API 預(yù)先設(shè)置容量。

1b 動態(tài)容量需求：

動態(tài)容量請求由探索階段的作業(yè)組成，因為容量大小無法預(yù)先預(yù)測，以及作業(yè)的執(zhí)行沒有固定的時間表。這包括數(shù)據(jù)工程師構(gòu)建其攝取或計算作業(yè)的非生產(chǎn)開發(fā)環(huán)境，以及數(shù)據(jù)科學(xué)家在將模型發(fā)布用于生產(chǎn)之前直接訓(xùn)練其模型的實驗環(huán)境。這些工作負(fù)載在辦公時間處于活動狀態(tài)，因此需要在使用高峰時段進(jìn)行容量冗余從而面對激增的流量，同時在非高峰時段回收容量，達(dá)到節(jié)約成本的目的。

度量單位與比例單位：

在考慮整個平臺的可擴(kuò)展性時，我們需要考慮三個重要因素：

伸縮單位：例如，在 Openshift 中，可以定義容器的可伸縮性，在 VPC 中它將是 VMWare，在 Aws 中它將是EKS 集群、ec2 實例、 s3 存儲桶。

度量單位：在伸縮單位最接近度量單位的情況下可以使用度量單位。例如，在 EMR 中，伸縮單位是 ec2 實例，但由于這是一個多租戶集群，因此度量單位仍然是 spark 作業(yè)使用的 CPU 小時數(shù)或內(nèi)存小時數(shù)，

銷售/購買單位：是可以放置價格標(biāo)簽的實體。由于大數(shù)據(jù)平臺本身就是一個資源管理器，也是一個資源的混合體。如果為團(tuán)隊構(gòu)建單獨的集群，雖然可以對整個集群進(jìn)行擴(kuò)展，但仍然需要回答每個作業(yè)所消耗的資源，這里就可以通過銷售/購買單位來衡量。

需求分析循環(huán)（正向容量計劃）：

在構(gòu)建數(shù)據(jù)科學(xué)/數(shù)據(jù)工程項目時，必須理解用例、選擇工具和考慮容量規(guī)劃。盡管對源系統(tǒng)的四個 V 有很好的理解，但只能估計目標(biāo)數(shù)據(jù)集的實際足跡。除此之外，隨著按計劃或在集群上臨時運(yùn)行的連續(xù)抽取和計算作業(yè)——需要根據(jù)增長的綜合趨勢來預(yù)測容量，包括不斷增長的 T1、T2 和 T3 數(shù)據(jù)集將來所需的容量，以及每個類別所需要抽取和計算的數(shù)據(jù)集容量。

2. 處理/中間件流

位于圖表的中心的是各種大數(shù)據(jù)中間件，這個流最接近大數(shù)據(jù)主題專家和 SRE 領(lǐng)袖們。該圖根據(jù)功能對組件進(jìn)行了分類。

最大的部分是分布式計算層，包括Hadoop/spark 框架（如 Cloudera CDH/CDP、Databricks、Kubernetes 上的 Spark 等）、查詢引擎（如 Presto/Impala）和流引擎（Kafka）。下面來逐一介紹這些組件：

2a 2b 2c 基本服務(wù)（監(jiān)控和日志聚合、數(shù)據(jù)治理、數(shù)據(jù)安全）：

有一些工具可以為平臺中的工作負(fù)載提供跨環(huán)境、跨集群的基本服務(wù)。這包括日志聚合、數(shù)據(jù)發(fā)現(xiàn)/數(shù)據(jù)治理和數(shù)據(jù)安全等功能。工具可以跨環(huán)境工作，以確保大數(shù)據(jù)平臺的可持續(xù)、安全和可靠的運(yùn)行。

2e 分析/數(shù)據(jù)科學(xué)工作負(fù)載：

它的使用模式和容量要求與運(yùn)營集群的數(shù)據(jù)抽取或計算作業(yè)有所不同。數(shù)據(jù)科學(xué)家可能需要將一組特定的大型數(shù)據(jù)集導(dǎo)入到分布式處理引擎中進(jìn)行模型訓(xùn)練。這一過程會一直持續(xù)到模型被訓(xùn)練出來，當(dāng)然需要花費比較長的時間。模型的訓(xùn)練不需要遵循任何時間表，盡管集群上的負(fù)載在正常辦公時間很高，但是在非高峰時間是處于空閑的狀態(tài)，完全可以用來進(jìn)行模型的訓(xùn)練。

此外，分析/數(shù)據(jù)科學(xué)的工作負(fù)載對集群的數(shù)據(jù)安全性和訪問控制要求比較高，因為模型訓(xùn)練的過程有可能會直接訪問客戶的生產(chǎn)數(shù)據(jù)。因此必須建立嚴(yán)格的標(biāo)記化、數(shù)據(jù)存儲、檢索和數(shù)據(jù)泄漏預(yù)防機(jī)制，以避免任何數(shù)據(jù)泄露或個人身份信息 (PII) 數(shù)據(jù)被盜。

2f 開發(fā)人員/非產(chǎn)品工作負(fù)載：

對于操作環(huán)境的數(shù)據(jù)抽取和計算作業(yè)而言，數(shù)據(jù)要么是合成數(shù)據(jù)，要么是經(jīng)過查殺的。通常，開發(fā)人員環(huán)境是共享租賃的，容量相比生產(chǎn)環(huán)境會更小一些，支持 SLA 的強(qiáng)度也較低。本質(zhì)上，大數(shù)據(jù)解決方案依賴于實際生產(chǎn)數(shù)據(jù)的四個 V，因此作業(yè)的實際足跡和性能只能在生產(chǎn)區(qū)進(jìn)行驗證。通常會為生產(chǎn)環(huán)境的作業(yè)性能調(diào)整提供單獨的 QA 環(huán)境。該環(huán)境用于驗證來自業(yè)務(wù)邏輯、數(shù)據(jù)治理、數(shù)據(jù)安全和視圖集成測試的作業(yè)。

2g 運(yùn)維/ETL/批處理工作負(fù)載：

運(yùn)維工作負(fù)載是指需要滿足有保證的服務(wù)水平協(xié)議 (SLA) 的抽取或計算作業(yè)。這些服務(wù)的任何中斷都可能影響公司的正常業(yè)務(wù) (BAU) 運(yùn)營或戰(zhàn)略業(yè)務(wù)決策。需要了解作業(yè)的整體計算、存儲、數(shù)據(jù)安全和時間敏感性，并確保有足夠的容量和冗余，以防止對其 SLA 產(chǎn)生任何影響。

2h分布式查詢處理/可視化層工作負(fù)載

許多業(yè)務(wù)報告不需要對底層數(shù)據(jù)集進(jìn)行任何修改，而只需要在內(nèi)存中處理大型數(shù)據(jù)集。有幾個用于大數(shù)據(jù)的分布式查詢處理引擎（如 Trino/Apache Presto、Apache Impala、Apache Drill 甚至 SparkSQL）可用于報告或可視化工具（如 superset、tableau、Qlikview 或構(gòu)建的自定義儀表板），并且提供 SQL 接口展示到可視化/圖表庫上。

關(guān)于存儲虛擬化的說明：

許多組織希望利用對象存儲來實現(xiàn)更廉價的數(shù)據(jù)歸檔。然而，就 CAP 定理而言，S3 犧牲了一致性以確保其他兩個。同時，考慮到公有云 s3——將大量的大數(shù)據(jù)計算負(fù)載直接放到網(wǎng)絡(luò)通道上，會造成系統(tǒng)的可靠性不一致。各種工具提供存儲虛擬化，實際上是通過仲裁層為最終用戶提供查詢接口，因此很難建立模式（因為不知道用戶何時使用接口進(jìn)行查詢）。除非用戶的查詢操作在辦公時間，那么可以提升容量在這一時段的利用率，又或者通過可以隔離和分配容量為用戶提供預(yù)定查詢的服務(wù)。同時，容量需求可以通過項目級隔離和相應(yīng)的容量冗余來處理。

2i 流式工作負(fù)載、處理工作負(fù)載

新建項目常常會通過流式數(shù)據(jù)抽取將運(yùn)營和業(yè)務(wù)的數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫中。Apache Kafka、Apache Storm、Spark Streaming 和 AWS Kinesis 是常用的數(shù)據(jù)抽取工具。Kafka 平臺自帶一套高可用性、多租戶和容量治理功能的工具集。根據(jù)源系統(tǒng)的網(wǎng)絡(luò)和性質(zhì)，大多數(shù)情況下，流式作業(yè)的 CPU/RAM 占用率不會出現(xiàn)激增的情況，因為流式引擎有效解決了復(fù)制和彈性的問題（水平擴(kuò)展）。

2j持久層、存儲遍歷和占用

數(shù)據(jù)集（保存到存儲層）的最終大小可能取決于源系統(tǒng)的性質(zhì)和大小、壓縮類型、復(fù)制要求、標(biāo)記化和加密以及抽取/計算作業(yè)的性質(zhì)。因此，需要通過遍歷持久層的方式去識別數(shù)據(jù)集的實際大小，然后將其與計算作業(yè)、租戶和源系統(tǒng)產(chǎn)生關(guān)聯(lián)。

編寫的存儲遍歷模塊就是建立這種關(guān)聯(lián)，通過元數(shù)據(jù)和多租戶結(jié)構(gòu)連接它們的大小，然后得出數(shù)據(jù)集增長的趨勢。最終，才能預(yù)測數(shù)據(jù)集增長的性質(zhì)和大小，從而使我們能夠根據(jù)要求確保存儲層冗余。

YARN（或 Future Spark-on-Kubernetes）調(diào)度程序的容量治理：

本質(zhì)上，大數(shù)據(jù)框架中計算工作負(fù)載的容量管理利用了 YARN 容量調(diào)度程序。Spark 社區(qū)正在努力將相同的功能引入 Kubernetes 上的 Spark?；旧蠈τ谝粋€特定的隊列，我們有一個最小的保證容量，即使集群負(fù)載很重，我們也會保證隊列的容量，其他作業(yè)將被搶先提供給隊列。另一方面，需要設(shè)置最大容量，因為即使在集群正常負(fù)載的情況下，也可能無法分配資源的限制。

最小保證容量和最大限制之間的差異來自公共池。在高峰時段，如果非關(guān)鍵作業(yè)具有較高的 Max Limit 值，則可能會影響具有合理最小值和最大值的關(guān)鍵作業(yè)。例如，Apache Hadoop 2.4.1 — Hadoop Map Reduce Next Generation-2.4.1 — 容量調(diào)度程序。

編輯搜圖

例如，上面是操作集群中的 YARN 隊列之一。紅線表示最小保證容量為 100 個 vCore。而最大值被限制在 270 個 vCore 左右。最小保證容量和最大限制之間的差異來自公共池，如果此時Yarn處于負(fù)載狀態(tài)，則可以搶占該區(qū)域中的作業(yè)?，F(xiàn)在，隊列可能在一天內(nèi)包含數(shù)千個運(yùn)行的作業(yè)，如何識別最大的浪費并進(jìn)行優(yōu)化需要通過單獨的文章來描述。

基本上，我們想要做的是讓 VM Infrastructure 成本更接近隊列分配的成本。一旦 CPU 或 RAM 被分配給一個作業(yè)，從 YARN 的角度來看，它被認(rèn)為是被占用/使用的。

但我們的目標(biāo)是采購更接近隊列中使用/分配的內(nèi)容，并設(shè)置合理的冗余來處理激增的工作負(fù)載。在應(yīng)用該分配方式的同時，我們也通過不斷地衡量的方式使利用率更接近分配的內(nèi)容。在這個過程中，避免了分配不足（避免意外涌入集群）和過度分配（避免浪費）的情況發(fā)生。此外，我們希望避免在高峰時段安排非關(guān)鍵作業(yè)，以避免對具有更高 SLA 的時間關(guān)鍵作業(yè)產(chǎn)生影響。對于容量和進(jìn)度優(yōu)化，需要有不同的策略。

SRE 日歷和合規(guī)，每日、每周、每月花名冊

每個生產(chǎn)變更請求都需要我們的 L1 支持和站點可靠性工程（SRE）團(tuán)隊為我們的開發(fā)和 DevOps 團(tuán)隊做好準(zhǔn)備。SRE 團(tuán)隊必須清楚地了解通知 BAU 團(tuán)隊的停機(jī)時間或服務(wù)中斷時間，尤其是在生產(chǎn)環(huán)境中。

另一方面，合規(guī)熱圖提供了關(guān)鍵技術(shù)風(fēng)險可交付成果的綜合視圖。

SRE 日歷提供了為 SRE 團(tuán)隊安排上述技術(shù)風(fēng)險行動項目的地方。它還允許開發(fā)團(tuán)隊在軟件發(fā)布、升級和補(bǔ)丁期間通過 L1 支持和 SRE 團(tuán)隊預(yù)訂和協(xié)調(diào) BAU 停機(jī)時間。

3. 供應(yīng)/基礎(chǔ)設(shè)施流

該分類的靈感來自 Mirco Hering 的DevOps for the Modern Enterprise。根據(jù) DevOps 與相應(yīng)平臺的交互方式，基礎(chǔ)設(shè)施供應(yīng)主要分為三個流。這三個基礎(chǔ)架構(gòu)域在我們實現(xiàn)高可用性、供應(yīng)/部署自動化和自動擴(kuò)展的方式上會有所不同。實施基礎(chǔ)設(shè)施運(yùn)營和管理技術(shù)風(fēng)險以及合規(guī)的模式也存在不同。

3a本地基礎(chǔ)設(shè)施

雖然一些組織希望將基礎(chǔ)設(shè)施維護(hù)工作交給公共云提供商來負(fù)責(zé)，并希望他們提供具有競爭力的價格。但隨著市場上可用的 IT 基礎(chǔ)設(shè)施越來越便宜，但能源效率卻在不斷升高；將客戶數(shù)據(jù)進(jìn)行遷移、存儲和檢索到公共云的成本如滾雪球般越來越多，同時還存在公司客戶數(shù)據(jù)遭到破壞或 PII 數(shù)據(jù)被盜的風(fēng)險——許多組織更愿意在虛擬私有云本身中構(gòu)建具有成本效益的功能。

3b容器化（云原生）基礎(chǔ)設(shè)施

根據(jù) Gartner 的這項研究——到 2021 年，全球 98% 的基礎(chǔ)設(shè)施將部署到容器中。使用 Kubernetes/Openshift 等容器編排器將我們的應(yīng)用程序部署到容器中，從而可以提供更深層次的操作系統(tǒng)級別隔離、高效配置管理、自動擴(kuò)展等高級功能、高可用性、可維護(hù)性和自愈能力。

甚至 Spark 社區(qū)也在努力將 Spark 引入 Kubernetes。盡管動態(tài)資源分配和隊列管理仍在進(jìn)行中，但一些組織已設(shè)法在生產(chǎn)中使用它。

3c公有云（IAAS / PAAS / SAAS）

公有云易于配置或擴(kuò)展，同樣也會存在浪費。如果不對用例使用最合適的解決方案，很容易浪費資源。對于每個公有云，最好使用托管服務(wù)。例如，雖然可以設(shè)置 Argo 管道來啟動 vanilla Kubernetes 集群，但為了更好的集成，首選 EKS。同樣，與自行部署的 Jupyterhub 和 Hadoop + Spark 部署相比，Sagemaker + EMR 將是首選組合。無論如何，我們僅將公有云用于 IAAS 或 PAAS，或者將業(yè)務(wù)工作負(fù)載重新設(shè)計為公有云產(chǎn)品的本地托管服務(wù)——有必要開發(fā)一個全面的資產(chǎn)清單并將消費數(shù)據(jù)疊加在上面其中。

基礎(chǔ)設(shè)施供應(yīng)反饋回路

隨著越來越多的計算和抽取作業(yè)加入，并在集群應(yīng)用中不斷增長，必須通過容量反饋來確保容量冗余。除了入住率和增長分析外，還應(yīng)將其傳達(dá)給業(yè)務(wù)用戶。通過上面的需求規(guī)模模塊圖中描述的各種前向和后向反饋工作揭示需求和供應(yīng)的相互作用關(guān)系，并且進(jìn)行分析。

結(jié)論

在構(gòu)建容量治理框架的同時，保持站點可靠性、高可用性和合規(guī)性，需要在虛擬私有云 (VPC) 中的各種基礎(chǔ)設(shè)施產(chǎn)品中實施 DevOps 和站點可靠性工程 (SRE)，并且將這些原則和經(jīng)驗進(jìn)行結(jié)合，應(yīng)用到容器化、公有云平臺以及大數(shù)據(jù)產(chǎn)品的工作中。同時需要充分考慮業(yè)務(wù)用戶的觀點、平臺的多租戶結(jié)構(gòu)和照舊業(yè)務(wù) (BAU)的服務(wù)水平協(xié)議 (SLA)、數(shù)據(jù)安全以及正常運(yùn)行時間要求。隨著時間的推移構(gòu)建的容量治理框架能夠提供洞察力，增強(qiáng) SRE 團(tuán)隊的能力，并能夠通過容量優(yōu)化節(jié)省數(shù)百萬美元的基礎(chǔ)設(shè)施成本。

不卡av在线播放_欧美成人AU在线看_亚洲一区二区视频_五月天亚洲无码伊人

Article / 文章中心

文章分類

混合云、多租戶大數(shù)據(jù)平臺的容量和合規(guī)性思考

開篇

介紹

交付方式：

1、全面盤點

2. 基礎(chǔ)設(shè)施利用率、消費趨勢以及分析

3. 需求分析與預(yù)測

4、性能優(yōu)化

5. 高可用性、容量冗余和可擴(kuò)展性

6. 自動擴(kuò)展、自我修復(fù)、成本優(yōu)化

7. 技術(shù)風(fēng)險和持續(xù)合規(guī)

1.需求/BAU 流

需求規(guī)模模塊：

1a 結(jié)構(gòu)化容量需求：

1b 動態(tài)容量需求：

2. 處理/中間件流

2a 2b 2c 基本服務(wù)（監(jiān)控和日志聚合、數(shù)據(jù)治理、數(shù)據(jù)安全）：

2e 分析/數(shù)據(jù)科學(xué)工作負(fù)載：

2f 開發(fā)人員/非產(chǎn)品工作負(fù)載：

2g 運(yùn)維/ETL/批處理工作負(fù)載：

2h分布式查詢處理/可視化層工作負(fù)載

2i 流式工作負(fù)載、處理工作負(fù)載

2j持久層、存儲遍歷和占用

YARN（或 Future Spark-on-Kubernetes）調(diào)度程序的容量治理：

SRE 日歷和合規(guī)，每日、每周、每月花名冊

3. 供應(yīng)/基礎(chǔ)設(shè)施流

3a本地基礎(chǔ)設(shè)施

3b容器化（云原生）基礎(chǔ)設(shè)施

3c公有云（IAAS / PAAS / SAAS）

基礎(chǔ)設(shè)施供應(yīng)反饋回路

結(jié)論

不卡av在线播放_欧美成人AU在线看_亚洲一区二区 视频_五月天亚洲无码伊人

Article / 文章中心

文章分類

混合云、多租戶大數(shù)據(jù)平臺的容量和合規(guī)性思考

開篇

介紹

交付方式：

1、全面盤點

2. 基礎(chǔ)設(shè)施利用率、消費趨勢以及分析

3. 需求分析與預(yù)測

4、性能優(yōu)化

5. 高可用性、容量冗余和可擴(kuò)展性

6. 自動擴(kuò)展、自我修復(fù)、成本優(yōu)化

7. 技術(shù)風(fēng)險和持續(xù)合規(guī)

1.需求/BAU 流

需求規(guī)模模塊：

1a 結(jié)構(gòu)化容量需求：

1b 動態(tài)容量需求：

2. 處理/中間件流

2a 2b 2c 基本服務(wù)（監(jiān)控和日志聚合、數(shù)據(jù)治理、數(shù)據(jù)安全）：

2e 分析/數(shù)據(jù)科學(xué)工作負(fù)載：

2f 開發(fā)人員/非產(chǎn)品工作負(fù)載：

2g 運(yùn)維/ETL/批處理工作負(fù)載：

2h分布式查詢處理/可視化層工作負(fù)載

2i 流式工作負(fù)載、 處理工作負(fù)載

2j持久層、存儲遍歷和占用

YARN（或 Future Spark-on-Kubernetes）調(diào)度程序的容量治理：

SRE 日歷和合規(guī)，每日、每周、每月花名冊

3. 供應(yīng)/基礎(chǔ)設(shè)施流

3a本地基礎(chǔ)設(shè)施

3b容器化（云原生）基礎(chǔ)設(shè)施

3c公有云（IAAS / PAAS / SAAS）

基礎(chǔ)設(shè)施供應(yīng)反饋回路

結(jié)論

不卡av在线播放_欧美成人AU在线看_亚洲一区二区视频_五月天亚洲无码伊人

混合云、多租戶大數(shù)據(jù)平臺的容量和合規(guī)性思考

2. 基礎(chǔ)設(shè)施利用率、消費趨勢以及分析

4、性能優(yōu)化

5. 高可用性、容量冗余和可擴(kuò)展性

6. 自動擴(kuò)展、自我修復(fù)、成本優(yōu)化

2a 2b 2c 基本服務(wù)（監(jiān)控和日志聚合、數(shù)據(jù)治理、數(shù)據(jù)安全）：

2i 流式工作負(fù)載、處理工作負(fù)載

2j持久層、存儲遍歷和占用

SRE 日歷和合規(guī)，每日、每周、每月花名冊