語種
中文簡體 中文繁體 English
營業廳
網上營業廳 掌上營業廳
返回頂部
“翼”鳴驚人,天翼雲兩篇論文被ACM ICPP 2024收錄!
2024-06-14 雲公司
分享:
   

近日,由天翼雲科技有限公司彈性計算產品線天璣實驗室撰寫的兩篇論文《PheCon: Fine-Grained VM Consolidation with Nimble Resource Defragmentation in Public Cloud Platforms》及《Yggdrasil: Reducing Network I/O Tax with (CXL-Based) Distributed Shared Memory》被ACM International Conference on Parallel Processing(ICPP)收錄。

ACM ICPP是計算機體係結構、並行與分布計算、存儲係統領域的頂級會議之一,也是世界上最古老的連續舉辦的並行計算國際會議之一。ACM ICPP收錄論文均經過嚴格的同行雙盲評審,近五年平均接收率為27.9%。此次天璣實驗室兩篇論文的成功收錄,既是頂級權威機構對天翼雲技術創新能力的認可,也是中國企業在國際學術舞台影響力日益增強的有力證明。

本次收錄的兩篇論文分別闡述了天翼雲天璣實驗室團隊自主設計與研發的兩大創新成果,包括麵向大規模雲數據中心管理的智能資源調度技術——PheCon,和基於“聚合計算”產品理念的麵向新一代雲計算基礎設施的網絡I/O加速技術——Yggdrasil。

PheCon:細粒度雲數據中心 智能資源碎片整理算法

在雲計算場景下,由於數據中心負載水平的波動性和需求的不確定性,各個物理服務器普遍存在資源碎片問題,造成數據中心資源浪費。如圖1所示,客戶需要緊急開通6台指定規格的雲服務器,但集群內剩餘資源隻能滿足4台雲服務器,形成典型的資源碎片現象。如何應對資源擴容中常見的周期長、成本高等挑戰,滿足極端場景下的客戶需求,成為亟需解決的難題。

圖1.碎片整理示意圖

本論文創新性提出一種新型細粒度碎片整理算法——PheCon,通過雲服務器二次調度的方式聚合集群內資源碎片,以滿足更大規格資源的開通需求。同時,該論文還提出了基於分治思想的NUMA感知啟發式算法和“誘導遷移”(Induced Migration)技術,通過規格填充、物理服務器選擇、雲服務器排序和NUMA調度,實現集群布局優化。

基於上述技術特點,PheCon可適配天翼雲“2+4+31+X”的資源布局和異構數據中心的異構資源特點,做到一池一算、算無遺策,滿足全域異構資源的二次調度,實現分鍾級的快速碎片整理,提供優質的上雲體驗。目前,天璣智能調度平台穩定運行PheCon碎片整理功能,累計提供服務72次,每年節省運營成本超過千萬元,減少碳排放超百噸。

Yggdrasil:CXL使能的無感 網絡I/O性能加速

在通信密集型應用程序的運行過程中,基於Linux內核的操作係統網絡通訊組件麵臨巨大的運行負擔。為有效解決上述問題,本論文提出Yggdrasil網絡通訊平替方案。

Yggdrasil是天翼雲聚合計算團隊預研的下一代數據中心網絡通信技術。如圖2所示,該技術可基於CXL共享內存實現用戶態的高性能TCP/IP通信,且完全兼容現有的socket API,無需修改代碼即可完成性能加速。天璣實驗室團隊通過模擬和真實CXL硬件進行評估的結果表明,Yggdrasil可使Memcached的吞吐性能相比傳統Linux socket高出8.2倍,並在不同消息大小的微基準測試中,將通訊延遲降低到傳統方式的0.3%到4.1%。

圖2.關於Yggdrasil快速/慢速通信路徑示意圖

Yggdrasil的性能優勢與易用性主要得益於三個方麵的設計優化:

(1)在跨主機通信中,Yggdrasil采用基於CXL的分布式共享內存(即快速通信路徑)以提升性能,在CXL不可用的情況下,自動無感切換回傳統socket(即慢速通信路徑)。

(2)Yggdrasil依托於受信任的用戶空間監控守護進程管理通訊連接控製平麵操作,減少上下文切換開銷。數據平麵采用對等模型進行跨物理主機的進程間通信,充分利用CXL共享內存的性能優勢。

(3)為彌補socket API和共享內存之間的語義鴻溝,采取多種技術兼顧接口兼容性和性能優勢。

基於Yggdrasil的I/O網絡性能優勢及良好的API接口兼容性,Yggdrasil方案將在天翼雲彈性計算產品線自主設計和研發的聚合計算平台進行落地,以減少網絡I/O稅,從而為客戶提供更澎湃的算力資源,助力千行百業創造更多價值。

麵向未來,天翼雲將繼續加強關鍵核心技術自主攻關,以領先的產品能力夯實數字基礎設施底座,為千行百業數字化轉型保駕護航。

掃一掃在手機打開當前頁