守護毫秒之間 托舉澎湃算力
——走近貴州省貴安新區“算力管家”
訂閱已訂閱已收藏
收藏![]() |
|
圖①:動力運行維護工程師簡崇海在仔細檢查機房動力供給情況。 |
清晨6點,晨霧還未從喀斯特群山間散去,中國移動貴陽數據中心的機房裡,動力運行維護工程師簡崇海已經換上工裝,開始了一天中的第一輪巡檢。他的腳步很輕,耳朵卻豎得老高:“服務器低鳴中,任何一絲異響都可能意味著‘險情’。”
這裡是貴州省貴安新區,全國八大一體化算力網絡國家樞紐節點之一,50個重點數據中心在此聚集,算力規模達160百億億次/秒(EFLOPS)。從粵港澳大灣區的AI訓練,到北京影視公司的特效渲染,海量算力訂單從全國各地飛來,在這裡完成計算,再無聲返回。
極速算力“狂飆”背后,是誰在默默守護?支撐這一切的,不隻有服務器和交錯的線纜,更是一群晝夜在崗、毫秒響應的“算力管家”。近日,記者走進貴安新區數據中心、機房現場,看這群幕后英雄如何用專業與堅守,為貴州蓬勃發展的算力產業寫下扎實注腳。
動力運行維護工程師:
當好設備“把脈人”
4月以來,貴安新區陰雨連綿,雷電天氣頻頻出現。對簡崇海來說,這樣的天氣,等同於拉響“戒備警報”。
作為中國移動貴陽數據中心動力運維團隊的一員,他的核心職責是保障高低壓配電平穩供給,維護暖通系統及服務器等設備正常運轉。“簡單說,就是讓每一度電安全抵達每一台服務器,讓每一絲冷氣精准覆蓋每一塊CPU。”簡崇海這樣定義自己的工作:“我們守護的不只是機器,是數據中心的‘心跳’。”
得知氣象預報有雨,這天一早,他比往日提前半小時到崗。沒有絲毫耽擱,迅速組織團隊開展起雨天故障模擬演練。“如果遭遇滲水怎麼辦?供電波動怎麼處置?”他把一個個問題拋出來,讓團隊成員一一作答,直到每個人都將應急預案化作肌肉記憶。
記者跟著巡檢團隊走進機房,成排的服務器機櫃在低鳴中吞吐數據,指示燈閃爍不停,簡崇海介紹起情況如數家珍:“這座數據中心建筑面積約19萬平方米,相當於26個足球場大小,目前已投產5棟機樓,裝機能力近3萬標准機架,服務器超4萬台。”
如此龐大的體量,動力運維團隊每巡檢一棟機樓需要3小時,每日巡檢4次。一天下來,累計巡檢時長超過12小時。可比起不停歇的腳步,更磨人的是時刻緊繃的神經。
“去年7月31日凌晨1點,園區突發電力故障,停電34分鐘﹔2024年4月5日,暖通系統進水進氣……”即便已入行14年,說起幾次突發故障處置的經歷,簡崇海仍心有余悸。
“故障處置,毫厘必爭。”他解釋道,市電指示燈閃爍超過20毫秒就可能導致設備斷電,超過3秒即為停電事故。大模型訓練對電力連續性要求極高,一旦停機就可能造成巨大損失。應急處置的窗口期往往是毫秒級,考驗的是動力運行維護工程師條件反射般的熟練和冷靜。
時間長了,簡崇海總結出一套巡檢的“獨門心法”:望設備指示燈有沒有異常跳變,聞空氣中有沒有焦味,問現場同事有沒有覺察不對勁,聽電力暖通設備有沒有異響。
“一個指示燈跳變,可能意味著供電支路出了問題﹔一絲焦味,可能是某塊電路板溫度過高。這些信號稍縱即逝,抓住了就可能避免一場大事故。”他邊走邊向同事交代:“巡檢一定要不留死角、不漏隱患!”
除了守護設備安全穩定運行,簡崇海還有一項需要精打細算的工作——探索數據中心節能降耗路徑。“園區運維成本中,電費就佔一半。”簡崇海笑著拍了拍機房的密封門說:“你讓冷氣跑出去一秒鐘,機器就得‘多喘幾口氣’,都是實打實的電耗。”
為此,他要求團隊進出機房隨手關門,將機房供回水溫度從14℃提升至17℃……“可別小看這3℃,是我們一點一點試出來的。水溫每提高1℃,冷機節能率便能提升5%。”簡崇海說:“我們一邊盯著安全,一邊摳著能耗,在這兩根弦之間找到那個剛剛好的音,就為了把好機房的‘脈’。”
智算創智工程師:
暢通數據“高速路”
如果說動力運行維護讓算力能時刻“用得上”,要想讓它更快“跑起來”,還需要架設好數據“高速路”。這時,就輪到“雲端機房”裡的智算創智工程師們大顯身手了。
數據“高速路”怎麼建?走進中國移動貴陽數據中心智算中心,智算創智工程師蔣治齊正盯著屏幕上跳動的算力曲線和資源佔用數據。“首先,要讓服務器‘接進來’。”他掰著手指介紹,每當有新設備上架,不只是簡單的“插電開機”,還需要協同完成服務器接入、網絡聯調、平台納管等一系列操作。
“就像新住戶搬進小區,水電煤氣、寬帶網絡,哪一樣沒通,都住不成。”蔣治齊給記者打了個比方:“我們的活兒,就是讓每一台服務器‘拎包入住’、即刻開工,讓算力流動起來。”
目前,貴州智算規模佔比超過98%,越來越多的企業、科研機構和政企客戶選擇購買貴州算力服務。蔣治齊繼續解釋:“想要讓遠在千裡之外的用戶調用貴州算力時,能像使用本地水電般暢快,還得需要算力‘跑得更快’。”
在他身后的大屏上,NPU/GPU利用率、顯存使用率、設備溫度、業務負載等核心指標實時滾動。他指著一條突然飆升的曲線說:“你看,這個時間點有個大模型訓練任務剛提交上來,GPU利用率瞬間提高了。這時候網絡稍微有點擁塞,都會影響訓練效率。”
“過去,存儲在貴州的數據跨省傳輸時,多數得先到四川成都、廣東廣州等‘中轉站’周轉,再傳到目的地。”蔣治齊介紹。現在,貴安新區已與42座國內主要城市實現網絡直連,構建起“3ms/10ms/20ms”超低時延圈,讓“東數西算”“東數西訓”“東數西渲”等多元服務和產業發展模式更加高效便捷。
算力服務百花齊放的態勢,也讓蔣治齊的工作內容愈發繁重。過去一年,開展算力運行數據分析與優化,為人工智能及各行業數字化轉型提供支撐,這成為了他需要快速學習上手的“新技能”。
“小到每一次負載變化,大到算力資源分配的合理性,我們都要一一排查、認真分析。”在蔣治齊看來,“智算運維的意義不隻在於保障設備不出故障,更在於通過精細化的運行管理,讓算力從‘可用’邁向‘好用’,服務千行百業。”
算力調度員:
激活供需“資源池”
暢通數據“高速路”,實現了更龐大的算力、更低時延的傳輸。不過,要想讓算力“用得好”,還有一道關鍵工序——高效調度。
在貴州省級市場化算力調度平台——貴州樞紐算力調度平台后台,全省50余家數據中心的算力產品及服務、可調度算力規模、算力券及交易數據等運行指標正實時更新。貴州省算力科技有限責任公司技術部總經理張中緊盯著屏幕,在供需兩端尋找“最優解”。
“來自貴安新區的這些數據,是一場關乎算力供需、時效的毫秒級‘競速’。”這位算力調度員笑著自我介紹,“我們是算力‘搬運工’,就是讓閑置算力活起來,讓企業的迫切需求落得下。”
為提高算力供需匹配效率,在平台上進行算力統籌和調度,貴州編織起一張算力網。2025年,貴州算力運營服務收入達824億元。這背后,是無數次供需匹配、資源協調凝聚的合力。
“算力調度工作可不是‘按鍵即達’那麼簡單。算力需求的區域分布、時延要求、交付周期與算力供給方算力規模、網絡條件、交付能力很難精准匹配。”張中向記者分享起工作心得,“平台算法可以預判,但人工復核與跨方協調,才是保障調度精准高效的硬功夫。”
“一筆訂單,往往要反復溝通調配十余次。”張中說,面對進口算力報價的劇烈波動,或是大型企業復雜的中長期需求,算力平台方必須在決策鏈與市場效率之間尋找平衡,常常忙到深夜。
算力交易不是“一錘子”買賣,工作的難點還不止於此。“算力交付后的運維服務,比如接口讀取異常、應用端調用失敗、國產算力適配主流模型等問題,都是算力調度工作中的‘攔路虎’。”張中一一列舉解釋。
為此,他帶領團隊按照“基礎設施—網絡—軟件”的邏輯逐層排查,攻堅適配難題。為了擴大“算力資源池”,他們還先后打通貴州電信“息壤”平台、華為公有雲資源池,實現天翼雲、華為雲算力的統一調度。完成與國家算力監測調度平台對接,構建起“國家—樞紐節點—數據中心”三級監測體系。
夜色漸濃,屏幕閃爍間,算力流轉不息。“從‘可用’‘好用’,再到‘人人用’,是一場需要耐心的‘持久戰’。”張中語氣堅定,“我們的所有努力,都是為了讓貴州算力價值更充分釋放,成為數智化發展的普惠底座。”
(陳潔泉參與採寫)
分享讓更多人看到
- 評論
- 關注




































第一時間為您推送權威資訊
報道全球 傳播中國
關注人民網,傳播正能量