文章來源:21世紀經濟報道
文章標簽:【智能運維】【數據中心管理】【機房智能運維】【數據中心監(jiān)控】【機房監(jiān)控】【基礎設施管理】
伴隨著AI、大數據時代的到來,數據中心運維方式也在快速演進,新興的、智能化的技術不斷的融入到數據中心,讓數據中心運維管理變得更加高效。如何推動數據中心朝著更加綠色、安全、高效的方向邁進,聚焦數據中心的智能化運維值得深思。
西部群山之中,存放著數十萬機柜的數據中心正在有序運行。機房內,智能巡檢機器人代替人工進行著數據中心機房的運維工作。千里之外,該數據中心的運行數據指標在監(jiān)控總臺的屏幕上更新、躍動……
依托于智能化運維技術,上述場景得以成為現(xiàn)實。近年來,數據量爆炸性增長使得數據中心運維的復雜度和難度日益增大,隨著“東數西算”國家工程的啟動,數據中心進一步朝向綠色低碳、安全可靠、“無人化”作業(yè)的方向發(fā)展,行業(yè)對智能化運維的探索呼聲漸大。
然而,目前行業(yè)整體發(fā)展尚不均衡,數據中心運維達到自動化、智慧化仍前路漫長。受訪專家認為,缺乏標準規(guī)范是數據中心智能化運維的進一步發(fā)展面臨的關鍵難題,制定可通用的參考標準、營造開源、共享、共贏的行業(yè)生態(tài)推動人才培養(yǎng)等,是行業(yè)的共同期待。
邁向智能化
在數據中心行業(yè)內,“智能化運維”并非新鮮詞匯。
公開資料顯示,2017年前后,阿里、騰訊、華為等巨頭均曾就數據中心的智能化建設開展過相關實踐。2021年7月,工業(yè)和信息化部出臺《新型數據中心發(fā)展三年行動計劃(2021-2023年)》,明確提出“聚焦新型數據中心供配電、制冷、IT和網絡設備、智能化系統(tǒng)等關鍵環(huán)節(jié),鍛強補弱”,引導數據中心運維管理向智能化發(fā)展。
近年來,隨著“東數西算”國家工程的正式啟動和算力需求攀升,數據中心規(guī)模及其承載業(yè)務和數據量不斷增長,傳統(tǒng)人工運維方式的弊端逐漸顯現(xiàn),人手不足、操作失誤、疲勞等都可能埋下事故的導火索。據UPTIME統(tǒng)計,數據中心的故障有70%以上是人為因素導致的。智能化運維愈發(fā)成為行業(yè)集體探索的方向。
中國建筑科學研究院有限公司城鄉(xiāng)規(guī)劃院院長周海珠告訴21世紀經濟報道記者,智能化運維簡單概括來說就是通過全面的物聯(lián)感知和數字孿生技術優(yōu)化設備及系統(tǒng)的運行、減少運維人員數量、提升運維服務效率,來實現(xiàn)對運維精細度的優(yōu)化及運維可靠性的提升。
智能化運維將重復、繁瑣、耗時、易出錯的技術運維工作交給機器,通過處理和分析歷史設備運行數據,數據中心甚至能夠實現(xiàn)風險預警、快速介入。“樂觀估計,隨著數據中心智能化或自動化的程度越高,事故發(fā)生的數量和人為失誤的比例將持續(xù)降低?!庇墟诰W絡IDC運行部技術總監(jiān)蘇永華表示。
另一方面,數據中心綠色低碳發(fā)展的挑戰(zhàn)同樣推動數據中心的運維管理向智能化邁進。
去年底,工信部節(jié)能與綜合利用司發(fā)布《國家信息化領域節(jié)能技術應用指南與案例(2022年版)》之五,詳細介紹了多例智能化運維管理技術在綠色節(jié)能上的成效。以“結合人工智能(AI)的DCIM 數據中心智能管理系統(tǒng)”為例,該技術通過對數據中心基礎設施的監(jiān)測、管理和優(yōu)化,將運營管理和運維管理有機融合,提供數據中心全生命周期管理,結合人工智能,實現(xiàn)電能利用比值最低化,預計到2025年行業(yè)普及率可達到 30%,可實現(xiàn)節(jié)約標準煤2.4萬噸/年及以上。
此外,智能化運維還能讓分布在不同城市、不同園區(qū)的數據中心實現(xiàn)“千里眼”般的遠程運維服務。
蘇永華表示,目前數據中心有兩類發(fā)展模式:一類是園區(qū)級數據中心,其規(guī)模將越建越大,而另一類邊緣數據中心則反之。這些邊緣數據中心可能建在西部或其他偏遠地區(qū),企業(yè)往往無法派遣全套技術班子駐守當地。
智能化運維正在此時派上用場。“借助視頻監(jiān)控,技術人員可隨時查看現(xiàn)場情況,通過上傳總部的數據觀測風火水電或溫濕度,并掌握IT設備的運行情況。部分偏遠數據中心已做到了無人值守?!碧K永華說。
某業(yè)內人士也持相似觀點:從加快推進“東數西算”工程的角度來看,由于部分西部能源富集區(qū)人才資源暫時仍相對稀缺,發(fā)展智能運維,能夠在短期內讓數據中心運維更好地適應西部的發(fā)展環(huán)境,逐步將東部算力需求有序引導到西部。
老舊數據中心的改造難題
如何搭建數據中心智能化運維系統(tǒng)?
一般而言,首要需建設的是承載數據的運營平臺,并逐漸充實該平臺上的運維數據。數據中心的基礎設施(如風、火、水、電等設備,物聯(lián)網測點設備及IT設備等)產生的各類運行數據,是智能化過程中非常重要的養(yǎng)料,應及時對數據進行梳理、整合、入庫,實現(xiàn)運維數據的標準化處理,并建立起大數據的存儲、分析機制。
在上述基礎上,智能化運維系統(tǒng)能夠對數據進行可視化的呈現(xiàn),從海量的信息中分析提取出有價值的信息,并依據此輔助決策,如故障預測、節(jié)能調優(yōu)等,給出準確的運維建議。
下一步,數據中心還將實現(xiàn)監(jiān)控智能化、監(jiān)控與應急聯(lián)動化、日常操作的自動化,以及移動終端化等功能。
然而,在實踐中,還有更多的現(xiàn)實情況需要納入考量。例如,“東數西算”工程啟動以來,老舊數據中心升級換代的腳步加快,但新老數據中心由于建造技術上的差異,在智能化改造的過程中各有側重。
“新建數據中心智能化運維在部署期間由于業(yè)務系統(tǒng)尚未上架,運維系統(tǒng)施工簡單、各運維子系統(tǒng)的設計也更加靈活;而對于已有數據中心,用戶的使用痛點則更加明確,但是智能運維技術的施工和智能化的部署會相對復雜?!敝芎V橹赋?,部分老舊數據中心數據采集傳感器不達標,甚至沒有相應的數據接口,能夠獲取的數據量相當有限。同時,已投入使用的數據中心業(yè)務又不允許中斷,也就是要求在業(yè)務在線的情況下實現(xiàn)設備設施以及系統(tǒng)的換代升級。
也因此,他強調了新建數據中心在項目前期規(guī)劃階段充分溝通用戶需求、并將智能化運維系統(tǒng)納入規(guī)劃的重要性。相比于后期“亡羊補牢”,能夠節(jié)省大筆成本。
3-5年內建設的數據中心具備一定的系統(tǒng)開放性和數據連通性,但其開放接口、數據的模式等仍可能存在與最新標準不一致之處,需要在現(xiàn)有系統(tǒng)基礎上進行規(guī)整或二次開發(fā)。
而7-10年或10年以上的數據中心的設備和技術都相對老舊,有的系統(tǒng)或設備的廠商或已不再提供支持,其協(xié)議、系統(tǒng)也不再具有擴展性。此類數據中心的改造要兼顧其現(xiàn)有的穩(wěn)定性和客戶的需求,所以只能根據目前智能化的進展,分批、分類、分步地推進。
亟待“標準化”
智能化運維已經成為數據中心運維發(fā)展的必然趨勢。
21世紀經濟報道記者觀察發(fā)現(xiàn),當前,我國多家互聯(lián)網企業(yè)、第三方服務商等均已積極部署智能化運維平臺。
2022年,秦淮數據發(fā)布了自主研發(fā)的鯤鵬智慧運營平臺2.0版,升級的云邊協(xié)同和數據中臺能力,監(jiān)控點位接入數量接近千萬,同時數據采集和告警時效均控制在5秒以內,并通過數據中臺實現(xiàn)了集團數據中心的統(tǒng)一運營管理;有孚網絡則構建了數據中心巡檢分析模型,目前在新投入的數據中心機房中已規(guī)劃電力軌道升降式巡檢機器人、園區(qū)履帶式巡檢機器人以及室內輪式巡檢機器人的試點應用;騰訊懷來瑞北云數據中心基于騰訊智維平臺,構建了鏈接園區(qū)、區(qū)域、總部的三級閉環(huán)管理體系,故障自動定位的準確率高達 99.9%;世紀互聯(lián)則將元宇宙應用于數據中心運維,并發(fā)布了世紀互聯(lián)Meta42計劃……
目前整個行業(yè)的發(fā)展并不均衡,頭部企業(yè)與中小企業(yè)、不同年限數據中心之間的自動化程度不一。未來數據中心會朝著數智化、精細化以及自動化的方向發(fā)展,但前路仍然漫長,應分步驟、分階段地進行。
這一方面與建設智能化運維系統(tǒng)所需的投入相關。閆昆透露,這是一筆不菲且需持續(xù)多年才能看到效果的投資,除配備基礎的軟硬件外,開發(fā)智能化運維平臺的成本更是不可估量,部分企業(yè)的開發(fā)團隊人數高達幾十人,開發(fā)時間往往在三年以上。而將成功的運維模式復制到其他數據中心則相對簡單,這也是大企愿意投入資本的原因之一,他們擁有足夠多的數據中心,能夠產生規(guī)模效應。
另一方面,技術上還存在著瓶頸。將數據中心產生的海量運行數據進行降噪、分析和模型訓練并非易事,更何況智能化運維模型的更新和迭代過程復雜、周期長,不同地域甚至不同年份的氣候和環(huán)境可能都會產生差別,對模型的彈性應對提出更高的要求。目前,智能化運維僅能提供信息綜合而得的結論,無法代替人工決策。
此外,多位行業(yè)專家均提到,數據中心智能化運維的進一步發(fā)展面臨著“標準化”的難題。數據中心內的技術設備、機柜、應用標準的異構化,給云維平臺的兼容性改造和計算、存儲和網絡資源的融合帶來了挑戰(zhàn)。各數據中心API接口規(guī)范不一,也使得數據中心之間的孤島難以打通。
國家相關部門聯(lián)合企業(yè)共同探討針對數據中心智能化運維的參考標準,頭部或主力企業(yè)積極營造技術的開源、共享、共贏的行業(yè)生態(tài),為中小企業(yè)提供更多可復制的模式,同時大力推動智能化運維人才的培養(yǎng)等,是多位行業(yè)專家的共同期待。
展望未來,周海珠還提出了從智能運維轉向智慧運維的概念。前者是設施和設備的智能,僅關注對“風、火、水、電”等的底層管理;而后者則將是對人、機、物的深度融合,能夠實現(xiàn)網絡帶寬、計算資源、存儲資源及IT資源等的動態(tài)彈性分配?!皯獜牡椎巾?,構建完整的數據中心全業(yè)務支撐體系,這才是智慧運維的概念?!敝芎V檎f。
【計通智能】深圳市計通智能技術有限公司成立于1998年,屬國家高新技術企業(yè)、廣東省專精特新企業(yè),是國內領先的智能監(jiān)控數字化解決方案提供商。公司以“客戶安、員工安、企業(yè)安”的“計通三安文化”為基石,始終秉承“智能監(jiān)控 計通好用”的理念,致力為全球數智化建設提供優(yōu)質的產品和服務。
公司充分融合物聯(lián)網、大數據、人工智能等創(chuàng)新技術,打造出一系列具有行業(yè)特色的智能監(jiān)控數字化解決方案,廣泛應用于民航機場、金融系統(tǒng)、軌道交通、電力系統(tǒng)、工業(yè)互聯(lián)網、IDC數據中心等行業(yè)?,F(xiàn)已擁有3000+核心客戶,10000+精品案例,客戶遍布全國及海外。