背景
超大規(guī)模數(shù)據(jù)中心運(yùn)營商和金融機(jī)構(gòu)正競相搭建私有及AI數(shù)據(jù)中心,這使得密集型光互聯(lián)技術(shù)和高性能光模塊的應(yīng)用達(dá)到了新高度。由于涉及成千上萬的可插拔光模塊,每一次“疑似故障”都意味著預(yù)算、時間和可持續(xù)性方面的損失。
挑 戰(zhàn)
本文要講述的,是一個同時困擾著某超大規(guī)模數(shù)據(jù)中心運(yùn)營商和一家國際金融機(jī)構(gòu)的問題。在搭建數(shù)據(jù)中心的過程中,這兩家都發(fā)現(xiàn)了一個令人擔(dān)憂的現(xiàn)象:新部署的光模塊中,至少有5%被初步判定為無法使用,但重新測試后卻發(fā)現(xiàn),其中僅有約1%是真的存在缺陷。這就暴露出一個問題:其實(shí)有大量被擱置的光模塊實(shí)際上還能用。
由于沒有快速且規(guī)范的光模塊驗(yàn)證方法,團(tuán)隊(duì)只能謹(jǐn)慎行事,把好多模塊都當(dāng)作故障品處理。這么一來,大量資金被“隔離”庫存套住了,更換成本也蹭蹭往上漲,供應(yīng)商管理也變得復(fù)雜起來,特別是面對各種不同規(guī)格和供應(yīng)商的時候,更是讓人頭疼。
保修索賠也是個老大難問題。交易量大、供應(yīng)商多,模塊類型又五花八門,想要證明故障、明確責(zé)任,那真是難上加難。而且,缺乏一致的測試數(shù)據(jù),決策者們根本沒法對供應(yīng)商的故障率提出質(zhì)疑,也沒法談更好的條件,更別提優(yōu)化未來的采購策略了。
解決方案
這兩家組織都求助于EXFO的iOptics應(yīng)用程序,旨在為光模塊驗(yàn)證帶來結(jié)構(gòu)性和透明度。iOptics集成在EXFO的高速測試平臺中,能對各種光模塊(包括專用的NVIDIA RHS OSFP光模塊)進(jìn)行自動化、符合MSA標(biāo)準(zhǔn)的測試。
EXFO與這兩家客戶密切合作,根據(jù)這些AI數(shù)據(jù)中心環(huán)境的特殊性,進(jìn)一步調(diào)整了功能和驗(yàn)證標(biāo)準(zhǔn)。iOptics可在幾分鐘內(nèi)驗(yàn)證疑似“故障”的模塊,并生成一致的測試報告,為工程和運(yùn)營團(tuán)隊(duì)提供了一種清晰、可重復(fù)的方法,以便將真正存在缺陷的光模塊與可安全返回庫存的光模塊區(qū)分開來。
通過與EXFO Exchange實(shí)現(xiàn)集成,所有iOptics的測試結(jié)果都能直接上傳到云端環(huán)境。這樣一來,報告生成變得高效又簡潔,團(tuán)隊(duì)可以輕松按照供應(yīng)商、部件編號以及故障類型來對數(shù)據(jù)進(jìn)行細(xì)致分析,把每一次單獨(dú)的測試結(jié)果,整合成對整個設(shè)備群體健康狀況的全面洞察。
最終,團(tuán)隊(duì)能夠深入掌握光模塊的“健康狀態(tài)”,包括不同類型和供應(yīng)商的光模塊故障率,從而做出更加明智、更有依據(jù)的商業(yè)決策。
表1. 從“故障”到正??捎茫和ㄟ^使用iOptics對每一個疑似故障光模塊進(jìn)行驗(yàn)證,客戶發(fā)現(xiàn)其“故障”池中的大多數(shù)模塊實(shí)際上性能良好。他們沒有直接更換這些模塊,而是將保修索賠集中在真正存在缺陷的模塊上,讓性能良好的光模塊重新投入使用,并減少了浪費(fèi),從而提高了每個AI數(shù)據(jù)中心建設(shè)的投資回報率。
結(jié) 論

隨著超大規(guī)模數(shù)據(jù)中心和金融機(jī)構(gòu)不斷擴(kuò)大私有集群和AI集群規(guī)模,光模塊已然成為關(guān)鍵組件,在成本中也占據(jù)了相當(dāng)大的比重。借助iOptics和EXFO Exchange,各組織就能對可插拔光模塊進(jìn)行精準(zhǔn)驗(yàn)證,用實(shí)實(shí)在在的數(shù)據(jù)為保修索賠提供有力支撐,還能根據(jù)真實(shí)的故障模式來制定采購決策,而不是僅憑主觀猜測。最終,這不僅為性能表現(xiàn)打下了堅(jiān)實(shí)基礎(chǔ),也讓企業(yè)的盈利狀況更加可觀。