當 AI 伺服器對散熱技術需求變高!為何趨勢從「氣冷」走向「液冷」?
輝達(NVIDA)執行長黃仁勳今年在 COMPUTEX 2023 掀起 AI 伺服器浪潮,雙鴻董事長林育申指出,其中有一場美系大客戶演說所展示的伺服器產品,幾乎都是雙鴻做的水冷散熱模組,而雙鴻布局水冷散熱模組多年,正好為這股 AI 浪潮搶占先機,但是 AI 伺服器對散熱要求越來越高,為何趨勢從「氣冷」走向「液冷」?
高速運轉使散熱從「氣冷」走向「液冷」
從散熱技術來說,林育申指出,目前散熱模組是以含有熱導管技術的主被動混合式散熱技術為主,熱管散熱模組是將風散、散熱片、熱導管等元件設計組合而成,能使內部電子零組件享有均溫散熱的運作環境,使電子設備運作更趨穩定,但是現在下游終端電子產品走向多功能與輕薄化,使得散熱模組廠轉而設計以均熱板、熱導管為主的散熱解決方案。
目前散熱模組分為「氣冷散熱」和「液冷散熱」兩種,其中氣冷散熱就是用空氣做為媒介,透過熱介面材料、均熱片(VC)或熱導管等中間材料,由散熱片或風扇與空氣對流進行散熱,而「液冷散熱」則是透過,或浸沒式散熱,主要就是透過與液體熱對流散熱,進而使晶片降溫,但是隨著晶片發熱量的增加與體積的縮小,晶片熱設計功耗(TDP)的提高,氣冷散熱逐漸不敷使用。
隨著 ChatGPT 的崛起,生成式 AI 更是帶動伺服器的出貨上揚,連帶要求散熱模組的規格升級,推動散熱模組走向液冷方案升級,以滿足伺服器對散熱性和穩定性的嚴格要求,林育申指出,雙鴻從氣冷散熱技術開始,早在 10 年前就透過 IBM 技轉液冷散熱技術,並提供水冷背門,讓客戶可以不用改變現有的資料中心基礎建設,就能直接加掛水冷背門到機櫃使用。
2025 年將走向氣冷、液冷並行時代
受到 AI 應用帶動相關半導體技術發展,ChatGPT 的 GPT-3 導入更是讓 AI 演算法參數量成長到 1750 億,使得 GPU 運算力要成長百倍目前業界多以液冷中的單相浸沒式冷卻技術,解決高密度發熱的伺服器或零件散熱問題,但仍有 600W 的上限值,因為 ChatGPT 或更高階的伺服器散熱能力須高於 700W 才足以因應。
隨著物聯網、邊緣運算、5G 應用的發展,資料 AI 帶動全球算力進入高速成長期,下一代的散熱模組設計,主要有兩大方向,ㄧ是使用 3D 均熱板(3DVC)升級現有散熱模組,二是導入液冷散熱系統,改用液體當作熱對流介質,提升散熱效率,因此 2023 年液冷測試案量顯著增加,但是 3DVC 終究只是過渡方案,預估 2024 年到 2025 年將進入氣冷、液冷並行的時代。
根據研究機構 TrendForce 的統計,2022 年搭載 GPGPU(General Purpose GPU)的 AI 伺服器出貨量比重約 1%,但是 2023 年受到 ChatGPT 應用的帶動,預期 AI 伺服器出貨量將成長 38.4%,整體 2022 年到 2026 年的 AI 伺服器出貨量年複合成長率達 29%。
「液冷」散熱將成 AI 晶片主流
由於新一代伺服器 TDP 提升到接近氣冷散熱的極限,因此電子科技大廠紛紛開始測試液冷散熱,或增加散熱空間,像是英特爾(Intel)的 Eagle Stream、超微(AMD)的 Genoa TDP 350-400W 就達氣冷極限,使得液冷散熱成為 AI 晶片主流,像是 NVIDA H100 的 TDP 就達 700W,氣冷採 3DVC,普遍需 4U 以上空間,並不符合高密度部署架構。
以散熱系統占資料中心總耗能約 33% 來看,減少總用電量降低電力使用效率(Power Usage Effectiveness)的方式,包含改善散熱系統、資訊設備,並使用再生能源,而水的熱容量是空氣的 4 倍,因此導入液冷散熱系統,液冷板只需要 1U 的空間,根據 NVIDIA 測試,若要達到相同算力,液冷所需的機櫃量可減少 66%、能耗可減少 28%、PUE 可由 1.6 降到 1.15,並可提升運算效能。
(首圖來源:Pixabay)