Když servery AI požadují vyšší technologii chlazení! Proč se trend posouvá z „Chlazení vzduchem“ na „Chlazení kapalinou“

Aug 23, 2024

Zanechat vzkaz

Generální ředitel společnosti NVIDIA Jensen Huang se na veletrhu COMPUTEX 2023 speciálně objevil, aby podpořil projev předsedy představenstva společnosti Supermicro Charlese Lianga. Předseda Fanner Lin Yushen poukázal na to, že většina serverových produktů vystavených na pódiu obsahovala Fannerovy moduly vodního chlazení. Společnost Fanner, která mnoho let investovala do modulů vodního chlazení, má dobrou pozici, aby mohla tuto vlnu umělé inteligence využít. Protože však servery s umělou inteligencí vyžadují stále vyšší standardy chlazení, proč se trend posouvá od „chlazení vzduchem“ k „chlazení kapalinou“?

I Od vysokorychlostního provozu po kapalinové chlazení

Pokud jde o technologii chlazení, Lin Yushen poznamenal, že současné chladicí moduly používají hlavně hybridní technologii chlazení, která zahrnuje tepelné trubice. Tyto chladicí moduly s tepelnými trubicemi kombinují komponenty, jako jsou ventilátory, chladiče a tepelné trubice, aby vytvořily vyvážené tepelné prostředí pro vnitřní elektronické součástky, čímž se zvyšuje stabilita elektronických zařízení. Avšak s tím, jak se koncové elektronické produkty stávají multifunkčnějšími a kompaktnějšími, výrobci chladicích modulů přešli k navrhování chladicích řešení zaměřených na parní komory a tepelné trubice.

V současné době se chladicí moduly dělí na dva typy: „chlazení vzduchem“ a „chlazení kapalinou“. Vzduchové chlazení využívá vzduch jako médium, přičemž materiály, jako jsou materiály tepelného rozhraní, parní komory (VC) nebo tepelné trubice, vedou teplo, které je pak odváděno přes chladiče nebo ventilátory prostřednictvím proudění vzduchu. Naproti tomu kapalinové chlazení odvádí teplo prouděním kapaliny, včetně imerzního chlazení, které ochlazuje čipy efektivněji. Jak však čipy generují více tepla a zmenšují se a jak se zvyšuje tepelný výkon (TDP), chlazení vzduchem postupně přestává stačit.

A comparison between air cooling and liquid cooling technologies

▲ Srovnání mezi technologiemi chlazení vzduchem a chlazením kapalinou

S nástupem ChatGPT generativní umělá inteligence způsobila nárůst dodávek serverů, což vedlo k upgradovaným specifikacím chladicích modulů, které je posunuly směrem k řešením chlazení kapalinou, která splňují přísné požadavky na chlazení a stabilitu serverů. Lin Yushen zdůraznil, že Fanner začal s technologií chlazení vzduchem a již před deseti lety začal získávat technologii chlazení kapalin prostřednictvím transferu technologie IBM. Poskytli zadní vrátka s vodním chlazením, která klientům umožnila přidat vodní chlazení do skříní bez úpravy stávající infrastruktury datového centra.

II Do roku 2025 nová éra souběžného chlazení vzduchem a kapalinou

Díky vývoji polovodičové technologie související s aplikacemi AI se zavedením GPT-3 do ChatGPT rozrostly parametry algoritmu AI na 175 miliard, což si vyžádalo stonásobné zvýšení výpočetního výkonu GPU. Průmysl primárně využívá technologii jednofázového ponorného chlazení v rámci kapalinového chlazení k řešení problémů s odvodem tepla u serverů nebo komponent s vysokou hustotou. Tato metoda má však limit 600 W, zatímco potřeba chlazení pro ChatGPT nebo pokročilejší servery přesahuje 700 W.

Illustration of single-phase immersion cooling technology

▲ Ilustrace technologie jednofázového ponorného chlazení

S rozvojem IoT, edge computingu a aplikací 5G posouvá datová umělá inteligence globální výpočetní výkon do fáze vysokého růstu. Další generace návrhů chladicích modulů bude sledovat dva hlavní směry: modernizaci stávajících chladicích modulů o 3D parní komory (3DVC) nebo zavedení kapalinových chladicích systémů, které využívají kapalinu jako tepelné konvekční médium pro zlepšení účinnosti chlazení. V důsledku toho se v roce 2023 výrazně zvýšil počet testů kapalinového chlazení. 3DVC je však nakonec přechodným řešením a očekává se, že do 2024-2025 začne éra souběžného chlazení vzduchem a kapalinou.

Podle TrendForce v roce 2022 tvořily servery s umělou inteligencí vybavené GPGPU (General Purpose GPUs) asi 1 % celkových dodávek. Díky aplikaci ChatGPT se však očekává, že dodávky serverů AI v roce 2023 vzrostou o 38,4 %, přičemž složená roční míra růstu dodávek serverů AI mezi lety 2022 a 2026 dosáhne 29 %.

III „Liquid Cooling“ se stane hlavním proudem pro AI čipy

Jak se TDP nové generace serverů blíží limitům chlazení vzduchem, začínají přední technologické společnosti testovat kapalinové chlazení nebo zvětšovat chladicí prostor. Například Intel Eagle Stream a AMD Genoa TDP 350-400W dosáhly limitů vzduchového chlazení, díky čemuž je kapalinové chlazení hlavním řešením pro čipy AI. NVIDIA H100 má TDP 700 W a vzduchové chlazení pomocí 3DVC obecně vyžaduje více než 4U prostoru, což není vhodné pro architektury s vysokou hustotou nasazení.

NVIDIA's H100

▲ NVIDIA H100

Vzhledem k tomu, že chladicí systémy představují přibližně 33 % celkové spotřeby energie v datových centrech, snížení celkové spotřeby energie a zlepšení účinnosti využití energie (PUE) zahrnuje optimalizaci chladicích systémů, IT zařízení a využívání obnovitelné energie. Vzhledem k tomu, že tepelná kapacita vody je čtyřikrát větší než kapacita vzduchu, vyžaduje implementace systémů chlazení kapalin pouze 1U prostoru pro desku chlazení kapalinou. Podle testů společnosti NVIDIA může pro dosažení stejného výpočetního výkonu kapalinové chlazení snížit počet potřebných skříní o 66 %, spotřebu energie o 28 % a PUE z 1,6 na 1,15 a zároveň zlepšit výpočetní výkon.

Použití chladicích modulů ventilátoru IV Supermicro je zásadní

Kapalinové chlazení se dále dělí na „vodní chlazení“ a „olejové chlazení“, přičemž v současnosti je nejpoužívanější vodní chlazení. Lin Yushen poznamenal, že téměř všechny servery AI nyní používají řešení vodního chlazení. Například NVIDIA GH100 s TDP přesahujícím 700 W musí používat vodní chlazení. Přestože vodní chlazení v současné době představuje malou část příjmů společnosti Fanner, průměrná prodejní cena (ASP) serverů s umělou inteligencí je desetkrát vyšší než u tradičních serverů, což pomůže transformovat produktovou strukturu společnosti Fanner ve druhé polovině roku. Odhaduje se, že v roce 2023 by servery AI mohly představovat 5-10 % jejich podnikání.

Lin Yushen zdůraznil, že hlavním důvodem, proč Supermicro používá moduly vodního chlazení od Fanner pro servery vybavené GPU NVIDIA GH100, je to, že Fanner pracuje na řešeních chlazení kapalinou více než deset let. Zatímco výzvy implementace vodního chlazení zahrnují především náklady a prevenci úniků, Fannerův více než desetiletý výzkum tyto problémy s úniky postupně překonal. Fannerova dlouhodobá investice do modulů vodního chlazení jim umožnila využít této vlny umělé inteligence.

Supermicro Custom Liquid Cooling

▲ Supermicro Vlastní Kapalina Chlazení

Lin Yushen zdůraznil, že neustálé zvyšování TDP způsobené vysokorychlostními výpočty a rostoucí požadavky na chlazení serverů s umělou inteligencí posunuly tradiční chlazení tepelnými trubicemi na své limity, což si vyžádalo přijetí modulů vodního chlazení. Fanner již má několik zákazníků, včetně Supermicro a Meta, kteří přijali jejich řešení. Navzdory rychlejšímu než očekávanému přijetí vodního chlazení je nepravděpodobné, že bude plně implementováno v roce 2023. Očekává se však, že do roku 2024 zaznamená významný průlom, přičemž v roce 2025 se očekává explozivní růst.