Takzvané „horké čipy“ NVIDIA jsou ve skutečnosti „horké platformy“

Sep 03, 2024

Zanechat vzkaz

NVIDIA se zaměřuje na inženýrské projekty na úrovni systému a datových center zaměřené na vytváření pokročilých systémů a platforem schopných zvládnout složité generativní výzvy AI.

Začátkem tohoto měsíce se NVIDIA setkala se vzácnými špatnými zprávami, když se objevily zprávy, že vysoce očekávané „Blackwell“ GPU akcelerátory společnosti mohou být zpožděny až o tři měsíce kvůli konstrukčním chybám. Mluvčí NVIDIA však uvedl, že vše probíhá podle plánu. Někteří dodavatelé uvedli, že se nic nezměnilo, zatímco jiní zaznamenali běžná zpoždění.

Zasvěcenci očekávají, že až společnost NVIDIA příští středu oznámí své finanční výsledky za 2. čtvrtletí FY2025, uživatelé získají více informací o stavu společnosti Blackwell.

Uvádí se, že čipy Blackwell-B100, B200 a GB200-budou vrcholem letošní konference Hot Chips, která se bude konat příští týden na Stanfordské univerzitě v Kalifornii. NVIDIA představí svou architekturu, podrobně popíše některé nové inovace, nastíní použití umělé inteligence při návrhu čipů a prodiskutuje výzkum kapalinového chlazení v datových centrech používaných ke spouštění těchto rostoucích úloh umělé inteligence. Podle ředitele NVIDIA pro Accelerated Computing Products, Davea Salvatora, společnost také představí čipy Blackwell, které již fungují v jednom z jejích datových center.

Blackwell chips

▲ Čipy Blackwell

Mnoho z toho, co NVIDIA o Blackwellu diskutuje, je již známo, jako například GPU Blackwell Ultra, který bude uveden na trh příští rok, a nová generace Rubin GPU a Vera CPU se začnou zavádět v roce 2026. Salvator však zdůraznil, že když mluvíme o Blackwell, je důležité na něj pohlížet jako na platformu, nikoli jako jediný čip. Salvator to uvedl na briefingu pro novináře a analytiky tento týden v rámci příprav na Hot Chips.

"Když se zamyslíte nad NVIDIA a platformami, které budujeme, GPU, sítě a dokonce i naše CPU jsou jen začátek," řekl. „Provádíme inženýrství na úrovni systému a datových center, abychom vytvořili tyto systémy a platformy, které skutečně dokážou vyjít vstříc skutečně náročným generativním výzvám AI. Viděli jsme, jak se rozsah modelů postupem času rozrůstá a většina generativních aplikací AI musí běžet v reálném čase, přičemž požadavky na odvozování se v posledních letech dramaticky zvyšují. Odvozování velkého jazykového modelu v reálném čase vyžaduje více GPU a v blízké budoucnosti bude vyžadovat více serverových uzlů.

ANNOUNCING NVIDIA BLACKWELLPLATFORM FOR TRILLION-PARAMETER SCALE GENERATIE AI

To zahrnuje nejen GPU Blackwell a CPU Grace, ale také čipy NVLink Switch, Bluefield{0}} DPU, ConnextX-7 a ConnectX-8 NIC, Spectrum-4 ethernetové přepínače a Quantum -3 Přepínače InfiniBand. Salvator také poskytl různé pohledy na NVLink Switch (níže), výpočet, Spectrum-X800 a Quantum-X800.

NVIDIA představila velmi očekávanou architekturu Blackwell na své konferenci GTC 2024 v březnu tohoto roku, přičemž se rychle přihlásili hyperškáloví prodejci a OEM. Společnost se zaměřuje na rychle se rozvíjející generativní oblast AI, kde se velké jazykové modely (LLM) stávají ještě masivnějšími. Llama 3.1 společnosti Meta, která byla uvedena na trh v červnu, je důkazem tohoto trendu a představuje model s 4,05 bilionu parametrů. Salvator poznamenal, že jak se LLM zvětšují, přetrvává poptávka po odvozování v reálném čase, což vyžaduje více výpočtů a nižší latenci, což vyžaduje platformový přístup.

„Stejně jako u většiny ostatních LLM se očekává, že služby poháněné tímto modelem poběží v reálném čase. Abyste toho dosáhli, potřebujete více GPU. Výzvou je, jak dosáhnout obrovské rovnováhy mezi vysokým výkonem GPU, vysokým využitím GPU a poskytováním dobrého uživatelského zážitku pro koncové uživatele, kteří využívají tyto služby řízené AI,“ řekl.

Need for Speed

Díky Blackwellu NVIDIA zdvojnásobila šířku pásma každého přepínače a zvýšila ji z 900 GB/s na 1,8 TB/s. Technologie Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) společnosti přináší více výpočetní techniky do systémů, které jsou ve skutečnosti umístěny v přepínačích. Umožňuje nám to vyjmout některé úkoly z GPU, což pomáhá urychlit výkon a také pomáhá hladkému síťovému provozu přes strukturu NVLink. Toto jsou inovace, které nadále řídíme na úrovni platforem.

Víceuzlový GB200 NVL72 je kapalinou chlazené šasi, které spojuje 72 GPU Blackwell a 36 CPU Grace v rackovém provedení. NVIDIA tvrdí, že poskytuje vyšší výkon odvození pro LLM s biliony parametrů, jako je GPT-MoE-1.8T, efektivně fungující jako jediný GPU. Jeho výkon je 30krát vyšší než u systému HGX H100, přičemž tréninková rychlost je čtyřikrát rychlejší než u H100.

NVIDIA také přidala nativní podporu pro FP4 pomocí Quasar Quantization System společnosti, který poskytuje stejnou přesnost jako FP16 a zároveň snižuje využití šířky pásma o 75 %. Quasar Quantization System je software, který využívá Blackwell's Transformer Engine k zajištění přesnosti. Salvator to demonstroval srovnáním generativních obrázků AI vytvořených pomocí FP4 a FP16, s malým nebo žádným rozeznatelným rozdílem mezi těmito dvěma.

Při použití FP4 mohou modely využívat méně paměti a fungovat dokonce lépe než FP8 v GPU Hopper.

Kapalinové chladicí systémy

Pokud jde o kapalinové chlazení, NVIDIA představí teplovodní přímou metodu chip-to-chip, která může snížit spotřebu energie datového centra o 28 %.

Salvator řekl: "Zajímavé na této metodě jsou některé z jejích výhod, které zahrnují zvýšenou účinnost chlazení, nižší provozní náklady, prodlouženou životnost serveru a potenciál znovu využít zachycené teplo pro jiné účely. Rozhodně to pomáhá zlepšit účinnost chlazení. Jedna z způsob, jak toho dosáhnout, jak název napovídá, je to, že tento systém ve skutečnosti nepoužívá chladiče. Pokud se zamyslíte nad tím, jak funguje chladnička, funguje to docela dobře „Nemusíme používat chladiče, což nám šetří energii a snižuje provozní náklady.“

Dalším tématem je, jak NVIDIA využívá AI k navrhování svých AI čipů pomocí Verilog, jazyka pro popis hardwaru, který se už čtyřicet let používá k popisu obvodů v kódu. NVIDIA rozvíjí toto úsilí prostřednictvím autonomního agenta Verilog s názvem VerilogCoder.

AI chips

Řekl: "Naši výzkumníci vyvinuli velký jazykový model, který může urychlit vytváření kódu Verilog, který popisuje naše systémy. Použijeme ho v budoucích generacích produktů, abychom pomohli vytvořit tyto kódy. Dokáže spoustu věcí. Může pomoci urychlit proces navrhování a ověřování Může urychlit manuální operace návrhu a zásadně automatizovat mnoho úkolů."