Het nieuwe, moderne datacenter is niet zomaar een uitbreiding van een bestaand datacenter. In veel gevallen vereist het toevoegen van AI-mogelijkheden aan een onderneming een nauwkeurige planning en een nieuwe start. Het simpelweg toevoegen van een nieuwe GPU-geoptimaliseerde server aan een bestaande infrastructuur zal niet de resultaten opleveren die organisaties nodig hebben. AI-fabrieken produceren kennis uit bestaande gegevens en vereisen nieuw denken voor optimale resultaten.
Denkrichting op rackniveau
In het verleden werden individuele servers toegevoegd aan een bestaande set systemen in een rack op basis van bepaalde capaciteiten (CPU-snelheid, CPU GHz, hoeveelheid geheugen en een GPU-keuze).
Na verloop van tijd leidde deze opbouw van een datacenter tot een rack met veel verschillende systemen voor verschillende werklasten, waarbij elke server in principe op zichzelf stond. Hoewel sommige toepassingen werden ontworpen om over een aantal servers te draaien (HPC), betekende dit kennis van de netwerkprotocollen, extra software en vertragingen tijdens de communicatie tussen de systemen.
De nieuwe manier van denken is dat het “rack de nieuwe server” beheerders van datacenters in staat stelt een schaalbare oplossing te creëren door op rackniveau te denken.
Binnen een rack kan een volledige oplossing voor AI-training zelfvoorzienend zijn, met uitbreiding voor hogere prestatiebehoeften direct beschikbaar.
Een enkel rack kan tot acht servers bevatten, elk met acht onderling verbonden GPU’s. Vervolgens kan elke GPU communiceren met vele andere GPU’s in het rack, omdat de switches zich in het rack bevinden. Elke GPU kan dan communiceren met vele andere GPU’s in het rack, aangezien de switches zich in het rack bevinden. Dezelfde communicatie kan worden opgezet tussen racks om verder te schalen dan een enkel rack, waardoor een enkele toepassing duizenden GPU’s kan gebruiken.
Binnen een AI-fabriek kunnen verschillende GPU’s worden gebruikt. Niet alle toepassingen of hun overeengekomen SLA’s vereisen de snelste GPU’s die momenteel op de markt zijn. Minder krachtige GPU’s kunnen volstaan voor veel omgevingen en verbruiken doorgaans minder elektriciteit.
Bovendien hebben deze zeer dichte servers met GPU’s vloeistofkoeling nodig, wat optimaal is als de koelmiddeldistributie-eenheid (CDU) zich ook in het rack bevindt, waardoor de slangen korter zijn.
Het assembleren en testen van complete clusters is belangrijk voor het snel opstarten van een nieuwe AI-fabriek. De mogelijkheid van een enkele leverancier om alle componenten van een AI-fabriek te testen volgens de eisen van de klant, verkleint de kans op problemen bij de eerste installatie van de verschillende componenten op de locatie van de klant.
De L12 (cluster) integratie test niet alleen de hardware en netwerkcomponenten, maar test ook de softwareomgeving die op het hele cluster draait, niet alleen op een enkele server.
Vloeistofkoeling
De nieuwste generaties CPU’s en GPU’s duwen servers in de richting van vloeistofkoeling. Met elke nieuwe CPU- en GPU-technologie wordt het moeilijker om servers met meer dan 10 kW met geforceerde lucht te koelen.
Racks bieden nu plaats aan systemen die in totaal bijna 100 kW vermogen nodig hebben, en dus ook warmte die van het systeem moet worden afgevoerd om het op de aangegeven prestaties te laten draaien. Vloeistofkoeling wordt steeds gebruikelijker, vooral in AI- en HPC-omgevingen, waar de CPU’s en GPU’s continu op volle snelheid (of boost) moeten draaien. Vloeistofkoeling heeft het vermogen om honderden keren meer warmte af te voeren dan lucht, terwijl het ook de vereisten voor de koelinfrastructuur van datacenters vermindert.
In tegenstelling tot wat vaak wordt gedacht, kost een vloeistofgekoeld datacenter niet meer om te bouwen dan een luchtgekoeld datacenter en door een lagere OPEX (PUE is lager) zijn de besparingen nog jaren na de bouw zichtbaar. De voordelen van een vloeistofgekoeld datacenter kunnen worden samengevat:
Lagere effectiviteit van stroomverbruik (PUE) – er wordt minder stroom gebruikt buiten de servers, opslag en netwerkinfrastructuur.
Meer rekenkracht – met een lager stroomverbruik (lagere PUE) kunnen meer servers worden geïnstalleerd binnen hetzelfde budget voor een bepaald ingangsvermogen van het datacenter.
Sneller computergebruik – Dankzij vloeistofkoeling kunnen CPU’s langer op hun “boost”-snelheid werken, omdat de CPU’s koeler kunnen worden gehouden en dus niet afremmen.
Een volledige vloeistofkoelingsoplossing heeft koude platen nodig die de koellichamen vervangen die bovenop de CPU’s en GPU’s zitten. Er zijn slangenkits nodig om de koude vloeistof naar de juiste hardware te brengen en van dezelfde hardware te verwijderen.
Verdeelleidingen voor de koelmiddeldistributie leveren de koude vloeistof aan de servers en sturen de hete vloeistof terug naar de koeldistributie-eenheden (CDU). De CDU stuurt de hete vloeistof vervolgens naar een koel- of watertoren om de temperatuur van de vloeistof terug te brengen naar het punt waar het naar de servers kan worden gestuurd.
Anders dan een bestaand datacenter
Een nieuwe AI-fabriek is anders dan een bestaand datacenter. Met high-end servers die meerdere GPU’s bevatten, wordt een rack de basiseenheid voor verdere uitbreiding. Vervolgens kunnen deze basiseenheden worden opgeschaald tot volledige datacenters, waarbij elke GPU direct wordt aangesloten op andere GPU’s voor een massaal parallelle AI-trainingsmachine. Vloeistofkoeling is essentieel voor deze servers met een hoge dichtheid omdat de TDP van de CPU’s en GPU’s blijft stijgen.
Michael McNerney, Vice President Marketing & Network Security, Supermicro
Meer lezen