BLOG – Ai-workloads stellen hoge eisen aan een netwerkinfrastructuur. Dat geldt zowel op het gebied van de prestaties als de capaciteit en latency. Traditionele datacenterimplementaties en -technologieën schieten vaak tekort bij het vervullen van deze eisen. Gelukkig bieden ai-datacentertechnologieën een alternatief met efficiënte oplossingen voor compute, storage en networking. Deze technologieën maken gebruik van innovatieve fabric designs voor zowel back-end-training als front-end-inferentie.
Generatieve ai is bezig met een ongekende opmars. Steeds meer organisaties omarmen ai en machine learning (ml). Datacenters vormen daarbij de basis, en datacenternetwerken spelen een belangrijke rol bij het verbinden van dure gpu-servers. Deze servers voeren de rekenintensieve processen uit die bij ai-training komen kijken.
Veeleisend
Ai-training is het meest veeleisende onderdeel van het gehele ai-proces. Dit geldt vooral voor complexe deep learning-modellen die, om de beste prestaties te bereiken, grote hoeveelheden data en gedistribueerde verwerking door gpu’s vereisen. Het trainen van een beeldherkenningsmodel kan bijvoorbeeld miljoenen gelabelde afbeeldingen vereisen. Wanneer het netwerk een bottleneck is, gaat kostbare verwerkingstijd verloren. Om de training te versnellen, moeten de gpu’s met elkaar verbonden zijn in een high-performance–structuur. Deze structuur staat bekend als de back-end-structuur, en ondersteunt zowel gpu-trainingsclusters als opslagnetwerken en biedt voor elke dienst een krachtig netwerk met lage latency.
Ethernet is een ideale oplossing om aan de specifieke eisen van ai-toepassingen te voldoen
Zodra het model getraind is, gaat het over naar de ai-inferentiefase. In deze fase opereert het in een real world-omgeving om voorspellingen te doen of beslissingen te nemen op basis van nieuwe, onbekende data. De ai-inferentieclusters zijn verbonden met front-end-netwerken voor de connectiviteit met de buitenwereld. Denk hierbij aan het afhandelen van inferentieverzoeken van gebruikers of iot-apparaten.
Nu organisaties ai omarmen, is de eerste vraag die ze zich zouden moeten stellen hoe ze zo’n datacenternetwerk voor ai- en ml-workloads op een krachtige, kosteneffectieve manier kunnen bouwen. Beschouw gpu’s en infiniband op de eerste plaats als kostenverhogende en beperkende factoren.
Duizenden gpu’s
Moderne ai- en ml-clusters bestaan uit honderden, soms duizenden gpu’s. Ze zijn nodig om de enorme parallelle rekenkracht te leveren die nodig is om moderne ai-modellen te trainen.
Gpu’s moeten in clusters werken om efficiënt te zijn. Hoewel het schalen van clusters de efficiëntie van het ai-model verbetert, verhoogt het ook de kosten. Het verminderen van de job completion time (jct) en het minimaliseren of elimineren van de tail latency zijn essentieel om de kosten te verlagen en de snelheid te verhogen. Jct verwijst naar de tijd die nodig is om het ai-model te trainen, tail latency naar de tijd die het systeem moet wachten tot de laatste gpu zijn berekeningen heeft afgerond voordat de volgende trainingsronde van het model kan beginnen.
Ethernet
Door de noodzaak om gpu-prestaties te optimaliseren, wordt met name ethernet een steeds belangrijker open netwerkalternatief voor ai-datacenters. In het verleden was InfiniBand, een proprietary netwerktechnologie met hoge snelheid en lage latency, vaak de eerste keuze voor snelle en efficiënte communicatie tussen servers en opslagsystemen. Tegenwoordig wint Ethernet vaker terrein vanwege de operationele voordelen en kostenbesparingen. Bovendien zijn er veel netwerkprofessionals die een Ethernet-netwerk kunnen opzetten en beheren. En dat geldt niet voor een proprietary InfiniBand-netwerk.
Ethernet is daarom een ideale oplossing om aan de specifieke eisen van ai-toepassingen te voldoen, vooral dankzij de hoge verwerkingscapaciteit en lage latency. De netwerktechnologie blijft zich voortdurend ontwikkelen, met recente innovaties zoals 800 GbE en data centre bridging (DCB) die de snelheid, betrouwbaarheid en schaalbaarheid verhogen. Daarnaast zijn er verbeteringen in congestiebeheer, load balancing, verminderde latency voor jct-optimalisatie en vereenvoudigd beheer en automatisering. Hierdoor zijn Ethernet fabrics uitermate geschikt voor missiekritisch ai-verkeer.
Structuur
Men kan verschillende fabric-ontwerpen gebruiken om ai-datacenters van een netwerk te voorzien. Een any-to-any non-blocking fabric wordt aanbevolen om de trainingsstructuur te optimaliseren. Deze wordt opgebouwd met een constante netwerksnelheid van 400 tot 800 Gbps vanaf de NIC naar de leaf– en spine-lagen. Afhankelijk van de grootte van het model en de gpu-schaal kan een tweelaags, drielaags non-blocking fabric of een drielaags, vijflaags non-blocking fabric worden gebruikt.
Daarnaast dragen andere ontwerpconcepten bij aan de betrouwbaarheid en efficiëntie van het gehele netwerk. Dit omvat het goed dimensioneren van de fabric interconnects met het optimale aantal verbindingen en de mogelijkheid om onevenwichtigheden in de datastroom te detecteren en te corrigeren om congestie en pakketverlies te voorkomen. Explicit congestion notification (ecn ) met data centre quantized congestion notice (dcqcn) en op prioriteiten gebaseerde datastroomcontrole zorgen voor een verliesvrije overdracht.
Overbelasting
Dynamische en adaptieve load balancing wordt gebruikt in de switch om overbelasting te verminderen. Dynamische load balancing herverdeelt datastromen lokaal in de switch om ze gelijkmatig te verdelen. Adaptieve load balancing controleert het doorsturen van datastromen en next-hop tabellen. Hierdoor kunnen knelpunten geïdentificeerd worden en verkeer weggeleid van overbelaste paden.
Als een overbelasting onvermijdelijk is, worden de applicaties in een vroeg stadium op de hoogte gebracht via ecn. De leaf– en spine-switches updaten vervolgens de ecn-ingeschakelde pakketten en informeren de verzenders over de overbelasting, zodat zij de overdracht kunnen vertragen om pakketverlies te voorkomen. Als de eindpunten niet op tijd reageren, helpt flow control op basis van prioriteit ethernet-ontvangers om de beschikbare buffer terug te rapporteren aan de afzenders. Ten slotte kunnen leaf- en spine-switches tijdens overbelasting ook verkeer op specifieke verbindingen pauzeren of verminderen. Hierdoor is congestie te verminderen en pakketverlies te voorkomen, waardoor verliesvrije overdracht voor bepaalde soorten verkeer mogelijk blijft.
Automatisering is het laatste element van een effectieve ai-oplossing voor datacenters. Het wordt gebruikt bij het ontwerp, de inzet en het beheer van het ai-datacenter. Het kan de levenscyclus van het ai-datacenter automatiseren van dag 0 tot dag 2+. Dit resulteert in herhaalbare en continu gevalideerde ai-datacenterontwerpen en -implementaties. Ze elimineren niet alleen menselijke fouten. Ze gebruiken ook telemetrie en datastreaminformatie om de prestaties te optimaliseren. Bovendien lossen ze proactief problemen op en voorkomen ze downtime.
Datacenternetwerken spelen belangrijke rol
Ai wordt steeds vaker toegepast, maar we staan nog aan het begin van wat uiteindelijk mogelijk zal zijn. Niettemin zullen datacenternetwerken de komende decennia een rol blijven spelen naarmate we de grenzen van ai verder verkennen. En daarbij zijn ai-infrastructuuroplossingen die hoge prestaties leveren om de gpu-efficiëntie te optimaliseren, essentieel. Ethernet-fabrics met innovatieve netwerktechnologieën die de gegevensoverdracht versnellen en verliesvrije overdracht mogelijk maken, fungeren als katalysatoren en kunnen helpen de ai-revolutie verder te versnellen.
Steven Blees is enterprise sales director Benelux bij Juniper Networks