Kunnen vijf Mac Studios samen een supercomputer voor AI vormen? Een experiment met EXO Labs

Experiment met Mac Studios: Een Nieuwe Weg voor AI-rekenkracht?

In de wereld van kunstmatige intelligentie (AI) zijn de meest geavanceerde modellen afhankelijk van enorme computercapaciteit, vaak met servers die zijn uitgerust met krachtige GPU’s zoals de NVIDIA H100 of A100. De kosten voor deze infrastructuur kunnen gemakkelijk hoger uitvallen dan die van een gemiddeld huis. Maar recentelijk heeft een experiment deze trend uitgedaagd door gebruik te maken van vijf Mac Studios, die samen een AI-cluster vormden met het opkomende software EXO Labs, dat gedistribueerde computing mogelijk maakt.

De uitdaging: Llama 3.1 405B draaien met consumentenhardware

Llama 3.1 405B is een geavanceerd taalmodel met maar liefst 405 miljard parameters, wat het tot een van de meest complexe modellen maakt in termen van hardware-eisen. Dergelijke modellen worden traditioneel alleen uitgevoerd in datacenters met speciaal geconfigureerde AI-servers, voorzien van hoge datasnelheidsnetwerken en gespecialiseerde videogeheugen (VRAM).

Het doel van het experiment was om te onderzoeken of een cluster van vijf Mac Studios, elk met M2 Ultra-chips en 64 GB unificada geheugen, in staat was om deze uitdaging aan te gaan, en zo de unificatie van geheugenarchitectuur van Apple te benutten als compensatie voor het ontbreken van speciale VRAM.

Configuratie van het cluster met EXO Labs

Om de vijf Mac Studios met elkaar te verbinden en gezamenlijk te laten werken, werd gebruik gemaakt van EXO Labs, een open-source software die het mogelijk maakt om AI-werk beladingen over meerdere apparaten te verdelen, inclusief laptops, pc’s en servers.

De netwerkverbinding was cruciaal voor de prestaties:

  • 10 Gbps Ethernet: Aanvankelijk werden de Mac Studios aangesloten via een 10 Gbps UniFi XG6 POE-switch, maar deze snelheid was al snel onvoldoende om het vereiste dataverkeer te verwerken.
  • Thunderbolt 4 (40 Gbps): Een Thunderbolt-brug werd getest om de bandbreedte te verbeteren en de latentie te verlagen, wat resulteerde in betere communicatie tussen de knooppunten van het cluster.

Eerste tests: prestaties met kleinere modellen

Voordat Llama 3.1 405B werd aangepakt, werden tests uitgevoerd met kleinere modellen:

  • Llama 3.21B (1 miljard parameters): Dit model draaide zonder problemen op een enkele Mac Studio met een acceptabele inferentiesnelheid.
  • Llama 3.3 70B (70 miljard parameters): Dit vereiste het gebruik van het cluster, waarbij de belasting succesvol werd verdeeld, met bevredigende resultaten.
  • Llama 3.1 405B (405 miljard parameters): Dit zou de echte uitdaging worden.

Problemen met het 405B parameter model

Het grootste obstakel was het intensieve geheugenverbruik. Ondanks de 320 GB unificat geheugen in het cluster, was dit niet voldoende om het model zonder gebruik van swap-geheugen te draaien, wat de prestaties ernstig beïnvloedde.

Een ander probleem was de communicatie tussen de knooppunten. Hoewel Thunderbolt 4 de bandbreedte verbeterde, bleef de latentie een beperkende factor. In traditionele datacenters zijn GPU’s verbonden met InfiniBand-netwerken van 400 of 800 Gbps, geoptimaliseerd voor AI-werkbelasting, iets wat niet te repliceren is met deze configuratie.

Daarnaast zijn de software en architectuur van de Mac Studios niet geoptimaliseerd voor AI in dezelfde mate als de NVIDIA GPU’s met CUDA. Hoewel Apple MLX (Machine Learning Acceleration) aanbiedt, is dit nog niet op hetzelfde niveau van optimalisatie als wat beschikbaar is in CUDA- en TensorRT-omgevingen.

Vergelijking met traditionele AI-hardware

BronMac Studio M2 Ultra (x5)Server AI met H100 GPUs
Totale geheugen (RAM/VRAM)320 GB (unified)1 TB+ (H100)
Interne bandbreedte40 Gbps (Thunderbolt)400-800 Gbps (InfiniBand)
Energieverbruik~750W (totaal 5 Mac Studios)3.000-5.000W (datacenter)
Geschatte kosten$13.000 (totaal)$200.000+

Op het gebied van energie-efficiëntie en kosten hebben de Mac Studios duidelijke voordelen. Echter, het gebrek aan gespecialiseerde VRAM en ultra-snelle netwerken beperkt hun vermogen om grootschalige AI-modellen met dezelfde efficiëntie uit te voeren als servers die daarvoor zijn ontworpen.

Conclusie: Is een cluster van Mac Studios levensvatbaar voor AI?

Het experiment met EXO Labs toonde aan dat de Mac Studios in staat zijn om AI-modellen uit te voeren, maar met beperkingen. Voor kleinere of middellange modellen kunnen ze een levensvatbare alternatieve optie zijn, vooral als energieverbruik een belangrijke factor is. Echter, voor grootschalige modellen zoals Llama 3.1 405B blijft het gebrek aan geoptimaliseerde AI-hardware een groot obstakel.

Desondanks opent deze test nieuwe mogelijkheden voor gedistribueerde computing op consumentenhardware, en met toekomstige verbeteringen in software zoals EXO Labs zou het een meer levensvatbare optie kunnen worden voor bepaalde soorten AI-werkbelasting.

Bron: Noticias Inteligencia Artificial