xAI

Zatvori

VIDEO: Prvi pogled u Muskov superračunalni klaster

Superračunalni klaster xAI Colossus sastavljen od 100 tisuća GPU-a otkriva tajne YouTuberu.

Muskov superračunalni klaster xAI Colossus koji se sastoji od 100 tisuća Nvidijinih H100 Blackwell GPU-a, sastavljen je u samo 122 dana, dok je umreženje trajalo rekordnih 19 dana.

Colossus je u potpunosti razvijen kako bi upogonio xAI-jev model umjetne inteligencije Grok i donio generativni AI globalnim korisnicima gdje god se nalazili u svijetu.

YouTuber Patric Kennedy s kanala ServeTheHome, prvi je dobio dozvolu za snimanje videa koji mu je sponzorirala tvrtka Supermicro, koja je Colossus klasteru osigurala servere.

Supermicro-4U-Universal-GPU-System-for-Liquid-Cooled-NVIDIA-HGX-H100-and-HGX-200-at-SC23-6

Moramo naglasiti da xAI nije dozvolio Patricu da snimi baš sve detalje Colossusa, pa u videu ne možemo vidjeti neke detalje poput potrošnje energije, no dostupno je i više toga nego što bismo očekivali, kao što možete vidjeti u ovom videu.

U superračunalnom klasteru koji je smješten u Memphisu, Tennessee, glavne zvijezde su Nvidia HGX H100 serveri, od kojih svaki sadrži osam Nvidia H100 GPU-a. Supermicro je HGX H100 opremio svojim 4U GPU sustavom s tekućim hlađenjem. Svi serveri su postavljeni u police koje sadrže po 8 poslužitelja, što čini 64 GPU-a po racku (stalku). Između svih HGX H100 su smješteni 1U razdjelnici koji osiguravaju tekuće hlađenje, dok se na dnu nalazi po još jedna Supermicro 4U jedinica s redundantnim sustavom pumpe i sustavom za nadzor racka.

Sa stražnje strane iz svakog poslužitelja izlazi devet ethernet kabela, s četiri napajanja u svakom, a mogu se vidjeti i crijeva za napajanje i hlađenje tekućinom.

Rackovi su upareni u grupe od osam, što čini 512 GPU-a po nizu. Postoji više od 1500 GPU rackova unutar Colossus klastera ili blizu 200 nizova rackova.

Što se tiče velike propusnosti, koja je potrebna zbog stalnog obučavanja AI modela superklastera, svaka grafička kartica ima namjenski NIC (kontroler mrežnog sučelja) na 400GbE, s dodatnih 400Gb NIC po serveru. To znači da svaki HGX H100 poslužitelj ima ethernet vezu od 3,6 terabita po sekundi.

Supermicro-4U-Universal-GPU-System-for-Liquid-Cooled-NVIDIA-HGX-H100-and-HGX-200-at-SC23-3

Pojedinosti o pohrani i CPU serverima koji su također važni za obuku AI modela nisu poznati jer xAI nije želio otkriti detalje o njima, no radi se o nekoj CPU x86 platformi koja je zadužena za pohranu i CPU računanje, a također sadrži tekuće hlađenje.

Patrick je u opisu videa na YouTubeu rekao da ga je prije objave pregledao Elon Musk, koji poslije toga uvjetovao da se neki dijelovi zamute prije objavljivanja.

I za kraj Patrick ističe da je ovo trenutno najveći superračunalni klaster na svijetu za AI obradu, no još nije dovršen već se stalno nadograđuje.

Više informacija o xAI Colossusu možete pronaći u Patrickovom članku koji je objavljen na STH stranici ovdje.