La révolution du refroidissement liquide de Nvidia pour les serveurs IA

Mar 12, 2024

La consommation d’énergie des puces IA de pointe est en constante augmentation, ce qui est devenu un catalyseur pour que la prochaine génération de serveurs DGX AI s’oriente vers le refroidissement liquide. Le TDP (puissance de conception thermique) actuel du GPU phare H100 de Nvidia est de 700 W, ce qui dépasse la limite du refroidissement par air traditionnel. Il est prévu que Nvidia lance le GPU B100 à architecture Blackwell avec un TDP d'environ 1 000 W plus tard cette année, et un refroidissement liquide sera certainement nécessaire à ce moment-là.

Nvidia liquid cooling

Pour les systèmes informatiques hautes performances, le refroidissement liquide présente plusieurs avantages clés par rapport au refroidissement par air :
L'excellente efficacité du transfert de chaleur permet de refroidir complètement les composants avec un TDP plus élevé.
En raison de la demande réduite de ventilateurs à grande vitesse, le fonctionnement est plus silencieux
La conception du système est plus dense et les dissipateurs thermiques et les ventilateurs encombrants prennent moins de place
Potentiel de capture et de réutilisation de la chaleur perdue dans les échangeurs de chaleur liquide-liquide

GPU liquid cooling

En utilisant le refroidissement liquide, Nvidia peut continuer à dépasser les limites de performances des accélérateurs d'IA sans être limité par le système de refroidissement. À mesure que la complexité de la charge de formation en intelligence artificielle continue d’augmenter et que la consommation d’énergie du matériel correspondante augmente, cela est crucial. Le serveur DGX AI de Nvidia regroupe plusieurs GPU dans un système optimisé pour les charges de travail d'IA, qui a été rapidement adopté par les grandes entreprises. Les principaux fournisseurs de services cloud tels que Google Cloud, Meta et Microsoft ont déployé des systèmes DGX dans leurs centres de données. Ces dernières années, alors que de plus en plus d’organisations cherchent à tirer parti du pouvoir transformateur de l’intelligence artificielle, l’adoption des systèmes d’intelligence artificielle Nvidia DGX a connu une croissance exponentielle.

GPU LIQUID COOLING

Le système Nvidia DGX peut utiliser des conceptions avancées de refroidissement par immersion utilisant des fluides diélectriques. Le refroidissement direct des puces pompe les fluides diélectriques directement sur les puces GPU et autres composants thermiques, sans avoir besoin de plaques froides, permettant ainsi un transfert de chaleur plus direct. Il peut prendre en charge des niveaux de TDP très élevés (500 W+) sur une seule puce, permettant ainsi d'obtenir des systèmes plus denses.

Direct chip immersion cooling

Alors que l’intelligence artificielle continue de se développer à une vitesse étonnante, l’infrastructure matérielle prise en charge doit évoluer de manière synchrone. Le refroidissement liquide est une technologie clé qui permettra aux accélérateurs d’atteindre des niveaux de performances sans précédent. Cette transformation n’est pas sans défis. Étant donné que les centres de données nécessitent la transformation de l'infrastructure de refroidissement liquide et le développement de nouveaux programmes de maintenance, les avantages en matière d'efficacité énergétique, de densité et de performances sont significatifs et ne peuvent être ignorés.

Une paire de: Analyse de la technologie de refroidissement liquide et de dissipation thermique dans les centres de données IA

Un article: Technologie de refroidissement liquide direct des puces

Connaissance

La révolution du refroidissement liquide de Nvidia pour les serveurs IA