🚀 NVIDIA DGX SuperPOD

「NVIDIA Blackwell GPU」を搭載した「NVIDIA DGX SuperPOD」として、世界最大のAI計算基盤を構築プレスリリース(2025年7月23日)

概要

NVIDIA DGX SuperPOD は、大規模な GPU クラスタを高帯域・低遅延のネットワークで統合した
AI / 機械学習 / HPC 向けの統合計算基盤です。

といった 計算・通信負荷の高いワークロードを効率的に実行できます。

本ドキュメントでは、SuperPOD 環境を 安全かつ再現性高く利用するための基本的な流れを説明します。

SuperPOD 環境では、セキュリティと資源管理の観点から
GPU ノードへ直接ログインすることはできません。

そのため、以下のように 段階的にサーバーを経由して計算を実行します。

外部ネットワークから SuperPOD 内部ネットワークへ安全に接続するため、
最初に SSH トンネルを作成します。

SuperPOD 利用時の作業起点となるサーバーです。

などを行います。

Slurm を通じて GPU ノードを割り当て、計算用のシェルに入ります。

GPU ノード上で enroot コンテナを起動し、処理を実行します。

enroot コンテナ内では、研究に必要なソフトウェアのインストールや環境構築をユーザー権限で柔軟に行うことができます。