🚀 NVIDIA DGX SuperPOD
ソフトバンクと東京大学の協創(Beyond AI 連携 事業)において NVIDIA DGX SuperPOD を活用して課題解決に挑戦する研究グループを 募集(2024年11月26日)
「NVIDIA Blackwell GPU」を搭載した「NVIDIA DGX SuperPOD」として、世界最大のAI計算基盤を構築 プレスリリース(2025年7月23日)
概要
NVIDIA DGX SuperPOD は、大規模な GPU クラスタを高帯域・低遅延のネットワークで統合した
AI / 機械学習 / HPC 向けの統合計算基盤です。
- 大規模言語モデル(LLM)の学習・推論
- 大規模シミュレーション
- マルチノード・マルチGPU並列処理
といった 計算・通信負荷の高いワークロードを効率的に実行できます。
本ドキュメントでは、SuperPOD 環境を 安全かつ再現性高く利用するための基本的な流れを説明します。
利用全体像(接続・実行フロー)
SuperPOD 環境では、セキュリティと資源管理の観点から
GPU ノードへ直接ログインすることはできません。
そのため、以下のように 段階的にサーバーを経由して計算を実行します。
利用手順(概要)
1. アクセスサーバーに接続
外部ネットワークから SuperPOD 内部ネットワークへ安全に接続するため、
最初に SSH トンネルを作成します。
2. ログインサーバーにログイン
SuperPOD 利用時の 作業起点となるサーバーです。
-
ソースコードの準備
-
データの確認
-
Slurm ジョブの投入
などを行います。
3. Slurm コマンドで GPU ノードを確保
Slurm を通じて GPU ノードを割り当て、 計算用のシェルに入ります。