Skip to main content

🚀 NVIDIA DGX SuperPOD

ソフトバンクと東京大学の協創(Beyond AI 連携事業)において NVIDIA DGX SuperPOD を活用して課題解決に挑戦する研究グループを 募集(2024年11月26日)

「NVIDIA Blackwell GPU」を搭載した「NVIDIA DGX SuperPOD」として、世界最大のAI計算基盤を構築 プレスリリース(2025年7月23日)

概要

NVIDIA DGX SuperPOD は、大規模な GPU クラスタを高帯域・低遅延のネットワークで統合した
AI / 機械学習 / HPC 向けの統合計算基盤です。

  • 大規模言語モデル(LLM)の学習・推論
  • 大規模シミュレーション
  • マルチノード・マルチGPU並列処理

といった 計算・通信負荷の高いワークロードを効率的に実行できます。

本ドキュメントでは、SuperPOD 環境を 安全かつ再現性高く利用するための基本的な流れを説明します。

利用全体像(接続・実行フロー)

SuperPOD 環境では、セキュリティと資源管理の観点から
GPU ノードへ直接ログインすることはできません

そのため、以下のように 段階的にサーバーを経由して計算を実行します。

利用手順(概要)

1. アクセスサーバーに接続

外部ネットワークから SuperPOD 内部ネットワークへ安全に接続するため、
最初に SSH トンネルを作成します。

2. ログインサーバーにログイン

SuperPOD 利用時の 作業起点となるサーバーです。

  • ソースコードの準備

  • データの確認

  • Slurm ジョブの投入

などを行います。

3. Slurm コマンドで GPU ノードを確保

Slurm を通じて GPU ノードを割り当て、 計算用のシェルに入ります。

4. enroot コンテナに入って処理を実行

GPU ノード上で enroot コンテナを起動し、処理を実行します。

enroot コンテナ内では、研究に必要なソフトウェアのインストールや環境構築をユーザー権限で柔軟に行うことができます。