Storage 2チェックポイント機構詳解

はじめに

AI大規模訓練時代において、チェックポイント(Checkpointing)機構は訓練の安定性と耐障害性を確保する重要な技術です。これにより、システムは訓練が中断された際にモデルの状態を迅速に復元でき、最初からやり直すという巨大な損失を回避できます。MLCommonsが発表したStorage 2ベンチマークは、特にCheckpointingに対して最適化されたテストを行い、LMSYS Orgが主導開発し、ストレージシステムに標準化された評価を提供することを目的としています。

Storage 2ベンチマーク概要

Storage 2はMLPerf Storageベンチマークの第2世代バージョンで、Transformerベースのモデル訓練を含む現代的なAIワークロードへのサポートを拡張しました。Checkpointingテストは、分散マルチノード訓練において定期的にモデルの重み、オプティマイザの状態、ランダムシードを保存するなど、実際のシナリオをシミュレートします。

  • 主要指標:チェックポイント保存時間(Save Time)、復元時間(Restore Time)、総スループット(Throughput)。
  • テスト規模:単一ノードから数百GPUクラスタまで、ResNet-50、BERT、GPT系モデルをサポート。

テスト構成

ベンチマークは標準ハードウェアスタックを使用:NVMe SSD(Samsung PM1733など)、InfiniBandネットワーク(200Gbps以上)、Slurmスケジューラを統合。シナリオは以下に分類:

  • 同期チェックポイント:全ノードが同時に書き込む。
  • 非同期チェックポイント:ノードが独立して保存し、ブロッキングを削減。
  • 増分チェックポイント:変更部分のみ保存し、帯域幅を最適化。

主要結果と分析

典型的な8ノード×8 GPU構成において、トップクラスのシステムは1TBチェックポイントの保存に5分未満、復元時間は2分以内に制御されています。Storage 1と比較して、スループットは30%向上しており、これはLustreやBeeGFSなどの並列ファイルシステムの最適化によるものです。

システム保存時間 (秒)復元時間 (秒)スループット (GB/s)
Baseline NVMe4201802.4
Optimized Lustre2801203.6

ボトルネック分析により、ネットワーク遅延とメタデータ操作が主な課題であることが示され、RDMAと階層型ストレージの採用が推奨されています。

結論と展望

Storage 2 Checkpointingベンチマークは、AIインフラストラクチャベンダーに貴重な洞察を提供し、ストレージシステムをExascale訓練に向けて進化させることを推進します。将来のバージョンではより多くのLLMシナリオを統合予定で、コミュニティからMLCommons公式サイトへの結果提供を歓迎しています。