DLRMv3：MLPerf Inference生成的推薦ベンチマーク

2026年2月11日 1,150 約11分 MLC

MLC DLRMv3 MLPerf 推荐系统 HSTU 基准测试

はじめに

ニューラルスケーリング則に従った計算規模の拡大は、自然言語処理（NLP）とコンピュータビジョン分野における手動特徴量エンジニアリングの必要性を大幅に削減し、大規模なアテンション Transformer モデルを通じてデータから豊富な表現を自動的に学習する方向へと転換させた[1][2]。この傾向は深層学習推薦システムを深く変革しており、これらのシステムは従来、多層パーセプトロン（MLP）、グラフニューラルネットワーク（GNN）、埋め込みテーブルを用いてアーキテクチャを構築していた[3][4][5]。最近では、大規模なシーケンスおよび生成モデルがオンラインコンテンツ推薦プラットフォームに成功裏に展開され、モデル品質が大幅に向上している[5][7][8][9][10][11][12][13]。推薦システムのグローバルな規模と重要性を考慮すると[6]、このような大規模シーケンス推薦モデルを MLPerf Inference ベンチマークスイートに組み込むことは、インフラストラクチャの継続的な発展を促進するのに役立つ。

我々はDLRMv3を発表する。これは MLPerf DLRM 系列初のシーケンス推薦推論ベンチマークである。DLRMv3 は HSTU アーキテクチャ[5]に基づいてランキングモデルを構築し、現代の推薦負荷を支配する計算パターンを捉えている：長い入力シーケンス、アテンション集約的な計算、大規模な埋め込みテーブル。既存の DLRM ベンチマーク（DLRMv2 [14]）と比較して、DLRMv3 のモデル規模は20倍（50GBから1TBへ）に拡大し、候補あたりの計算は6500倍（40M FLOPから260 GFLOPへ）に急増しており、わずか3年で現代の本番レベルの推薦負荷と整合し、計算需要の急増を際立たせている。この高計算体制は HSTU スケーリング動作の報告に由来しており、より高いモデル計算が本番品質の向上をもたらし、実際のリソース負担と精度のトレードオフの評価を容易にしている。

タスク選択

現代の推薦システムは通常、候補検索とランキングを分離した多段階パイプラインとして展開され、時には再ランキングやビジネスロジックの後処理が追加される[15][16]。典型的な設計では、検索モデルがまず大量のコーパスから少数の関連項目を選択し、高い再現率、カバレッジ、厳格な遅延/メモリ制約を最適化する[15][7]。下流のランキングモデルは、より豊富な特徴量と表現力豊かなアーキテクチャを用いて候補をスコアリングし、きめ細かなユーザーインタラクション指標（CTR、視聴時間、満足度など）を最適化し、やや緩和されたが依然として重要な本番遅延/スループット制約下で動作する[15][16][18]。この段階的設計は、ウェブ、動画、ソーシャルコンテンツ推薦を含む大規模産業システムの標準となっている。

DLRMv3 はパイプラインのランキング段階に焦点を当てている。ランキングモデルは通常、本番推薦システムの全体的な ML 計算予算を支配し、モデルアーキテクチャの革新（アテンションシーケンスモデルや大規模埋め込みテーブルなど）の焦点であり、ハードウェアとシステムのベンチマークテストに特に適している。ランキングに焦点を当てることは、以前の MLPerf DLRM ベンチマークの CTR 予測目標を継続するものでもある。

形式的には、ユーザーのインタラクション履歴（以前に視聴/インタラクションしたアイテムのシーケンスなど）と候補アイテムが与えられたとき、DLRMv3 モデルは期待される結果の確率（クリック、いいね、視聴など）を予測する。この確率予測タスクは、初期の DLRM ベンチマークのバイナリ CTR 型結果モデリングと直接整合する。

モデル選択

図1. 異なる DLRM モデルのアーキテクチャ。

我々は HSTU ベースのアーキテクチャを MLPerf 第3世代深層学習推薦ベンチマーク（DLRMv3）として導入する。DLRM の進化において、DLRMv1 は MLP、埋め込みテーブル、単純なドット積特徴量相互作用から構成され、DLRMv2 は深層交差ネットワーク（DCN）コンポーネントを追加してより豊富な明示的特徴量交差を実現した。DLRMv3 は、階層的シーケンス変換ユニット（HSTU）[5]に基づく全く新しいシーケンス特徴量変換、相互作用、抽出コンポーネントを導入し、単一の大規模埋め込みテーブルと最終予測用のトップレイヤー MLP を保持している（図1(c)）。

HSTU 型アーキテクチャは本番システムで、長いユーザーインタラクション履歴を効果的にモデル化でき、同等またはより高い計算リソースで従来の MLP/DCN モデルを上回り、推薦品質を向上させることが証明されている。その計算特性——長いシーケンス、アテンション集約的、大規模埋め込みテーブル——は現代の推薦推論をますます支配しており、HSTU をシステムレベルのベンチマークとして代表的かつ先見性のある選択にしている。

次の表は、各世代の DLRM モデル構成を比較している。260 GFLOP の計算式は2 * layers * (UIH_length * UIH_length * EmbDim / 2 + UIH_length * EmbDim * EmbDim * 4 + UIH_length * EmbDim * EmbDim * 3)で、アテンション FLOP とアテンション前後の GEMM を含む。この「候補あたり」260 GFLOP は効果的な正規化である：典型的なランキングリクエストでは、HSTU エンコーダーは共有ユーザーインタラクション履歴（UIH）シーケンスを一度だけ処理し、その出力を候補セット（DLRMv3 では2K候補）のスコアリングに再利用し、UIH エンコーディングの支配的なコストを分散化し、2K回繰り返さない。さらに、DLRMv3 はストリーミング時系列設定を採用し、同じユーザーの連続タイムスタンプの UIH 関連 KV 状態を再利用でき、UIH エンコーディングの再計算を回避し、定常状態で約80-90%の冗長な密な計算を削減する。

Model/Input Configurations	DLRMv1	DLRMv2	DLRMv3
Dense Inputs	13 values	13 values	0 values
Sparse Inputs per candidate	26 features, 208 lookups	26 features, 214 lookups	1 main feature, ~7K lookups
Embedding Tables	26 tables Total hash size: 200M EmbDim: 128	26 tables Total hash size: 200M EmbDim: 128	1 main table Hash sizes: 1 billion EmbDim: 512
Feature Interaction	Dot interaction using no trainable parameters	3 layers of LowRank DCN	5 HSTU layers, with user interaction history sequence length ~7K
Embedding table size (float16 datatype)	~50GB	~50GB	1TB
FLOP per candidate	~5 MFLOP	~40 MFLOP	~260 GFLOP

MLPerf Inference ベンチマーク目標と実際の制約をよりよく整合させるため、元の HSTU 論文の設定に2つの意図的な逸脱を導入した。これらの変更は、ハードウェアフレンドリーで広く実装可能でありながら、シーケンス推薦モデルの重要な計算パターンを捉えることを目的としている。

アクション埋め込み前処理：元の HSTU はコンテキストインターリーブアクション埋め込みを使用し、コンテキスト特徴量とユーザーアクションを入力シーケンスに織り込み、より豊富なコンテキスト学習行動-アイテム依存関係を提供する。しかし、インターリーブは実効シーケンス長を倍増させ、計算コストを大幅に増加させる。DLRMv3 ベンチマークはアクションインターリーブを省略し、代わりに簡略化された入力シーケンスを使用して、アクション埋め込みとコンテキスト埋め込みを長さを拡張せずに直接結合する。理由：1）合成ベンチマークデータセット（次節で詳述）は性能測定にのみ使用され、追加の複雑さと倍の長さをサポートする十分に豊富なアクション特徴量が欠けている；2）非インターリーブオプションは、標準化された推論ベンチマークに適した、よりバランスの取れた精度-効率のトレードオフを提供する。

時間/位置エンコーディング：元の HSTU は相対位置バイアス（Mask(SiLU(QKT)+bias)V）を使用してトークン間の相対的な時系列関係を捉え、精度を向上させる。DLRMv3 は絶対時間/位置エンコーディングを使用するように変更し、クエリ、キー、値ベクトルに位置関連バイアスを追加し、アテンション計算は Mask(SiLU(QKT))V となる。絶対バイアスを選択したのは、相対バイアスがカーネル最適化の課題を導入し、複数のプロセッサでアテンション計算を減速させるのに対し、絶対エンコーディングは広くサポートされ、最適化が容易で、性能がより予測可能であるためである。

データセット選択

DLRMv1/v2 とは異なり、DLRMv3 は推薦を超大規模アイテムセットに対する長いユーザーインタラクション履歴のシーケンス変換タスクとして表現する。現代の本番負荷を代表するために、ベンチマークデータセットは同時に以下を満たす必要がある：（1）リクエストあたり合理的に長いユーザーインタラクション履歴（数千イベント）、シーケンスモデルとアテンション層を十分に活性化する；（2）超大規模アイテムセット、DLRMv3 の単一大規模埋め込みテーブルと一致する（ハッシュ規模約10億）；（3）ストリーミング構造、ユーザーが視聴するアイテムと嗜好が時間とともに進化し、推論リクエストを時間順に再生できる。

DLRMv3：MLPerf Inference生成的推薦ベンチマーク

はじめに

タスク選択

モデル選択

データセット選択

関連記事