Llama 3.1 8Bの訓練:MLCommonsベンチマーク詳解
LMSYS OrgとMLCommonsが協力して、Llama 3.1 8Bモデルの訓練ベンチマークレポートを発表し、データ処理からモデル収束までの全プロセスを詳細に開示しました。
LMSYS OrgとMLCommonsが協力して、Llama 3.1 8Bモデルの訓練ベンチマークレポートを発表し、データ処理からモデル収束までの全プロセスを詳細に開示しました。
MLCommonsとLMSYS Orgが共同で、隔離推論シナリオ向けに設計された革新的なAIモデル評価フレームワーク「ISO-AUS」ベンチマークテストを発表した。
MLCommonsがAIモデル訓練性能評価の最新ベンチマーク「MLPerf Training v5.1」を発表、NVIDIAが多くの部門で記録を更新し、FP8量化訓練など新技術が導入された。
MLCommonsがクライアント推論シナリオ向けの最新ベンチマークテストスイート「MLPerf Client 1.5」を発表。モバイルデバイスやノートPC、エッジデバイスでのAI性能評価に焦点を当て、実際のアプリケーションに近い測定基準を提
MLCommonsは、オープンソースのプライバシー保護機械学習ベンチマークプラットフォーム「MedPerf」にWebUI機能を正式に追加したと発表しました。この更新により、開発者は複雑な環境設定なしにブラウザから直接モデル評価とベンチマーク
MLCommonsが発表した最新のVLM推論ベンチマークテストにおいて、Shopifyチームが優れた最適化により業界をリードする性能を達成し、電子商取引分野でのVLM実装に新たな基準を示した。
清華大学とApproaching.AIが開発したKTransformersプロジェクトは、MoEモデルのCPU/GPU混合推理を最適化し、SGLangに統合されることで大幅な性能向上を実現しました。
SGLang-Diffusionは2025年11月の公開以来、速度が初期版の2.5倍に向上し、新モデルサポート、LoRA対応、並列処理の強化など多くの改善を実現しました。
SGLangが超長コンテキスト推論のために高度に最適化されたPipeline Parallelism(PP)を実装し、DeepSeek-V3.1で3.31倍のPrefillスループット向上、TTFTを最大67.9%削減、強スケーリング効率8
AMD GPUでFP4量子化モデルを効率的に実行するためのGPUカーネル集「Petit」を開発し、Llama 3.3 70Bモデルで1.74倍の推論性能向上を実現しました。
SGLangがThinking Machines Labのbatch-invariant演算子を基に完全な決定論的推論を実現し、slimeと協力して100%再現可能なRL訓練を可能にしました。CUDA graphs有効時で2.8倍の高速化を
SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を
H20 GPUの特性を活かしたハードウェア認識型の並列化戦略と、カーネルレベルの最適化によって、DeepSeek-R1の大規模MoEモデルを効率的にデプロイする手法を紹介。ノードあたり16.5k入力トークン/秒、5.7k出力トークン/秒のS
NVIDIA GPUのGreenContext技術を活用し、同一インスタンス内でprefillとdecodeを効率的に多重化する新しいLLMサービスパラダイム「PD-Multiplexing」を提案し、SGLangで実装した初期成果を紹介し
SGLangがDeepSeek-V3.2のDay 0サポートを実現し、Lightning Indexerによる細粒度疎注意メカニズム(DSA)により、長コンテキストシナリオでの訓練・推論効率が大幅に向上しました。
NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。
SGLangとNVIDIAの深い協力により、Blackwellアーキテクチャ上でDeepSeek R1モデルの推論性能が最大4倍向上し、InferenceMAX v1ベンチマークで卓越した成果を達成しました。
SGLang-JaxはJaxとXLAに基づく最先端のオープンソース推論エンジンで、高速なネイティブTPU推論を実現し、他のTPU推論ソリューションに匹敵またはそれを上回る性能を発揮します。
NVIDIA DGX Spark上でSGLangを使用してGPT-OSS 20B/120Bモデルを高速に実行する方法を詳しく解説し、ローカルコーディングエージェントの実現を可能にします。
MiniMaxがM2モデルで全注意機構に回帰した決定について、高効率アテンションの理論的魅力と実用化の困難さを詳細に分析し、産業レベルのLLMシステムエンジニアリングの現実を明らかにする。