AIレビュー

レビュー

Llama 3.1 8Bの訓練：MLCommonsベンチマーク詳解

LMSYS OrgとMLCommonsが協力して、Llama 3.1 8Bモデルの訓練ベンチマークレポートを発表し、データ処理からモデル収束までの全プロセスを詳細に開示しました。

MLC Llama 3.1 模型训练 MLCommons

2026年2月10日 675

レビュー

ISO-AUS：MLCommonsが新世代AI推論ベンチマークを発表

MLCommonsとLMSYS Orgが共同で、隔離推論シナリオ向けに設計された革新的なAIモデル評価フレームワーク「ISO-AUS」ベンチマークテストを発表した。

MLC ISO-AUS AI基准 LMSYS

2026年2月10日 692

レビュー

MLPerf Training v5.1ベンチマーク結果発表

MLCommonsがAIモデル訓練性能評価の最新ベンチマーク「MLPerf Training v5.1」を発表、NVIDIAが多くの部門で記録を更新し、FP8量化訓練など新技術が導入された。

MLC MLPerf 训练基准 AI硬件

2026年2月10日 615

レビュー

MLPerf Client 1.5 正式リリース

MLCommonsがクライアント推論シナリオ向けの最新ベンチマークテストスイート「MLPerf Client 1.5」を発表。モバイルデバイスやノートPC、エッジデバイスでのAI性能評価に焦点を当て、実際のアプリケーションに近い測定基準を提

MLC MLPerf 客户端基准 AI推理

2026年2月10日 536

レビュー

MedPerf、WebUI機能を追加しプライバシー保護ベンチマークテストの体験を向上

MLCommonsは、オープンソースのプライバシー保護機械学習ベンチマークプラットフォーム「MedPerf」にWebUI機能を正式に追加したと発表しました。この更新により、開発者は複雑な環境設定なしにブラウザから直接モデル評価とベンチマーク

MLC MedPerf WebUI MLCommons

2026年2月10日 638

レビュー

Shopify VLM推論ベンチマークテスト詳解

MLCommonsが発表した最新のVLM推論ベンチマークテストにおいて、Shopifyチームが優れた最適化により業界をリードする性能を達成し、電子商取引分野でのVLM実装に新たな基準を示した。

MLC VLM推理 MLPerf基准 Shopify AI

2026年2月10日 408

レビュー

KTransformersがSGLangの混合推理を高速化

清華大学とApproaching.AIが開発したKTransformersプロジェクトは、MoEモデルのCPU/GPU混合推理を最適化し、SGLangに統合されることで大幅な性能向上を実現しました。

LMSYS AI技术混合推理 KTransformers

2026年2月4日 950

レビュー

SGLang-Diffusion 2ヶ月間の進展

SGLang-Diffusionは2025年11月の公開以来、速度が初期版の2.5倍に向上し、新モデルサポート、LoRA対応、並列処理の強化など多くの改善を実現しました。

LMSYS AI技术深度学习性能优化

2026年2月4日 741

レビュー

SGLang Pipeline Parallelism：100万トークンコンテキスト拡張とパフォーマンスブレイクスルー

SGLangが超長コンテキスト推論のために高度に最適化されたPipeline Parallelism（PP）を実装し、DeepSeek-V3.1で3.31倍のPrefillスループット向上、TTFTを最大67.9%削減、強スケーリング効率8

LMSYS SGLang Pipeline Parallelism 超长上下文

2026年2月4日 692

レビュー

AMD GPU上のFP4混合精度推論最適化

AMD GPUでFP4量子化モデルを効率的に実行するためのGPUカーネル集「Petit」を開発し、Llama 3.3 70Bモデルで1.74倍の推論性能向上を実現しました。

LMSYS AMD GPU FP4量化 Petit

2026年2月4日 733

レビュー

SGLangが決定論的推論と再現可能なRL訓練を実現

SGLangがThinking Machines Labのbatch-invariant演算子を基に完全な決定論的推論を実現し、slimeと協力して100%再現可能なRL訓練を可能にしました。CUDA graphs有効時で2.8倍の高速化を

LMSYS SGLang 确定性推理 RL训练

2026年2月4日 718

レビュー

GB200 NVL72でのDeepSeek最適化（二）：プリフィル3.8倍、デコード4.8倍のスループット

SGLangチームがGB200 NVL72上でDeepSeek V3/R1の推論性能を大幅に最適化し、FP8 attentionとNVFP4 MoEなどの技術により、H100と比較してプリフィル3.8倍、デコード4.8倍のスループット向上を

LMSYS SGLang DeepSeek GB200

2026年2月4日 771

レビュー

SGLangとの協業：H20-96GでDeepSeek-R1を効率的にデプロイするベストプラクティス

H20 GPUの特性を活かしたハードウェア認識型の並列化戦略と、カーネルレベルの最適化によって、DeepSeek-R1の大規模MoEモデルを効率的にデプロイする手法を紹介。ノードあたり16.5k入力トークン/秒、5.7k出力トークン/秒のS

LMSYS DeepSeek-R1 H20 GPU SGLang

2026年2月4日 731

レビュー

PD-Multiplexing：GreenContextによる高いGoodputを実現するLLMサービスの新パラダイム

NVIDIA GPUのGreenContext技術を活用し、同一インスタンス内でprefillとdecodeを効率的に多重化する新しいLLMサービスパラダイム「PD-Multiplexing」を提案し、SGLangで実装した初期成果を紹介し

LMSYS PD-Multiplexing GreenContext SGLang

2026年2月4日 644

レビュー

SGLang、DeepSeek-V3.2の疎注意メカニズムを即日サポート

SGLangがDeepSeek-V3.2のDay 0サポートを実現し、Lightning Indexerによる細粒度疎注意メカニズム（DSA）により、長コンテキストシナリオでの訓練・推論効率が大幅に向上しました。

LMSYS SGLang DeepSeek-V3.2 DSA

2026年2月4日 703

レビュー

NVIDIA DGX Spark 徹底評価：ローカルAI推論の新たなベンチマーク

NVIDIAの早期アクセスプログラムを通じて、デスクトップワークステーション形態でスーパーコンピューティング性能を実現するNVIDIA DGX Sparkを詳細にレビューし、SGLangを使用した性能テストと実用シナリオを検証しました。

LMSYS NVIDIA DGX Spark AI推理 SGLang

2026年2月4日 1,792

レビュー

SGLangとNVIDIAが協力してInferenceMAXベンチマークとGB200性能を加速

SGLangとNVIDIAの深い協力により、Blackwellアーキテクチャ上でDeepSeek R1モデルの推論性能が最大4倍向上し、InferenceMAX v1ベンチマークで卓越した成果を達成しました。

LMSYS SGLang NVIDIA Blackwell InferenceMAX

2026年2月4日 758

レビュー

SGLang-Jax：ネイティブTPU推論のためのオープンソース利器

SGLang-JaxはJaxとXLAに基づく最先端のオープンソース推論エンジンで、高速なネイティブTPU推論を実現し、他のTPU推論ソリューションに匹敵またはそれを上回る性能を発揮します。

LMSYS SGLang-Jax TPU推理 Jax优化

2026年2月4日 642

レビュー

NVIDIA DGX Spark上でGPT-OSSを最適化：Sparkの最大限の可能性を解放

NVIDIA DGX Spark上でSGLangを使用してGPT-OSS 20B/120Bモデルを高速に実行する方法を詳しく解説し、ローカルコーディングエージェントの実現を可能にします。

LMSYS NVIDIA DGX Spark GPT-OSS SGLang

2026年2月4日 817

レビュー

ノーフリーランチ：MiniMax M2が高効率アテンション機構を解体

MiniMaxがM2モデルで全注意機構に回帰した決定について、高効率アテンションの理論的魅力と実用化の困難さを詳細に分析し、産業レベルのLLMシステムエンジニアリングの現実を明らかにする。

LMSYS MiniMax M2 高效注意力 SGLang

2026年2月4日 698