MoE模型に関するニュース

KTransformersがSGLangの混合推理を高速化

清華大学とApproaching.AIが開発したKTransformersプロジェクトは、MoEモデルのCPU/GPU混合推理を最適化し、SGLangに統合されることで大幅な性能向上を実現しました。

LMSYS AI技术混合推理 KTransformers

2026年2月4日 951

ノーフリーランチ：MiniMax M2が高効率アテンション機構を解体

MiniMaxがM2モデルで全注意機構に回帰した決定について、高効率アテンションの理論的魅力と実用化の困難さを詳細に分析し、産業レベルのLLMシステムエンジニアリングの現実を明らかにする。

LMSYS MiniMax M2 高效注意力 SGLang

2026年2月4日 699

統一FP8：混合精度を超え、安定的な高速化を実現するMoE RL訓練

RLにおける完全FP8サンプリングと訓練フローを実現し、MoEモデルでBF16訓練とFP8ロールアウトを組み合わせた場合に発生する訓練・推論の不整合を、統一FP8により効果的に解消しました。

LMSYS FP8 RL训练 MoE模型

2026年2月4日 615

SGLang、高効率オープンソースNemotron 3 Nano混合MoEモデルを即日サポート

SGLangがNVIDIAの最新高効率Nemotron 3 Nano MoEモデルを発表当日にサポート。同モデルは業界最高レベルの計算効率と精度を提供し、専門的なエージェント型AIシステムの構築を支援します。

LMSYS SGLang Nemotron 3 Nano NVIDIA

2026年2月4日 667