Groq LPUがLLM推理速度記録を更新:毎秒500トークンでGPUを大幅に上回る
米国スタートアップGroqが独自開発したLPU(Language Processing Unit)が、大規模言語モデル(LLM)の推理タスクにおいて毎秒500トークンという新記録を達成し、主流のGPUソリューションを大幅に上回る性能を示した
米国スタートアップGroqが独自開発したLPU(Language Processing Unit)が、大規模言語モデル(LLM)の推理タスクにおいて毎秒500トークンという新記録を達成し、主流のGPUソリューションを大幅に上回る性能を示した
SGLangとAutoRoundが正式に連携し、低ビット量子化による効率的なLLM推論をサポート。開発者はAutoRoundの符号勾配最適化技術でモデルを量子化し、SGLangの効率的なランタイムで直接デプロイできるようになりました。
Mini-SGLangは、わずか5000行のPythonコードで最先端の性能を実現する軽量なLLM推論フレームワークで、教育用途と研究プロトタイピングの両方に最適化されています。
SpecForgeチームが複数の業界パートナーと協力し、大規模データセットで訓練された本番環境対応のEAGLE-3モデルチェックポイント集「SpecBundle(Phase 1)」と、全面的に再構築されたSpecForge v0.2を発表。