レビュー AMD GPU上のFP4混合精度推論最適化 AMD GPUでFP4量子化モデルを効率的に実行するためのGPUカーネル集「Petit」を開発し、Llama 3.3 70Bモデルで1.74倍の推論性能向上を実現しました。 LMSYS AMD GPU FP4量化 Petit 2026年2月4日 731