DeepSeek-V4:初日で推論と強化学習をサポート
DeepSeek-V4はリリース初日に推論と強化学習のトレーニングをサポートし、SGLangとMilesが初のオープンソース技術スタックとしてこのモデルを支援しています。特に混合稀疏注意力アーキテクチャ、流形制約ハイパーコネクション(mHC
DeepSeek-V4はリリース初日に推論と強化学習のトレーニングをサポートし、SGLangとMilesが初のオープンソース技術スタックとしてこのモデルを支援しています。特に混合稀疏注意力アーキテクチャ、流形制約ハイパーコネクション(mHC
MilesはオープンソースのRL(強化学習)フレームワークで、AMD GPUのROCm環境での大規模な言語・マルチモーダルモデルの後学習を可能にします。
最新研究により、AIが直観的な数学関数に依存するゲームで人間に大きく劣ることが判明。強化学習の成功の裏に隠された汎化能力の欠如が浮き彫りに。