MoE架构 に関するニュース

オリジナル

DeepSeek-V2オープンソース公開:236Bパラメータで16GBのVRAMのみ、数学能力はLlama3を上回り開発者コミュニティを熱狂させる

DeepSeekチームは、236億パラメータで16GBのVRAMのみで効率的に推論できる大規模言語モデルDeepSeek-V2を発表しました。このモデルは数学ベンチマークでMetaのLlama3を上回り、中国のAI業界における大きな突破口と

DeepSeek-V2 开源大模型 国产AI MoE架构
324