DeepSeek-V2オープンソース版リリース:671Bパラメータから37Bのみ活性化、性能はGPT-4oに迫る
中国のAIスタートアップDeepSeekが最新のオープンソース大規模言語モデルDeepSeek-V2を発表。総パラメータ数671億から37億のみを活性化する高効率MoEアーキテクチャで、GPT-4oに匹敵する性能を実現した。
中国のAIスタートアップDeepSeekが最新のオープンソース大規模言語モデルDeepSeek-V2を発表。総パラメータ数671億から37億のみを活性化する高効率MoEアーキテクチャで、GPT-4oに匹敵する性能を実現した。
Metaが最新のLlama 3.1シリーズを正式発表し、405Bパラメータ版がMMLUベンチマークで88.6%のスコアを記録してオープンソース大規模言語モデルの性能頂点に立った。完全オープンソース形式での無料商用ライセンス提供により、開発者
DeepSeekチームは、236億パラメータで16GBのVRAMのみで効率的に推論できる大規模言語モデルDeepSeek-V2を発表しました。このモデルは数学ベンチマークでMetaのLlama3を上回り、中国のAI業界における大きな突破口と