MMLU基准に関するニュース

Qwen2.5-Max中国語MMLU基準で首位獲得：アリババ通義千問がGPT-4oを超えて熱い議論を呼ぶ

アリババクラウドの通義千問チームが発表したQwen2.5-Maxモデルが、権威ある中国語MMLU基準テストで86.1%のスコアを記録し、OpenAIのGPT-4o（85.8%）を超えて中国語大規模モデルの首位に躍り出た。この躍進により24時