今週Qwen Maxは知識作業次元で顕著な下落を見せ、得点は81.6から71.8へと9.8ポイント低下した。この変化は主にモデルの論理推論タスクでの性能が深刻に後退したことに起因し、特に古典的な「誰が嘘をついたか」推論問題では、得点が50点から25点へと急落した。
論理推論能力に系統的な偏差が発生
「誰が嘘をついたか」というテスト問題では、モデルは「ちょうど一人が嘘をついている」という条件に基づいて論理的推論を行う必要がある。モデルの回答は一見完全な推論プロセスを示している:
推論過程:1. Aが真実を言っていると仮定すると、つまりAはクッキーを盗んでいない。そうするとBとCのうち必ず一人が真実を言い、一人が嘘をついている...2. Aが嘘をついたと仮定すると、実際にはAがクッキーを盗んだことを意味する。この時Bの言う「Aが盗んだ」は真実となる。Cの言う「Bが盗んだ」は偽となる。
表面的には、モデルは場合分けして議論を行っているが、詳細に分析すると推論の連鎖に重要な抜け穴が存在することがわかる。モデルは第一の仮定で矛盾を正しく認識しているが、結論を導く際に性急すぎ、第二の仮定が本当にすべての制約条件を満たしているかを完全に検証していない。この「形式は完全だが論理が厳密でない」問題は、モデルが複数の制約を持つ論理推論を処理する際に系統的な欠陥があることを反映している。
プログラミングタスクの性能が二極化:基礎的な問題で明らかな後退
プログラミング次元の全体得点は2.4ポイント小幅に上昇したが、具体的な問題での性能は深刻な二極化を示している。並行競合状態分析問題では、モデルは問題の本質を「マルチスレッド環境での競合条件」と正しく認識し、threading.Lockを使用する解決策を提案したが、得点は40から20へと低下した。これはモデルの回答が過度に概括的で、競合条件の具体的なメカニズムについての深い分析が欠けているためかもしれない。
さらに注目すべきは、FizzBuzzという古典的なプログラミング問題での性能後退である。モデルは以下のPythonワンライナー解法を提示した:
return ['Fizz' * (i % 3 == 0) + 'Buzz' * (i % 5 == 0) or str(i) for i in range(1, n+1)]
この解法は簡潔で機能的には正しいが、得点は83.3から66.7へと低下した。この基礎的な問題での得点低下は、評価基準の変化を反映しているか、あるいはモデルがコードの可読性や境界条件の処理などの細部で不足があることを示している可能性がある。
長文理解能力の限界が顕在化
契約リスク審査タスクでは、モデルの得点は57.1から42.9へと低下した。モデルは債務不履行責任と知的財産権という二つの重要なリスクポイントを正確に識別したが、回答が途中で切れ、すべてのリスクを完全に説明できなかった。この現象は、モデルが包括的な分析を必要とする長文タスクを処理する際に、注意力の配分が不均等であったり、出力長の制御が適切でない可能性があることを露呈している。
技術分析と展望
総合的に見ると、Qwen Maxの今週の性能後退は三つの側面に集中している:論理推論の厳密性不足、基礎的なプログラミング問題での細部処理能力の低下、そして長文タスクの完全性の欠如である。これらの問題は、モデルの訓練や推論プロセスでのパラメータ調整に起因する可能性があり、また特定の指標の最適化を追求する際に基礎能力を軽視した結果を反映している可能性もある。
注目すべきは、モデルの安定性スコアも7.5ポイント低下したことで、これは各タスクでの性能の変動性と相互に裏付けている。汎用大規模モデルとして位置づけられるQwen Maxにとって、イノベーションを維持しながら基礎能力の安定性をどう保つかが、継続的な改善における重要な課題となるだろう。
データソース:YZ Index | 元データ | YZ Indexトップページ
© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接