11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに
Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。
Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。
DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。
Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。
2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。
Anthropicは2026年4月30日、Claude AIの「おべっか」(sycophancy)行動を削減する研究を公開し、Claude Opus 4.7では従来比でおべっか率が50%低下、内部プレビュー版Mythos Previewでは
YZ Indexの最新評価データによると、GPT-4oのコード実行(v5)バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.
YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、ERNIE Bot 4.0は主要指標で唯一のプラス成長を達成した。
DeepSeek V3は今週の評価でプログラミング能力が42.6ポイント向上した一方、安定性指標が53.4から32.0へと急落し、極めて矛盾した性能を示した。
DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。
実際のデバッグシナリオで11の主流AIモデルをテストしたところ、45%のモデルが及第点すら取れず、その中には新しくリリースされたDeepSeek V3も含まれていた。
11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。
5人の順位付けという簡単な論理問題で、DeepSeek V3を含む3つのAIモデルが基本的な制約条件を無視して誤答し、現在のAI推論能力の深刻な脆弱性を露呈した。
ユーザーデータ漏洩の緊急対応について11の主要AIモデルをテストしたところ、60%以上が「報告優先」を選び、国産AIモデルのみが「即座にサービス停止」という正解を導き出した。
Grok 3の最新評価で、論理推論テストにおいて「ABCDE」という無意味な回答を出力し100点満点がゼロ点となる衝撃的な結果が判明。他の性能指標が向上する中、この致命的な失敗は現在の大規模言語モデルの根本的な限界を露呈した。
Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す