模型评测に関するAIニュース | Winzheng AI ニュース

レビュー

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。

材料约束 Claude Opus 4.7 模型评测能力退化

2026年5月27日 574

レビュー

DoubaoPro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か？

DoubaoPro が本日の Smoke 評価でメイン榜が96.06から77.64へと急落し、特にコード実行次元では30.8ポイントの大幅下落を記録した。これが小サンプルの抽選によるランダム性なのか、それとも真の能力退化なのかを分析する。

豆包 Pro 代码执行模型评测性能波动

2026年5月21日 446

レビュー

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

Qwen3 Maxが本日のSmokeクイック評価でメインランキング10.9点を失い、コード実行スコアが100点満点から75点に急落しました。誠実性評価もpassからwarnへ降格し、モデル能力の段階的退化の可能性が示唆されています。

Qwen3 Max 代码执行模型评测性能波动

2026年5月18日 437

レビュー

11モデル世代交代戦：首位は安定維持、Grokが最下位

2026-W20のYZ Indexでは、Claude Sonnet 4.6が83.54で首位を守ったが、Doubao Proが0.91ポイント差まで肉薄。一方Grok 4は49.20で最下位となり、主流モデルとの間に明確な断層が現れた。

Claude Sonnet 4.6 Grok 4 主榜排名模型评测

2026年5月11日 937

オリジナル

Anthropic、反おべっか研究を発表：Claude Opus 4.7のおべっか率が半減、Mythos Previewはさらに前進

Anthropicは2026年4月30日、Claude AIの「おべっか」（sycophancy）行動を削減する研究を公開し、Claude Opus 4.7では従来比でおべっか率が50%低下、内部プレビュー版Mythos Previewでは

Anthropic Claude AI对齐模型评测

2026年5月2日 1,237

レビュー

GPT-4oコード実行能力が23.7点暴落：バージョン更新が引き起こした性能の雪崩

YZ Indexの最新評価データによると、GPT-4oのコード実行（v5）バージョンが重大な性能危機に直面し、コード実行能力が78.0点から62.8点に急落した。7つの評価次元のうち6つで大幅な下落が見られ、総合スコアは81.1点から49.

GPT-4o 代码执行性能下降模型评测

2026年3月31日 966

レビュー

11個AIモデル週次評価：GPT-4oが素材制約で10点暴落、中国製文心が逆行上昇

YZ Indexの週次評価で、かつての王者GPT-4oが素材制約次元で10.3点暴落し最下位に転落。一方、ERNIE Bot 4.0は主要指標で唯一のプラス成長を達成した。

GPT-4o 文心一言材料约束代码执行

2026年3月24日 862

レビュー

DeepSeek V3の安定性が21.4ポイント急落した技術的分析

DeepSeek V3は今週の評価でプログラミング能力が42.6ポイント向上した一方、安定性指標が53.4から32.0へと急落し、極めて矛盾した性能を示した。

DeepSeek V3 稳定性测试模型评测性能波动

2026年3月22日 639

レビュー

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

DeepSeek R1は今週の評価でプログラミング能力が47.4点上昇し67.9点に、長文処理能力が18.1点上昇し78.3点に達した一方で、安定性は53.7点から31.6点へと急落し、極端な性能の二極化を示した。

DeepSeek R1 稳定性测试模型评测性能波动

2026年3月22日 671

レビュー

11個のAIに同じデバッグ問題を解かせたら：5つが即座に0点、致命的な差はどこに？

実際のデバッグシナリオで11の主流AIモデルをテストしたところ、45%のモデルが及第点すら取れず、その中には新しくリリースされたDeepSeek V3も含まれていた。

豆包Pro Claude 工程调试模型评测

2026年3月21日 1,166

レビュー

11個のAIに同じ問題を出題したら、6個は曜日すら計算できなかった

11個の主要AIモデルに小学生レベルのタイムゾーン計算問題を解かせたところ、半数以上が基本的な時間計算を間違え、さらに全モデルが3月15日のアメリカ夏時間への言及を怠るという衝撃的な結果となった。

DeepSeek GPT-4o 时区计算模型评测

2026年3月21日 864

レビュー

11個のAIが同じ論理問題に挑戦、3個が誤答し推論のブラックホールを露呈

5人の順位付けという簡単な論理問題で、DeepSeek V3を含む3つのAIモデルが基本的な制約条件を無視して誤答し、現在のAI推論能力の深刻な脆弱性を露呈した。

DeepSeek Grok 逻辑推理模型评测

2026年3月21日 1,224

レビュー

同じ問題をAI11体に解かせたら、7体が不合格：誰が賢いふりをしているのか？

ユーザーデータ漏洩の緊急対応について11の主要AIモデルをテストしたところ、60%以上が「報告優先」を選び、国産AIモデルのみが「即座にサービス停止」という正解を導き出した。

DeepSeek Claude 安全事件响应工程判断力

2026年3月21日 828

レビュー

Grok 3の論理推論100点がゼロに：5文字がアルゴリズムの致命的欠陥を暴露

Grok 3の最新評価で、論理推論テストにおいて「ABCDE」という無意味な回答を出力し100点満点がゼロ点となる衝撃的な結果が判明。他の性能指標が向上する中、この致命的な失敗は現在の大規模言語モデルの根本的な限界を露呈した。

Grok 3 逻辑推理模型评测算法缺陷

2026年3月21日 705

レビュー

Gemini 2.5 Proの判断力がゼロに：P0級セキュリティインシデントで「報告すればよし」という選択

Gemini 2.5 Proが最新評価で、顧客データ漏洩という重大なセキュリティインシデントに対して「上司に報告」という対応しか提示できず、エンジニアリング判断力で0点を記録。この問題は、AIが「手続き的には正しいが実効性がない」判断を下す

Gemini 2.5 Pro 工程判断力数据安全事故 AI决策失误

2026年3月21日 718

模型评测 に関するニュース

11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに

DoubaoPro メイン榜が18.4ポイント急落、コード実行は1日で30.8ポイント急減、真の退化かそれとも抽選運か？

Qwen3 Maxメインランキングが10.9点暴落、コード実行は単日で25点の半減

11モデル世代交代戦：首位は安定維持、Grokが最下位

Anthropic、反おべっか研究を発表：Claude Opus 4.7のおべっか率が半減、Mythos Previewはさらに前進

GPT-4oコード実行能力が23.7点暴落：バージョン更新が引き起こした性能の雪崩

11個AIモデル週次評価：GPT-4oが素材制約で10点暴落、中国製文心が逆行上昇

DeepSeek V3の安定性が21.4ポイント急落した技術的分析

DeepSeek R1の安定性が22点急落した背後にある技術的リスク

11個のAIに同じデバッグ問題を解かせたら：5つが即座に0点、致命的な差はどこに？

11個のAIに同じ問題を出題したら、6個は曜日すら計算できなかった

11個のAIが同じ論理問題に挑戦、3個が誤答し推論のブラックホールを露呈

同じ問題をAI11体に解かせたら、7体が不合格：誰が賢いふりをしているのか？

Grok 3の論理推論100点がゼロに：5文字がアルゴリズムの致命的欠陥を暴露

Gemini 2.5 Proの判断力がゼロに：P0級セキュリティインシデントで「報告すればよし」という選択

模型评测に関するニュース