模型退化に関するAIニュース | Winzheng AI ニュース

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆

Claude Sonnet 4.6 材料约束 Smoke快测模型退化

2026年5月27日 580

レビュー

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Claude Sonnet 4.6は本日のSmoke評価で素材制約スコアが96.50から74.50へ急落し、一方でコード実行は満点に到達。アライメント調整の代償が現れた可能性が指摘されている。

Claude Sonnet 4.6 材料约束 Smoke评测单日波动

2026年5月26日 519

レビュー

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Gemini 2.5 Pro の本日 Smoke 評価で材料制約スコアが91.50から77.50へ14点急落したが、メインランキングは逆に15.9点上昇。小サンプル抽選による変動か、長コンテキスト拡張に伴う真の性能劣化かを分析する。

Gemini 2.5 Pro 材料约束 Smoke评测性能波动

2026年5月21日 413

レビュー

Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減

本日のSmoke速測において、Gemini 3.1 Proのメインボード得点が11.1ポイント下落し、コード実行次元が満点100から75へと急落した。短期的な観察が必要だが、大規模な移行を要するレベルには至っていない。

Gemini 3.1 Pro 代码执行 Smoke评测模型退化

2026年5月18日 427

レビュー

GPT-5.5メインランキング28点急落：本当に退化したのか

GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。

GPT-5.5 代码执行 Smoke评测模型退化

2026年5月16日 554

レビュー

DeepSeek、5点上昇もFail：10問スモークテストで警報

DeepSeek V4 Proがメインランキングで5点上昇したものの、誠実性評価がpassからfailに転落。コード実行が満点を獲得した一方で、素材制約と誠実性に問題が露呈した。

DeepSeek V4 Pro 诚信评级 Smoke评测模型退化

2026年5月15日 658

レビュー

Claude Sonnet 4.6 材料制約が27.5点急落、メインランキングは逆行で1.4点上昇？

本日のSmoke評価で、AnthropicのClaude Sonnet 4.6は材料制約次元で27.5点急落する一方、コード実行次元では満点を獲得し、メインランキング総合では1.4点上昇という分極化した結果を示した。本記事ではこの変動が真の

Claude Sonnet 4.6 材料约束 Smoke评测模型退化

2026年5月15日 610

レビュー

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

本日のSmoke評価において、Claude Sonnet 4.6のコード実行スコアが昨日の満点100から75点へと急落し、メインランキングの総合スコアを4.2点引き下げた。これは抽選によるランダム性なのか、それともモデルの真の退化なのか、開

Claude Sonnet 4.6 代码执行 Smoke评测模型退化

2026年5月14日 619

レビュー

DeepSeek V4 Pro メイン榜が16点暴落！誠実性評価が崩壊、モデルは本当に退化したのか？

DeepSeek V4 Proが本日のSmoke評価でメイン榜得点が16.1点暴落し、誠実性評価もpassからfailに転落しました。単日のランダム変動ではなく、モデルの本当の退化を示唆する可能性が高いと分析します。

DeepSeek V4 Pro 材料约束 Smoke评测模型退化

2026年5月12日 673

レビュー

Claude Opus 4.7 の材料制約が15.8点急落：モデル劣化か、それとも抽選の茶番か？

Claude Opus 4.7 が本日の Smoke 評価で材料制約スコアが82.60点から66.80点へと15.8点急落し、誠実性評価も pass から warn に転じた。本記事ではこの急落が抽選による変動か真の劣化かを分析する。

Claude Opus 材料约束 Smoke评测模型退化

2026年5月12日 484

レビュー

DeepSeek R1の安定性が22点暴落：簡単な判断問題で全滅した真相

DeepSeek R1の安定性スコアが53.7点から31.6点へと41.2%暴落し、「標準大気圧下で水は101度まで沸騰できるか」などの基礎的な判断問題で全て誤答するという衝撃的な結果が明らかになった。

DeepSeek R1 稳定性测试 AI推理失败模型退化

2026年3月22日 717

レビュー

Claude 4.6バージョンがクラッシュ：23ポイント急落の背後にあるアルゴリズムのブラックホール

Claude 4.6のプログラミング能力が38.3ポイント向上した一方で、安定性が54.2から31.2へと壊滅的に低下し、アルゴリズムレベルでのシステム崩壊が発生した。

Claude 稳定性测试模型退化算法缺陷

2026年3月22日 894

レビュー

GPT-4o崩壊：エンジニアが最も信頼するAIの判断力が0点に転落

最新のAI評価でGPT-4oがコードのバグ検出テストで100点から0点に転落し、基本的な判断力の喪失という深刻な問題が露呈した。

GPT-4o 编程能力代码审查工程实践

2026年3月21日 607

レビュー

文心4.0の一行コードが致命的欠陥を露呈：AIが辞書すら認識できない時

ERNIE Bot 4.0がPythonの基礎的な辞書内包表記で完全に失敗し、リスト形式で出力した上に謎の数字まで追加するという前代未聞のAI劣化事例が発生した。

文心一言4.0 编程能力代码生成模型退化

2026年3月21日 891

模型退化 に関するニュース

Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落

Claude Sonnet 4.6の素材制約が22ポイント急落、コード実行は100点満点に到達

Gemini 2.5 Pro 材料制約が14点急落、メインランキングは逆に15.9点上昇——くじ運か、それとも真の劣化か？

Gemini 3.1 Pro メインボードで11.1ポイント急落、コード実行は100点から半減

GPT-5.5メインランキング28点急落：本当に退化したのか

DeepSeek、5点上昇もFail：10問スモークテストで警報

Claude Sonnet 4.6 材料制約が27.5点急落、メインランキングは逆行で1.4点上昇？

Claude Sonnet 4.6 のコード実行が25点急落：モデルの退化か、評価の錯覚か？

DeepSeek V4 Pro メイン榜が16点暴落！誠実性評価が崩壊、モデルは本当に退化したのか？

Claude Opus 4.7 の材料制約が15.8点急落：モデル劣化か、それとも抽選の茶番か？

DeepSeek R1の安定性が22点暴落：簡単な判断問題で全滅した真相

Claude 4.6バージョンがクラッシュ：23ポイント急落の背後にあるアルゴリズムのブラックホール

GPT-4o崩壊：エンジニアが最も信頼するAIの判断力が0点に転落

文心4.0の一行コードが致命的欠陥を露呈：AIが辞書すら認識できない時

模型退化に関するニュース