模型稳定性に関するニュース

Grok 4が94.20点でトップ維持、ClaudeとGeminiは5点以上下落

WDCD v3.1パイロット評価のRun #247において、Grok 4が94.20点で首位を維持する一方、Claude Opus 4.7とGemini 3.1 Proはいずれも5点以上下落し83点台に後退した。

WDCD 守约测试 Claude Opus Gemini 3.1 Pro

Gemini 2.5 Pro がメインランキングで28点急落、コード実行が100点から半減

Gemini 2.5 Pro は YZ Index 2026年6月 Smoke 評価において、メインランキングのスコアが前日の99.28点から71.33点へと1日で28点下落した。コード実行ディメンションが100.00点から50.00点に急

Gemini 2.5 Pro 代码执行 Smoke评测单日波动

2026年6月22日 352

Qwen3 Max、材料制約スコアが26.7点急落——コード実行は満点100点に上昇

YZ Indexの2026年6月における11モデルの実測で、Qwen3 MaxのSmokeテスト材料制約スコアが前日比26.7点減の68.80点に急落した一方、コード実行スコアは100点満点を記録した。総合メインランキングスコアは5.1点増

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月22日 314

Grok 4の材料制約スコアが25.6点急落、4モデルが主要ランキングで満点並び

2026年6月18日のSmoke軽量評価において、Claude Opus 4.7、DeepSeek V4 Pro、Doubao Pro、GPT-o3の4モデルがコード実行と材料制約の両コア指標で100点を獲得し、主要ランキング総合スコア10

Grok 4 材料约束 Smoke评测执行与约束

2026年6月18日 408

Qwen3 Max の材料制約スコアが28.9点急落——メインランキングはわずか0.8点上昇

YZ Index の Smoke 評価において、Qwen3 Max の材料制約スコアが1日で28.9点下落したが、メインランキングスコアは微増しており、モデル能力の系統的な劣化よりも問題抽選によるばらつきである可能性が高いと分析されている。

Qwen3 Max 材料约束 Smoke评测得分波动

2026年6月17日 402

Claude Opus 4.7が26.9点下落、GPT-5.5は逆に3.1点上昇 — Smokeテスト3日間トレンド

2026年6月12日〜14日に実施された3日間のSmoke速報テストにおいて、Claude Opus 4.7が96.83点から69.91点へと26.9点の最大降落を記録した一方、GPT-5.5は唯一の上昇モデルとして3.1点のプラストレンド

Claude Opus 4.7 GPT-5.5 Smoke快测诚信评级波动

2026年6月14日 475

Gemini 3.1 Pro が96.96点でわずかにリード、Claude Opus 4.7との差はわずか0.13点

本日のSmoke速報テスト結果によると、Gemini 3.1 ProがCore Overall 96.96点で首位を獲得し、Claude Opus 4.7が96.83点で僅差の2位となった。両者の差はわずか0.13点にとどまっている。

Gemini 3.1 Pro 材料约束 Smoke 轻量评测代码执行差距

2026年6月12日 419

Smoke評価で全モデル腰砕け：11モデルのメインランキングが平均42点暴落、コード実行次元で集団崩壊

本日未明3時に発表されたSmoke評価で、11の主要モデルがメインランキングで集団崩壊し、平均下落幅は42点に達した。コード実行次元の崩壊が主因で、全モデルの実行スコアが20または0に腰砕けとなった。

代码执行材料约束 Gemini 3.1 Pro 评测波动

2026年5月28日 604

GPT-o3が主要ランキングで18点急落、DoubaoProが一日で35.8点急騰し逆転で5位以内へ

GPT-o3が本日のSmoke評価で実行スコアがほぼ半減し、主要ランキングが76点から58.08点へ急落。一方、DoubaoProは制約スコアが大幅に改善し、トップ4入りを果たした。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 448

DeepSeek V3の安定性が21.4ポイント急落：出力の一貫性危機を深く分析

DeepSeek V3は、性能指標の多くが向上し、総合得点が52.9から66.6に上昇する一方で、安定性が大きく低下しました。この「能力向上だが出力不安定」という現象を詳しく分析します。

DeepSeek V3 模型稳定性 AI评测性能波动

2026年4月27日 699

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 937

GPT-o3がクラッシュ：30秒で5回のレート制限、長文評価で33.5点の暴落

GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。

GPT-o3 长上下文 API限流模型稳定性

2026年3月22日 886

GPT-4oが崩壊：5問全滅でOpenAIのインフラ問題が露呈

長文コンテキストテストでGPT-4oが5問全てレート制限エラーで失敗し、OpenAIが深刻なインフラ危機に直面していることが明らかになった。

GPT-4o 长上下文 OpenAI基础设施 API限流

2026年3月22日 779

Gemini 2.5 Pro崩壊：安定性が23点暴落、その背後にあるエンジニアリング判断力の不足

Gemini 2.5 Proの安定性スコアが1週間で22.8点も暴落し、プログラミング能力向上と引き換えに深刻な信頼性の問題を露呈した。

Gemini 2.5 Pro 模型稳定性 Google AI 工程判断力

2026年3月22日 1,165

Gemini 2.5 Proの安定性が断崖絶壁のように急落した背後にある技術的隠れたリスク

今週の評価データによると、Gemini 2.5 Proの安定性指標が54.0点から31.2点へと42.2%も急落し、他の次元での全般的な向上とは対照的に、出力品質の一貫性維持における深刻な問題が露呈した。

Gemini 模型稳定性性能评测 AI安全性

2026年3月22日 1,559

ERNIE Bot 4.0の安定性が22点急落、その背後にある技術的隠れたリスク

ERNIE Bot 4.0は今週の評価でプログラミング能力が大幅に向上した一方、安定性スコアが52.1点から30.0点へと急落し、モデルのアップグレードプロセスに深刻な問題が存在する可能性を示している。

文心一言模型稳定性性能评测 AI测评

2026年3月22日 580

Claude 4.6が崩壊：満点の安全問題で全滅した背後にある致命的欠陥

Claude Opus 4.6が安全事件対応問題で0点を取り、安定性が49.1%まで低下。AIが緊急事態で「教科書的」な回答しかできない構造的問題を露呈した。

Claude Opus 4.6 工程判断力安全事件响应 AI决策失误

2026年3月21日 741

GPT-o3が8.7ポイント急上昇の裏側：今週の11AIモデル評価で明らかになった3つの危険信号

100の評価問題で11の最先端モデルを測定した今週の結果から、AI業界の3つの危険な兆候が浮き彫りになった。安定性の欠如、長文コンテキスト処理能力の集団的後退、そして中国産モデルの台頭だ。

GPT-o3 豆包Pro 模型稳定性长上下文处理

2026年3月21日 578