GPT-o3 に関するニュース

GPT-o3、コード実行スコアが52.5点急上昇――素材制約は15.7点下落、総合ランキングは21.8点上昇

GPT-o3が本日のSmokeベンチマークにおいて、コード実行スコアを44.50点から97.00点へと大幅に伸ばした一方、素材制約スコアは100.00点から84.30点へ低下した。総合ランキングスコアは69.48点から91.29点へと21.

GPT-o3 材料约束 Smoke评测主榜波动

GPT-o3のSmokeベンチマーク総合スコアが急落8.3点――コード実行は100点から88.3点へ

GPT-o3が本日のSmokeベンチマークで総合スコアを昨日の96.27点から87.94点へと8.3点落とした。コード実行・工程判断の両次元が大幅に下落し、誠実性評価も「pass」から「warn」に転じた。

GPT-o3 代码执行 Smoke评测主榜波动

GPT-o3、メインランキングで13.8点急落――コード実行が70.3点から48.5点へ

GPT-o3が本日のSmokeテストにおいてメインランキングで80.61点から66.86点へ急落し、コード実行スコアが70.30点から48.50点へ単日21.8点の下落を記録した。各次元のスコア変動の原因と利用者への影響を分析する。

GPT-o3 代码执行 Smoke评测主榜波动

2026年7月19日 148

Claude Opus 4.7が平均86.9点でトップ、GPT-o3は7日間で30.5点下落

2026年7月13日〜19日の7日間Smoke評価において、Claude Opus 4.7が平均86.9点で首位を獲得。GPT-o3は初日97.36点から最終日66.86点へと30.5点下落した。

Claude Opus 4.7 GPT-o3 Smoke 周趋势诚信评级波动

2026年7月19日 112

Claude Sonnet 4.6が15点急上昇、GLM-4.6が15.3点急落——WDCDの守約評価で二極化進む

WDCD v3.1テスト（Run #233）において、Claude Sonnet 4.6が前回比15点上昇、GLM-4.6が15.3点下落という対称的な変動が観測され、11モデル中最も顕著な守約能力の二極化が明らかになった。

WDCD 守约测试 Claude Sonnet 4.6 GLM-4.6

2026年7月15日 125

GPT-o3、材料制約スコアが16.8点急落——タスク表現も同期して28.3点下落

GPT-o3が本日のSmoke評価テストで材料制約スコアが66.80点と昨日の83.60点から16.8点下落し、メインランキング総合スコアも83.44点から80.39点に低下した。材料制約とタスク表現が同時に大幅下落した一方、コード実行スコ

GPT-o3 材料约束 Smoke评测维度波动

2026年7月9日 202

GPT-o3の材料制約スコアが1日で15.2点急落、Smoke主榜が100点から93.16点に低下

YZ Index 2026年6月の実測において、GPT-o3のSmokeベンチマーク「材料制約」スコアが前日の100.00点から84.80点に急落し、主榜全体も100.00点から93.16点に低下した。現時点では抽選による変動の可能性が高く

GPT-o3 材料约束 Smoke评测单日波动

2026年6月19日 335

GPT-o3 蓄水池サンプリング問題で100点から0点に急落、コード実行の真相は細部に隠れている

GPT-o3は今回のv6評価で総合スコアが向上したものの、厳格問題「蓄水池サンプリング」で100点から0点に急落し、コード実行の信頼性に課題が露呈した。エンジニアリング判断は急上昇したが、正確なアルゴリズム実装能力には依然として系統的なリス

GPT-o3 代码执行蓄水池采样得分波动

2026年6月8日 407

ERNIE Botの実行スコア50に暴落、Smoke軽量評価で本日メインランキングが大幅再編

ERNIE Bot 4.5の実行スコアが昨日の100から50へ半減し、メインランキングが11ポイント下落して62.96となった。GPT-o3とGPT-5.5は同時に回復し、Claude双璧が引き続き首位を独占している。

文心一言代码执行 Smoke评测 GPT-o3

2026年5月30日 425

GPT-o3のコード実行が42.5点暴落、メインランキングは1日で18点崩壊

GPT-o3が本日のSmoke評価において、コード実行次元で90.00から47.50へ急落し、メインランキング全体も18点下落して58.08となった。コード実行の堅牢性が著しく損なわれた可能性を示唆する信号である。

GPT-o3 代码执行 Smoke评测模型波动

2026年5月24日 588

GPT-o3が主要ランキングで18点急落、DoubaoProが一日で35.8点急騰し逆転で5位以内へ

GPT-o3が本日のSmoke評価で実行スコアがほぼ半減し、主要ランキングが76点から58.08点へ急落。一方、DoubaoProは制約スコアが大幅に改善し、トップ4入りを果たした。

GPT-o3 豆包 Pro 代码执行模型稳定性

2026年5月24日 448

Grok 4が97.44点で首位、GPT-o3はメインランキングで28点暴落

Smokeの10問クイックテストでAIモデルの実行能力の弱点が浮き彫りに。Grok 4が97.44点で首位に立つ一方、GPT-o3は昨日から28.1点暴落した。

Grok 4 代码执行 GPT-o3 Claude 系列

2026年5月19日 437

7日間Smoke簡易テスト：ERNIE Botが53点急騰、GPT-o3は-7.8で下落首位

今週7日連続のSmoke簡易テストで、ERNIE Bot 4.5が+53.4のトレンドで急騰し最大のダークホースとなった一方、GPT-o3は-7.8で主要モデル中最大の下落を記録した。

文心一言 GPT-o3 Smoke评测模型波动

2026年5月17日 666

GPT-o3、1問で100点から0点に転落、しかしメイン榜は逆に上昇

GPT-o3は基礎的なDebug問題「行列回転」で括弧の欠落により満点から0点に転落したが、YZ Index v6のメイン榜は2.1ポイント上昇した。この事故は、AI生成コードにおける「局所的な致命的失敗」のリスクを浮き彫りにしている。

GPT-o3 代码执行严格题 Debug事故

2026年5月11日 558

GPT-o3が崩壊：31分の暴落が露呈した致命的な欠陥

「最強」を謳うAIモデルGPT-o3が1週間で可用性を100点から69点に急落させ、長文コンテキスト能力や安定性でも大幅な性能低下を示した。この崩壊は単一指標の過度な最適化がもたらしたシステム全体の失調を露呈している。

GPT-o3 可用性测试模型稳定性长上下文处理

2026年3月22日 936

GPT-o3の崩壊：性能変動ではなく、アーキテクチャレベルでのシステム崩壊

GPT-o3の安定性スコアが53点から28点に急落し、可用性も100点から69点に低下。これは単なる性能変動ではなく、アーキテクチャレベルの根本的な設計欠陥によるシステム崩壊である。

GPT-o3 稳定性测试模型架构性能退化

2026年3月22日 768

GPT-o3がクラッシュ：30秒で5回のレート制限、長文評価で33.5点の暴落

GPT-o3が長文コンテキスト評価テストで深刻なAPI制限エラーを起こし、スコアが62.3点から28.8点に暴落。OpenAIのインフラ不足が露呈した。

GPT-o3 长上下文 API限流模型稳定性

2026年3月22日 885

11個のAIモデルが一斉に40点急上昇：プログラミングテストで何が起きたのか？

11個のAIモデルのプログラミング能力が1週間で一斉に約40点急上昇した異常なデータの背後には、中国製モデルの全面的なリード、OpenAIの急落、長文処理能力の重要性向上という3つの重要なシグナルが隠されている。

DeepSeek GPT-o3 编程能力测试模型评测异常

2026年3月22日 714

11個のAIが同じ問題に答えた結果、真実を発見したのは1つだけ：コードにバグはない

6ヶ月間正常に動作していたPythonコードが突然エラーを出したため、11個の最先端AIモデルにバグを探させたところ、コードに問題がないことを発見したのは1つだけだった。これは、AIが暗黙の前提に過度に迎合する危険性を示している。

GPT-o3 Claude AI测试模型对比

2026年3月21日 1,053

GPT-o3が8.7ポイント急上昇の裏側：今週の11AIモデル評価で明らかになった3つの危険信号

100の評価問題で11の最先端モデルを測定した今週の結果から、AI業界の3つの危険な兆候が浮き彫りになった。安定性の欠如、長文コンテキスト処理能力の集団的後退、そして中国産モデルの台頭だ。

GPT-o3 豆包Pro 模型稳定性长上下文处理

2026年3月21日 577