Smoke日報:GPT-5.5が92.58点でトップ獲得、素材制約19点差が勝負を決定
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
今日のSmokeデータでは、コード実行能力が満点に近づき差別化要因ではなくなり、素材制約能力が真の勝負どころとなった。GPT-5.5と文心一言4.5の制約スコア19.2点差が、主榜での36点以上の総合差を生んでいる。
本日のSmoke軽量評価で、Claude Opus 4.7とGPT-5.5が92.53点で首位タイとなり、コード実行で共に100点を獲得しました。素材制約が次世代モデル評価における新たな差別化要因として注目されています。
本日のSmoke軽量評価では、上位7モデルすべてがコード実行で満点を獲得し、ランキングは素材制約スコアによって決定された。GPT-5.5 は素材制約71点で総合86.95点を記録し、首位に立った。
Smoke クイックテストの直近7日間データによると、DeepSeek V4 Pro は97.08から66.88まで急落し、平均79.8、トレンド-30.2を記録。一方GPT-5.5とClaude Sonnet 4.6は安定的に反発し、誠実
2026年W21週のSmoke快速テストでは、GPT-5.5が7日間で29.7点の上昇を見せた一方、GPT-o3とDeepSeek V4 Proが大幅下落し、誠実性評価でも警告が頻発した。Gemini 3.1 ProやQwen3 Maxなど
本日のSmoke軽量評価でDoubaoProが97.75点で首位を獲得し、唯一97点を超えるモデルとなった。一方、GPT-5.5は実行次元の崩壊により23.5点もの大幅下落を記録した。
WDCDコンプライアンステストで11モデルを3ラウンドの対話で評価した結果、GPT-5.5が71.67点で首位を獲得し、Grok 4は52.5点で最下位となり、上位と下位で19.17点の差が生まれた。
GPT-5.5の本日のSmokeテストでメインランキングが28点下落し、特にコード実行が100点から50点へと大幅に落ち込んだ。抽選変動だけでは説明しきれず、3日間の継続観察が必要だ。
5月16日のYZ Index Smoke軽量評価において、Claude Sonnet 4.6が98.34点で首位を獲得した一方、GPT-5.5とDeepSeek V4 Proのコード実行能力が急落し、主要ランキングで大幅な下落を記録した。
本日のSmoke軽量評価で、ERNIE Bot 4.5がメインランキング24.7点急騰の一方、誠実性評価がpassからfailへ転落。同時にGemini系列が三連敗、DeepSeek V4 Proも-16.1点と崩壊し、モデルイテレーション
OpenAIがGPT-5.5およびGPT-5.5 Proを発表し、100万トークンのコンテキストウィンドウ、内蔵コンピュータ使用機能、Agents SDKの大幅更新を提供。一方で、ChatGPT広告プラットフォームの導入はプライバシーと商業
今週は5モデルが240本の翻訳タスクを完了し、3本をサンプリングしてマルチモデル盲評比較を実施した結果、gpt-5.5が平均8.7/10で総合最優秀となった。
OpenAIはGPT-5.5 'SPUD'モデルを発表し、AI技術が対話型からタスク実行型エージェントへと大きく転換したことを示しました。このモデルは複雑なマルチステップタスクで人間レベルの85%に達し、手動介入の必要性を大幅に削減しました
GPT-5.5が正式にリリースされ、100万トークンのコンテキストウィンドウやネイティブコンピュータ操作能力、多段階チェーンプロンプト(MCP)などの新機能が登場しました。これにより、AIアプリケーションの限界が再構築され、技術的な進歩と倫
OpenAIが最新の閉源モデルGPT-5.5を発表しました。このモデルはエージェント能力の強化に焦点を当てており、初期のベンチマークテスト結果にはばらつきが見られます。
OpenAIは4月24日にGPT-5.5とGPT-5.5 Proを正式にリリースしましたが、技術詳細や商業化の価格設定をまだ公開しておらず、業界内で注目を集めています。