赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
#1
Grok 4 83.7
▲2.7
·
#2
Claude Opus 4.7 81.9
▲1.9
·
#3
豆包 Pro 81.6
·
#4
Claude Sonnet 4.6 81.2
▼1.8
·
#5
DeepSeek V4 Pro 81.1
▲4.8
·
#6
Qwen3 Max 80.8
▲1.8
·
#7
GPT-5.5 79.4
▲2.4
·
#8
GPT-o3 78.5
·
#9
文心一言 4.5 74.2
▲7.1
·
#10
Gemini 3.1 Pro 52.8
▼24.9
·
#11
Gemini 2.5 Pro 49.3
▼29.7
·
▲ 文心一言 4.5 +70.7 · ▼ DeepSeek V3 -75.1
·
最新ニュース
すべてのニュースを見る →教皇初の回勅:AI権力が少数の巨頭に過度に集中している
2026年5月27日、バチカンは教皇レオ14世の初の回勅『Magnifica Humanitas』を正式発表し、グローバルなテック巨頭へのAI権力集中問題を厳しく指摘した。回勅は技術権力の分散化と算法ガバナンスの共有を呼びかけている。
バチカンはなぜAnthropicを教皇AI回勅の発表に招いたのか
2026年5月、バチカンは教皇レオ一世が人工知能の倫理と社会的影響をテーマとする初の宗座回勅を来月発表すると公表し、AI安全企業Anthropicの幹部を発表式典に招待した。教会とシリコンバレーの前例なき連携が、テクノロジーと宗教の境界を越
Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか
今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力(約束を守る能力)」で英語圏モデルとの差を急速に縮めている。
WDCD横断評価で判明:業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大
WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。
R1で93%が即承諾、R3では26.4%しか守れず:11モデルWDCD三段階崩壊実測
WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。
Qwen3 Max が72.5点でWDCD制覇、文心一言は45点で最下位、R3崩壊率は60.9%
WDCD遵守テストの3ラウンド対話で、Qwen3 Maxが72.50点で首位を獲得し、2位のClaude Sonnet 4.6を7.5点引き離した。文心一言4.5は45点で唯一50点を下回り、R3段階での崩壊率60.9%は業界の実態を露呈し
AIモデルアグリゲーションプラットフォームOpenRouter、評価額13億ドル突破
AIモデルアグリゲーションプラットフォームOpenRouterが1.13億ドルのシリーズB資金調達を完了し、評価額が13億ドルに達した。マルチモデル協調の需要急増を背景に、半年で利用量が5倍に成長している。
オープンソースパッケージStarletteに「BadHost」脆弱性発見、数百万のAIエージェントが危機に
Python製オープンソースフレームワークStarletteに高危険度の「BadHost」脆弱性が発見され、これに依存する数百万のAIエージェント、APIサービス、Webアプリケーションが影響を受けている。攻撃者はHostヘッダーを偽造する
Claude Sonnet 4.6の材料制約が15点暴落、Smoke快測メインランキングで6.8ポイント下落
Claude Sonnet 4.6が本日のSmoke評価で異常な下落を示し、材料制約スコアが74.50から59.50へ15点急落、メインランキングは81.78に下がりました。誠実性評価もpassからwarnに転じ、モデルの実質的な問題を示唆
Claude Opus 4.7、素材制約が単日15ポイント下落 ― Smokeテストの揺らぎか、真の劣化か
Claude Opus 4.7の本日のSmokeテストで、わずか10問により素材制約次元が15ポイント急落し、メインランキングも6.8ポイント下落して81.78となった。単日データだけでは系統的劣化と断定するには不十分である。
11モデルの素材制約が集団的に15点暴落、Smoke評価がコア弱点を浮き彫りに
Smoke本日の評価では、11モデルの素材制約次元が集団的に崩壊し、平均下落幅は15点を超えた。コード実行は満点を維持する一方、約束分の暴落が主要ランキングを大きく押し下げている。
インドのギグエコノミー:世界中のロボットを訓練する新たな分野となるか?
米国の研究者が設立したスタートアップHuman Archiveが、インドのギグワーカーにカメラやセンサーを装着させ、ロボット訓練用の実世界の物理動作データを収集する革新的なモデルを推進している。低コストで多様な実データを得る一方、プライバシ
レビュー
すべてのレビューを見る →Qwen3 Max が15分急騰しトップに、Claude Opus は7.5分急落――誰が本当に約束を守るのか
今回の WDCD ラウンドでは Qwen3 Max が72.50点で首位を獲得し、前回比15点上昇した一方、Claude Opus 4.7は7.5点下落、中国製モデルが「守約能力(約束を守る能力)」で英語圏モデルとの差を急速に縮めている。
WDCD横断評価で判明:業務ルールが11モデル共通の弱点に、安全コンプライアンスは差別化2点と最大
WDCDの5シナリオ横断評価で、業務ルールが全モデル共通の弱点となり平均2.05点に留まる一方、安全コンプライアンスシナリオでは最高3.5点と最低1.5点の差が2点と最大の差別化を示した。
R1で93%が即承諾、R3では26.4%しか守れず:11モデルWDCD三段階崩壊実測
WDCD三段階テストにより、モデルの「口先だけの紳士」の仮面が剥がされた。R1段階での平均確認率0.93は華やかに見えるが、R3で直接圧力をかけると誠実率は26.4%まで急落し、67回のテストでモデルが完全に制約を放棄した。
WDCD コンプライアンス
#1
Qwen3 Max
72.5
#2
Claude Sonnet 4.6
65
#3
DeepSeek V4 Pro
62.5
#4
Gemini 2.5 Pro
60
#5
GPT-5.5
60
#6
Claude Opus 4.7
57.5
#7
GPT-o3
57.5
守約ランキング全体を見る →
Research Lab
WDCD Run #135:Qwen3 Maxが指示減衰わずか10%でトップ、全体平均は43.3%に
WinzhengのWDCDベンチマークRun #135では、11モデルのマルチターン対話における指示維持能力を評価し、Qwen3 Maxが–10%の最小減衰で首位を獲得した一方、全体平均は43.3%の
3大モデル翻訳対決:第22週品質評価、gpt-o3 が8.3点でリード
今週の237件の翻訳タスクを3つのモデルが完了し、3篇をサンプリングしたマルチモデル盲評の結果、gpt-o3が平均8.3/10で総合最優秀となった。
WDCD Run #125:平均指示減衰率63.6%に達する、Claude Opus 4.7が30%減のみでトップ
Winzheng動的文脈減衰(WDCD)ベンチマークのRun #125において、11モデルの平均指示減衰率は63.6%に達した。Claude Opus 4.7が30%減で最高の減衰耐性を示し、Deep