赢政 AI 評測 — AI モデル評価・ニュース・研究
総合トップ5
完全ランキング →
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
#1
Grok 4 89.9
▲11.5
·
#2
Claude Opus 4.7 89
▲10.2
·
#3
豆包 Pro 88.8
▲10
·
#4
Claude Sonnet 4.6 87.2
▲9.2
·
#5
Gemini 2.5 Pro 86.4
▲7.4
·
#6
Qwen3 Max 86.2
▲8.5
·
#7
Gemini 3.1 Pro 84.8
▲7.7
·
#8
DeepSeek V4 Pro 83.3
▲6.4
·
#9
GPT-o3 82.8
▲6.9
·
#10
GPT-5.5 80.9
▲2.7
·
#11
文心一言 4.5 76.9
▲15.2
·
▲ Qwen3 Max +7.5 · ▼ GPT-5.5 -12.5
·
最新ニュース
すべてのニュースを見る →WDCD Run #164:11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3%の指示減衰が記録された。高い絶対スコア
AnthropicがClaudeの競合製品開発を制限する物議を醸したポリシーを撤回
AI新興企業Anthropicは、旗艦モデルClaudeを使った競合AIシステムの開発を暗黙的に制限するポリシーを静かに撤回した。著名なAI科学者たちの公開批判を受けての方針転換であり、独立したAI研究への影響が懸念されていた。
AnthropicのCEOの直属部下はたった1人:フラット型マネジメントの極致
AnthropicのCEO Dario Amodeiの直属部下がたった1人であることが明らかになり、シリコンバレーに波紋を広げている。この極限まで絞り込まれたマネジメント構造は、AI業界における新たな組織モデルとして注目を集めている。
Opendoorがインド撤退、AIとアウトソーシング業界の構図に変化
米国の不動産テック企業Opendoorがインド市場から撤退しバンガロールの研究開発センターを閉鎖したことを受け、AIの台頭がアウトソーシング業界をいかに再編しているかについて広範な議論が巻き起こっている。
WDCD Run #161:11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コミットメント減衰率が-48.6%となった
R3崩壊率に7倍の差!11モデルのWDCD三段階遵守における真の劣化検証
WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。
GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む
WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。
AvivaがAIで2億3,000万ポンドの保険詐欺を阻止
英国の保険大手Avivaが、AIシステムの導入により同社史上最高となる2億3,000万ポンドの保険詐欺請求を検知・阻止したことを発表した。詐欺グループもAIを活用した偽造手口を駆使しており、保険業界における「AI対AI」の攻防が激化している
DevOpsにおける自律型AIのデータ損失:効果的な防衛ラインの構築
自律型AIエージェントがDevOpsパイプラインに深く組み込まれる中、その誤動作がデータ漏洩や本番環境の崩壊を招くリスクが深刻化している。本記事では、そのリスクの本質と効果的な防御戦略の3つの方向性を解説する。
オンラインで簡単にPDFに署名:PDF署名ツール使用ガイド
PDF署名ツールの基本機能から操作手順、セキュリティ対策、そしてAI活用による将来のトレンドまでを網羅的に解説するガイド記事。デジタル化が進む現代において、オンラインPDF署名ツールが企業のワークフロー自動化の入り口として注目されている。
マクドナルドがGoogle AIと提携、ドライブスルー注文新システムを試験導入
ファストフード大手マクドナルドが、Google AIを活用した新システム「ArchIQ」を全米5店舗でテスト中。音声注文の精度向上と店舗オペレーションの効率化を目指す。
Siri AIがGoogleと手を組んで登場、世界の大多数の地域は対象外
AppleはWWDC 2026でGoogleのGeminiモデルを基盤とした新世代Siri AIを発表したが、対応地域は30か国・地域未満に限られており、中国・EU・その他多くの市場は除外されている。
レビュー
すべて見る →R3崩壊率に7倍の差!11モデルのWDCD三段階遵守における真の劣化検証
WDCDの三段階テストで、R1・R2でほぼ全モデルが高スコアを記録したにもかかわらず、R3で直接的なプレッシャーをかけると平均誠実率はわずか70.4%に低下し、66回が完全にゼロに崩壊したことが明らかになった。
GPT-5.5が89.17点でWDCDトップ、GPT-o3は70.83点で最下位に沈む
WDCD守約テスト第1回の結果が発表され、GPT-5.5が89.17点で首位を獲得。一方、GPT-o3は70.83点で最下位となり、両者の差は18点以上に達した。
Smoke 評価:10モデルがコード実行で満点、マテリアル制約が順位を決定づける
本日のSmoke軽量評価では、11モデル中9モデルがコード実行で満点を獲得し、順位はマテリアル制約(grounding)によって決定された。Claude Sonnet 4.6が97.98点で首位に立った。
WDCD コンプライアンス
#1
GPT-5.5
88.3
#2
Gemini 3.1 Pro
87.5
#3
Claude Sonnet 4.6
83.3
#4
DeepSeek V4 Pro
82.5
#5
Grok 4
81.7
#6
Qwen3 Max
81.7
#7
文心一言 4.5
77.5
守約ランキング全体を見る →
Research Lab
WDCD Run #164:11のフロンティアモデルにおける平均指示減衰率が-44.3%に到達
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #164において、11のAIモデルを評価した結果、第1ラウンドから第3ラウンドにかけて平均-44.3
WDCD Run #161:11モデル全体の平均指示減衰率が-48.6%、GPT-5.5が89.2ポイントでトップ
Winzheng Dynamic Contextual Decay(WDCD)ベンチマークのRun #161では、11モデルを対象に評価を実施した結果、Round 1からRound 3にかけての平均コ
WDCD Run #157:11モデルの平均指示劣化率が47.7%に到達、トップは3モデルが同点
Winzheng動的コンテキスト劣化(WDCD)ベンチマークのRun #157では、11モデルの平均コミットメント劣化率が47.7%に達し、Claude Sonnet 4.6、Gemini 2.5 P